다른 기술과 마찬가지로 AI는 보통 많이 사용할수록 더 개선되고 유용성이 높아지지만, 동시에 비용도 더 커집니다. 대개 기업들은 AI 프로젝트가 급격하게 성장해 총소유비용(TCO)이 프로젝트의 가치보다 훨씬 커진다면 어떻게 할 것인지 고려하지 않습니다.
AI 프로젝트는 소규모로 어디서든 시작할 수 있으며 일반적으로 그렇게 시작되고 있습니다. 데이터 과학자는 노트북, 워크스테이션, 클라우드 리소스, 또는 데이터센터 내의 강력한 서버 및 스토리지 등의 리소스를 통해서도 작업할 수 있습니다.
문제는 AI 프로젝트를 확장할 때 발생합니다. AI 컴퓨팅에 활용한 초기 리소스로는 더 크고 확장된 AI 작업을 처리하지 못할 수도 있습니다. 어느 시점에서는 프로덕션 수준의 AI에 더 강력한 성능과 더 안정적인 인프라가 필요할 것입니다. 그러나 DIY 솔루션으로는 버거울 수 있으며, 클라우드 컴퓨팅, 네트워킹 및 스토리지의 지속적인 임대 비용을 고려하면 클라우드 AI 솔루션에는 비용이 많이 들 수 있습니다.
파일럿 단계에서 프로덕션 단계로 AI를 확장할 때 생각해봐야 할 TCO 고려사항은 다음과 같습니다.
‘빅 AI’의 매력과 위험성
누구나 “빅데이터”라는 용어에는 익숙할 것입니다. 그런데 이제 “빅 AI(영문자료)”가 등장했습니다.
AI는 매우 빠르게 성장하고 있으며 전 세계 기업의 주요 투자 영역으로 부상하고 있습니다.
AI의 규모와 성장은 다음과 같은 통계에서도 확인할 수 있습니다.
- 향후 5년 동안 전 세계 AI 시장 가치는 거의 1조 4천억 달러(영문자료, 한화 약 1,834조)에 이를 것으로 예상됩니다.
- AI 인프라에 대한 투자는 향후 4년 내에 두 배(영문자료)로 늘어날 것으로 예상됩니다.
- 몇 년 안에기업의 88%(영문자료)가 AI를 주요 투자 영역 또는 최대 투자 영역으로 설정하게 될 것입니다.
AI의 정의를 알아보기 위해 대중매체를 대상으로 설문조사를 실시하면 다음과 같은 세 가지 유형의 정보를 보게 될 것입니다.
- 다양한 문제에 AI가 적용할 수 있는 새롭고 놀라운 모든 기능
- 이러한 솔루션을 구현하는 데 사용할 수 있는 다양한 프레임워크
- 지속적으로 빠르게 개선되는 이러한 프레임워크를 위한 최첨단 하드웨어
문제는 AI와 머신러닝(ML)이 이보다 훨씬 더 거대하다는 것입니다. 산업적 규모의 AI를 담당하는 데이터 아키텍트나 엔지니어라면 이 사실을 잘 알고 있을 것입니다.
그리고 이것이 빅 AI의 위험성입니다. 빅 AI는 일종의 도박과 같습니다. 무엇이 잘못될 수 있는지, 무엇을 잃을 수 있는지에 대해 합리적으로 판단하지 못하면 무엇이 가능하고 무엇을 얻을 수 있는지에 대한 아이디어만 바라보면서 놀라게 됩니다.
AI 코드는 실제 AI 작업의 작은 부분에 불과합니다. AI 시스템의 대부분은 데이터 수집, 정리, 레이블 지정, 확인 및 관리에 집중되며, 인프라도 방대하고 복잡할 수 있습니다.
실제 AI 및 ML 배포에는 막대한 운영 비용이 발생할 수 있습니다. 따라서 프로덕션 단계로 전환하기 전에 비용을 고려하고 계획하는 것이 중요합니다.
AI를 파일럿에서 프로덕션으로 전환하는 과제
AI 모델이 실험실에서는 훌륭하게 작동할 수 있지만 프로덕션과 대규모 환경에서는 또 달라지게 됩니다.
방대한 프로덕션 규모의 데이터 세트에는 확장 가능한 고성능 컴퓨팅 및 스토리지가 필요합니다. 유연하게 배포하려면 이식성을 염두에 두고 구축된 앱이 필요합니다. 보안, 제어, 거버넌스 및 데이터 소유권 요구사항을 충족하려면 온프레미스 또는 클라우드에서 안정적이고 확장 가능한 성능이 필요합니다.
AI에는 데이터 준비, 모델 프로토타입 제작, 훈련 및 추론을 위한 여러 파이프라인이 포함된 복잡한 프로세스가 포함됩니다. 모델 개발은 비선형적인 탐색과 실험의 과정이기도 합니다. 기존의 단일 앱을 구축하는 것과는 달리, AI 모델은 분석 알고리즘과 머신러닝 알고리즘의 조합을 기반으로 하는 복잡한 모델입니다. 또한 하나의 앱이고, 서비스이자, 인터페이스 모음이기도 하며, 이 모든 것은 요구사항과 기술이 발전함에 따라 빠르게 변할 수 있습니다. 그리고 실제로 최종 사용자가 필요한 기능을 사용할 수 있으려면 이 모든 것이 원활하게 통합되어야 합니다.
주의해야 할 점은, 기존 데이터센터 인프라 및 클라우드 리소스로는 프로덕션 수준 AI의 더 높은 성능, 규모 및/또는 가용성 요구사항을 충족하지 못할 수 있다는 것입니다.
마지막으로, 프로덕션 단계의 AI를 구현하는 작업은 단순히 코드의 성공 또는 실패가 아닙니다. 모델 성능을 지속적으로 평가하려면 데이터 과학자가 참여해야 합니다. AI 모델 성능은 기존 소프트웨어보다 더 빠르게 저하될 수 있기 때문입니다. 따라서 지속적으로 수많은 모니터링과 재훈련이 이루어지고 있습니다. 이런 점에서 소프트웨어 개발을 산업화하기 위해 많은 엔터프라이즈 IT 및 DevOps 분야가 발전한 기존 소프트웨어와 크게 다릅니다.
AI 분야에는 데이터 과학 팀이 DevOps 및 IT 팀과 협력하여 더 많은 모델을 프로덕션에 배포하는 새롭고 통합적인 접근 방식이 필요합니다.
MLOps 및 AI 프로젝트 확장의 현실
AI 프로젝트의 씨앗이 될 만한 훌륭한 아이디어가 있고, 이를 상당한 정확도를 가진 모델로 발전시키는 작업을 노트북이나 워크스테이션에서 수행했다고 가정해 보겠습니다. 멋진 일이죠! 추론이 작동하고 있으므로, 샘플 결과를 저장하고 연구 논문을 작성하면 작업이 완료됩니다.
그러나 이제 이 프로젝트를 프로덕션 단계로 확장하려면 부수적인 문제가 많이 발생할 수 있고, 실행 중인 워크로드도 지원해야 할 것입니다. 처음부터 이러한 다른 모든 활동을 계획했다면 가장 이상적일 것입니다.
따라서 엔터프라이즈 AI를 성공으로 이끄는 가장 좋은 방법은 실제로 미리 생각하는 것입니다.
- 이처럼 중요한 프로덕션 활동을 어떻게 지원할 것인지?
- 프로덕션을 방해할 수 있는 함정을 어떻게 피할 수 있을지?
- 패턴이 변화함에 따라 비즈니스 가치를 어떻게 유지할 것인지?
위의 질문에 대한 답변을 종합하면 머신러닝 운영, 즉 “MLOps”라는 개념으로 정리할 수 있습니다.
MLOps는 AI 프로젝트가 확장됨에 따라 필요한 인프라(컴퓨팅 및 스토리지 구성요소)를 계획하는 것입니다.
물론 MLOps의 핵심 부분은 데이터 스토리지입니다.
AI 데이터 스토리지 요구사항
적절한 스토리지 플랫폼은 AI 배포를 간소화하고, 비즈니스 가치를 높이며, 기존 데이터센터나 클라우드 전용 리소스보다 TCO를 낮게 유지할 수 있습니다.
데이터 과학자가 모델을 조정하고 변화하는 패턴과 목표를 알아보기 위해 프로덕션 데이터에 대해 강력히 요구하는 것은 통합 플랫폼입니다. 즉, 모든 프로젝트 단계의 요구사항을 충족하고 개발, 훈련 및 프로덕션을 지원하여 동적으로 변화하는 데이터에 쉽게 액세스할 수 있는 효율적인 단일 고성능 스토리지 시스템을 요구하는 것입니다.
데이터 스토리지 시스템은 작업이 체크포인트될 때 가끔 대규모 순차 쓰기가 급증하는 동안에도 동시 훈련 작업에 필요한 집중적인 무작위 액세스를 유지할 수 있어야 합니다.
데이터 스토리지 시스템(영문자료)은 다음과 같은 기능도 제공해야 합니다.
- 대량의 순차 쓰기 처리량과 소규모 무작위 동시 읽기에 대한 낮은 레이턴시
- 워크스테이션과 서버 간 데이터 공유 및 중단 없이 빠르게 용량 확장 가능
- 병렬 열거 지원
- 프로젝트 수명 전체에 걸쳐 “연중무휴” 운영 제공, 구성 요소 장애 발생 시 자가 복구, 무중단 확장 및 업그레이드 제공
- 데이터 세트 스냅샷 등을 통해 인적 오류로부터 보호하고 데이터센터 생태계에 쉽게 적응
퓨어스토리지 플래시블레이드//S(FlashBlade//S)는 통합 고속 파일 및 오브젝트 시스템으로, 대용량 파일 및 오브젝트 데이터 스토리지의 성능, 확장성, 편의성에 대한 새로운 표준을 제시하여 AI를 완벽히 지원할 수 있습니다. 올플래시 블레이드 기반 시스템은 하드웨어, 소프트웨어, 네트워킹을 통합하여 다른 시스템보다 더 낮은 전력 소비 및 열 발생과 함께 더 높은 스토리지 집적도를 제공할 뿐만 아니라 사실상 모든 파일 및 오브젝트 워크로드 조합을 지원하는 다양한 성능을 제공합니다.