성공적인 생성형 AI 도입에 데이터 스토리지가 중요한 이유

기업에게 생성형 AI는 고도로 압축된 디지털 트랜스포메이션 이니셔티브와 같습니다. 생성형 AI의 도입이 폭발적으로 증가함에 따라, 어떻게 도입할 것인지가 아니라 기존 데이터 인프라가 지원을 할 수 있는지가 중요한 문제가 될 것입니다.

Generative AI

생성형 AI에 관한 이 블로그 포스트는 캘빈 니히(Calvin Nieh)와 캐리 우드하우스(Carey Wodehouse)가 공동으로 작성했습니다.

기업이 혁신과 트렌드를 도입하는 데에는 패턴이 존재합니다. 먼저 테스트를 해보고 그 후에 계획을 수립하는 것입니다. 지난 몇 년간 IT 팀이 그래왔듯이 도입 방법은 보통 나중에 생각하지만, 사실은 ‘방법’이 가장 중요한 경우가 많습니다. 그리고 새로운 기술의 성패는 궁극적으로 인프라가 이를 지원할 수 있는지 여부에 달려 있습니다.

생성형 AI 도입과 관련해 한 가지 분명한 사실은 데이터 인프라의 수준을 지금 당장 끌어올려야 한다는 것입니다.

생성형 AI는 새로운 것이 아닙니다. 가속화된 디지털 트랜스포메이션이라고 생각하면 됩니다.

모든 기업은 보안 기업이 되어야 한다는 말이 있습니다. 이제 모든 기업은 AI 지원 기업이 되어야 합니다.

그 이유는 이제 AI의 진입장벽이 무너졌기 때문입니다. AI는 더 이상 데이터 과학자의 연구실에만 존재하는 실험 대상이 아닙니다. 이제 모두가 사용할 수 있게 되었으며, 이는 시작일 뿐입니다.

엔터프라이즈의 생성형 AI의 사용 사례는 나날이 확장되고 있습니다. MosaicML을 인수한 Databricks(영문자료) 같은 기업들은 안전한 기업용 생성형 AI 모델을 제공하고 있으며, Neeva를 인수한 Snowflake(영문자료)는 LLM(대규모 언어 모델) 기반 비즈니스 인텔리전스를 기업 데이터에 도입할 예정입니다. 이 모든 것은 모든 산업에 엄청난 변화를 예고합니다. 경기 침체기에 AI를 통해 얻을 수 있는 효율성은 대단히 매력적이라고 할 수 있습니다. 경제적인 비용으로 접근 가능한 AI는 SaaS(서비스형 소프트웨어)와 마찬가지로 하나의 툴이 될 것입니다. (현재 이미 서비스로 제공되고 있으며, 공격적으로 성장하고 있습니다.)

그러나 기업의 사용 사례에서 중요한 문제는 AI 구현 여부가 아니라 어떻게 구현해야 하는가, 그리고 데이터를 어떻게 관리할 것인가입니다. LLM은 CRM(고객관계관리)이나 ERM(전사적위험관리)처럼 클라우드 기반 서비스와 애플리케이션으로 발전할 가능성이 높으며, 이로 인해 기업은 또 다른 워크로드를 이미 복잡한 데이터 자산에 추가해야 할 것입니다.

때문에, 데이터 관리의 간단함이 그 어느 때보다 중요해질 것입니다.

장애물: 퍼블릭 도메인에서 프라이빗 데이터로

생성형 AI 툴은 많은 데이터를 필요로 합니다. 더 많은 양의 데이터를 제공할수록 더욱 똑똑해집니다. 기업이 (내부적으로, 독점적으로) AI를 중요한 영역에 활용하려면, 퍼블릭 도메인 이외의 새로운 데이터가 필요합니다. 그리고 수집할 수 없는 데이터는 모두 안전한 방식으로 보호되어야 합니다.

“LLM의 적용 가능성은 빠르게 진화하고 있으며, 비즈니스 및 기술 리더는… 빠르게 움직이고 최신 모델을 활용해야 하며, 보안을 유지하며 내부 데이터로 맞춤화해야 합니다. LLM을 문맥화하는 데 사용되는 프롬프트와 함께, 소스 코드, 개인 식별 정보, 내부 문서, 위키, 코드 베이스 등 기타 민감 데이터나 독점적인 데이터를 보호하는 것이 특히 중요합니다.” – 스노우플레이크에서 생성형 AI LLM 위한 데이터 중심 플랫폼을 구축하는 방법(영문자료)

거의 모든 조직이 자체적인 LLM 모델과 사용 사례를 고려하고 있습니다. 대형 제공업체들은 이미 생성형 AI 경쟁에 뛰어들었습니다. 모든 리더들은 이를 활용하는 방법을 고려하는 동시에, 가장 귀중한 리소스인 데이터에 대한 통제권을 유지하면서 효과적으로 활용하는 방법도 고려해야 합니다.

“데이터를 넘겨주고 싶지 않다면, 자체 모델을 구축해야 합니다. 그렇다면 자체 모델을 어떻게 구축할 것인지 고민해야 합니다.” – David Sacks, “All-In Podcast(영문자료)

일부의 경우 이는 데이터를 AI 컴퓨팅으로 가져오는 것이 아니라 AI 컴퓨팅 역량을 데이터에 맞게 조정하는 것을 의미합니다. 이를 위해 많은 조직들은 자체 모델을 구축하는 방법을 모색하고 있습니다. 제공업체들은 생성형 AI 비즈니스를 지원할 수 있는 AI 지원 스택과 엔드-투-엔드 툴 체인을 구축하기 위해 경쟁하고 있습니다. 클라우드는 선택 사항이지만, 클라우드에서 AI를 운영하면 시간이 지남에 따라 비용이 크게 늘어날 수 있습니다. 클라우드와 온프레미스 솔루션을 비교할 때 총소유비용(TCO)은 중요한 고려 사항이며, 효율적인 고성능 온프레미스 솔루션은 데이터 과학자들이 높은 생산성을 유지할 수 있도록 지원하며 장기적으로 비용을 절감해주는 경우가 많습니다.

또한 조직의 데이터 인프라는 미래에 대비할 수 있고, 간단하며, 충분히 확장할 수 있어야 합니다. 필요한 데이터를 AI 워크플로우에 맞게 민첩하게 만드는 동시에 보관하고 보호하는 것도 중요하지만, 모든 데이터 스토리지가 이러한 역량을 갖춘 것은 아닙니다.

AI 코파일럿은 데이터에 어떤 영향을 미칠까요?

먼저, 볼륨이 문제입니다. 생성형 AI는 글로벌 데이터에 영향을 미치는 가장 강력한 혁신 중 하나가 될 것입니다. 2022년부터 연평균 데이터 증가율이 25%에 달할 것이라는 보수적인 예측이 있었지만, 이는 ChatGPT와 이미지 생성이 폭발적으로 증가하기 전에 나온 추정치입니다.

다음을 고려해 볼 수 있습니다. 그래픽 디자이너는 물리적으로 하루에 300개의 고유한 이미지를 만들 수 없지만, AI 이미지 플랫폼은 가능합니다. AI의 역량은 물리적 현실의 제약을 받지 않지만, AI가 생성하는 데이터는 물리적 현실의 제약을 받습니다. 그리고 데이터는 어딘가에 상주해야 합니다.

그 다음 문제는 접근성입니다. IDC의 AI StrategiesView 2022 연구에 따르면, IT 및 사업부의 의사 결정자와 영향력 있는 사람들은 “데이터의 안전한 가용성과 접근성은 AI 이니셔티브 확장에 매우 중요하다.”라고 생각하고 있습니다. 디스크는 이를 따라잡을 수 없습니다. 그러나 AI에 최적화된 엔터프라이즈 올플래시 솔루션은 압축 등의 데이터 절감 기술, 높은 처리량, 병렬 및 스케일-아웃 아키텍처를 갖추고 있으며, 무중단 업그레이드를 제공하고, 성능과 용량을 별도로 확장할 수 있습니다.

AI와 머신러닝(ML)은 가장 데이터를 많이 사용하는 프로젝트입니다. 비정형 데이터, 특히 사진과 비디오는 집계와 분석이 매우 까다롭습니다. 이를 위해서는 한꺼번에 또는 이러한 기능이 필요할 때마다 다양한 데이터 프로필에 대한 분석을 수행할 수 있는 플랫폼이 필요합니다.

그리고 모든 기업이 더 많은 AI 프로젝트를 실행하고 싶어 하지만 데이터센터의 설치 공간도 줄이길 원합니다. 데이터센터에 공급해야 하는 전력은 무한하지도, 저렴하지도 않습니다. 기업이 효율성을 희생하지 않고 AI를 통해 발전할 수 있는 유일한 방법은 플래시를 선택하는 것입니다.

생성형 AI를 지원하는 데이터센터를 구축하는 방법

All-In Podcast(영문자료)의 최신 회차에서 데이빗 프리드버그(David Friedberg)는 생성형 AI 사용 사례가 폭발적으로 증가하여 “AI가 모든 핵심적인 기업 인프라의 일부가 되어야 한다면 데이터 인프라와 데이터베이스 기업들은 미래에 어떤 모습이 될 것인가”라는 질문을 해야 한다고 말했습니다.

바로 올플래시 데이터센터가 그 중 하나입니다.

“데이터 인프라 제공업체들에게 레벨업이 점점 중요해지고 있습니다. 데이터를 저장하고 이동하고 조정하는 것뿐만 아니라 모델을 통한 데이터 해석과 이러한 모델을 구축하기 위한 툴이 이러한 소프트웨어 기업들이 제공해야 하는 모든 툴 킷의 중요한 구성 요소가 됩니다.” – David Friedberg

조직은 “생성형 AI가 우리 비즈니스에서 어떤 역할을 할 것인가?”를 묻는 동시에, “우리 IT 인프라가 이를 위한 준비가 되어 있는가?”라는 질문을 해봐야 합니다.

모든 기업이 자체적인 LLM이 필요한 것은 아닙니다(영문자료). 그러나 자체 모델을 훈련시키든, 애플리케이션이나 클라우드를 통해 생성형 AI를 활용하든, 현대적인 데이터 스토리지가 중심이 될 것입니다. 플래시블레이드//S(FlashBlade//S) 같은 AI를 위한 강력하고 효율적인 스토리지 플랫폼은 수많은 강력한 NVIDIA GPU에서 생성되는 모든 데이터와 작업을 처리할 수 있습니다. AI 인프라를 최대한 활용하려면, 확장 가능하고 많은 데이터를 한 번에 처리하며(고대역폭), 많은 애플리케이션 프로세스 간에 정보를 병렬로 공유할 수 있고, 레이턴시가 낮은 고성능 스토리지 플랫폼이 필요합니다. 이러한 플랫폼은 가장 낮은 TCO로 AI 결과를 최적화하는 데 핵심입니다. 에이리//S(AIRI//S)는 NVIDIA DGX, NVIDIA 네트워킹 및 플래시블레이드//S와 밀접하게 결합되어 AI 지원 인프라를 더욱 빠르게 구현해주고, 사전 테스트된 솔루션으로 AI 및 IT 팀이 배포가 아니라 혁신에 집중할 수 있도록 지원합니다.

퓨어스토리지 AI 솔루션에 대해 자세히 알아보세요.