AI 데이터 파이프라인이란 무엇이고, 왜 스토리지가 중요할까요?

AI 데이터 파이프라인이 무엇인지, 왜 데이터가 AI에 핵심인지, AI 데이터 파이프라인의 수명주기가 어떤 모습인지, 그리고 AI 데이터 파이프라인에 적합한 데이터 스토리지 플랫폼이 왜 중요한지 알아봅니다.

What is an AI Data Pipeline

6분
image_pdfimage_print

AI 데이터 파이프라인은 AI 사용 사례를 지원하는 데이터 파이프라인입니다. 일반적인 데이터 파이프라인(영문자료)은 하나 이상의 소스에서 모든 유형의 대상 시스템으로 데이터를 추출, 변환 및 로드하는 데 사용되는 도구 집합입니다. AI 데이터 파이프라인은 AI 시스템을 지원하는 모든 도구와 데이터 전달 방법들로 구성됩니다.

지금 AI 데이터 파이프라인이 왜 중요할까요? 

심층 신경망이 발전하면서 데이터 과학자들이 AI로 데이터를 활용할 수 있도록 하는 새로운 알고리즘과 도구들이 등장했습니다. 향상된 알고리즘, 대용량 데이터 세트 그리고 오픈소스 머신러닝 프레임워크 덕분에, 데이터 과학자들은 자율주행 자동차(영문자료), 자연어 처리, 고급 의학 연구 같은 강력하고 새로운 사용 사례를 다룰 수 있게 되었습니다. 그러려면 먼저 AI 모델에 공급될 데이터를 쉽게 수집, 정리, 처리, 저장 및 분석할 수 있는 방법이 필요합니다.

최근 AI Today 팟캐스트(영문자료)에서 설명한 것처럼 퓨어스토리지의 플래시블레이드(FlashBlade) 같은 제품들이 개발된 이유 중 하나는 AI 모델 훈련으로 인해 빠르게 증가하는 비정형 데이터를 기업이 처리할 수 있도록 돕기 위해서였습니다.

AI Today 팟캐스트에서 AI 데이터 스토리지의 관계에 대한 저스틴 에머슨(Justin Emerson) 이야기를 들어보세요(영문자료).

퓨어스토리지의 플래시블레이드 기술을 널리 알리고 있는 테크 에반젤리스트 저스틴 에머슨은 “데이터가 AI 알고리즘을 구축할 때 가장 중요한 리소스라는 것을 모두 알고 있다”고 말했습니다. 

데이터는 현대적인 딥 러닝 알고리즘의 핵심입니다. 훈련을 시작하기도 전에 직면하는 어려운 문제는 정확한 AI 모델을 훈련하는 데 중요한 역할을 하는 레이블링된(명시적인 정답이 있는) 데이터를 수집하는 것입니다. 그런 다음 본격적인 AI 배포는 더 많은 양의 데이터를 지속적으로 수집, 정리, 변환, 레이블링 및 저장해야 합니다. 고품질 데이터 포인트를 추가하면 더 정확한 모델과 더 나은 인사이트를 얻을 수 있습니다.

AI Today 팟캐스트의 호스트 로날드 슈멜저(Ronald Schmelzer)는 “AI의 중심이자 핵심은 데이터이다. 인식이든, 대화이든, 생성이든, 우리는 데이터에서 더 많은 가치를 얻기 위해 노력한다. 그 중 많은 부분이 양질의 데이터를 보유하는 데 달려 있다”고 말했습니다.

양질의 데이터를 유지하는 데 있어 중요한 부분은 기업이 데이터 과학자의 노력으로 양질의 인사이트를 생성하고 성과를 가속화하는 데 사용하는 AI 데이터 파이프라인 수명 주기에서 발생합니다.

AI 데이터 파이프라인 수명주기

AI 데이터 파이프라인에서 데이터 패킷은 다음과 같은 일련의 처리 단계를 거칩니다.

  1. 인제스트(Ingestion): 일반적으로 파일 또는 오브젝트 형태의 데이터가 외부 소스에서 AI 모델 훈련 시스템으로 수집됩니다.
  2. 정리(Cleaning): 원시 데이터가 정렬 및 평가되고 전송과 저장을 위해 준비됩니다.
  3. 탐사(Exploration): 일부 데이터가 매개 변수와 모델을 테스트하는 데 사용되며가장 유망한 모델은 신속하게 반복되어 프로덕션 클러스터로 푸시됩니다.
  4. 훈련(Training): 새로운 샘플과 이전 샘플을 포함해 입력 데이터의 무작위 배치를 선택하고 이를 모델 매개 변수를 업데이트하기 위한 계산이 수행될 수 있도록 프로덕션 GPU 서버에 공급합니다. 마지막으로, 모델의 정확성을 평가하기 위해 데이터의 일부를 보류합니다.
  5. 배포(Deployment): 모델이 프로덕션 환경에 투입되어 의도된 목표를 달성하기 위해 데이터 스트림에서 작동합니다. 예를 들어, 구매 상품 추천, 비디오 스트림의 이미지 인식 등이 가능합니다.

이러한 수명주기는 신경망이나 딥러닝뿐만 아니라 모든 유형의 병렬 머신러닝에 적용됩니다. 예를 들어, Spark MLlib(영문자료) 같은 표준 머신러닝 프레임워크는 GPU가 아니라 CPU를 사용하지만 데이터 인제스트와 훈련 워크플로우는 동일합니다.

AI 파이프라인에서 데이터 스토리지가 갖는 중요성

AI Data Pipeline

위에서 살펴본 바와 같이 AI 데이터 파이프라인의 각 단계에는 기저 스토리지 아키텍처의 다양한 요구사항이 존재합니다. AI 알고리즘을 혁신하고 개선하기 위해, 스토리지는 작은 파일에서 대용량 파일까지, 랜덤 액세스 패턴에서 순차적 액세스 패턴까지, 낮은 동시성에서 높은 동시성까지 모든 액세스 패턴에 대해 균일한 성능을 제공하는 동시에 용량과 성능을 확장하기 위해 중단 없이 선형적으로 쉽게 확장할 수 있는 역량을 제공해야 합니다.

이는 레거시 스토리지 시스템에서는 충족할 수 없는 설계상의 문제이므로 데이터 아키텍트는 복잡성을 도입해야 하고, 이로 인해 개발 속도가 늦어질 수 밖에 없습니다.

팟캐스트에서 에머슨은 “2~30년 전에는 데이터의 쓰기보다 읽기가 더 많았지만, 지금은 모든 것을 보관하기 때문에 너무 많은 데이터가 쓰기 되고 있다. 그 이유는 언젠가 그러한 데이터로부터 가치를 얻길 원하기 때문”이라고 설명했습니다. 

첫 번째 단계에서는 데이터가 이상적으로 동일한 데이터 플랫폼에 수집되고 저장되므로 다음 단계에서 과도한 데이터 복사가 필요하지 않습니다. 그 다음 두 단계에서는 선택적으로 GPU를 포함하는 표준 컴퓨팅 서버에서 수행될 수 있으며, 네 번째와 마지막 단계에서는 NVIDIA DGX 시스템 같은 강력한 GPU 가속 서버에서 프로덕션 수준의 완전한 훈련 작업을 실행할 수 있습니다. 동일한 데이터 세트에 실험적인 파이프라인과 프로덕션 파이프라인이 함께 운영되는 경우가 종종 있습니다. 또한 DGX GPU는 서로 다른 모델에 대해 독립적으로 사용하거나 함께 결합해 하나의 더 큰 모델에서 훈련하는 데 사용될 수 있으며, 심지어 분산 훈련을 위해 여러 DGX 시스템에 걸쳐 있을 수도 있습니다.

단일 공유 스토리지 플랫폼은 수집, 사전 처리 및 훈련 단계에서 추가적인 데이터 복제본을 사용하지 않고 수명주기 전반에서 조율 지점을 생성합니다. 수집된 데이터가 한 가지 목적으로만 사용되는 경우는 거의 없으며, 공유되는 고성능 스토리지는 다양한 방식으로 데이터를 해석하거나, 여러 모델을 훈련하거나, 데이터에 기존 분석을 적용하는 등의 유연성을 제공합니다.

공유 스토리지 계층이 느린 경우, 각 단계에서 데이터를 로컬 스토리지로 복제해야 하므로 데이터를 다른 서버로 스테이징하는 데 시간이 낭비됩니다.

AI 훈련 파이프라인에 적합한 데이터 스토리지 플랫폼은 데이터가 시스템 RAM에 저장된 것과 유사한 성능을 제공하면서 모든 파이프라인 단계가 동시에 작동할 수 있는 간단함과 성능을 제공합니다.

AI 데이터 파이프라인을 위해 퓨어스토리지를 선택해야 하는 이유

퓨어스토리지의 플래시블레이드//S(FlashBlade//S)는 AI를 위한 이상적인 데이터 플랫폼으로, 처음부터 현대적인 비정형 워크로드를 위해 특별히 제작되었으며, 전체 AI 데이터 파이프라인을 지원합니다.

딥 러닝 아키텍처에 기반한 이 중앙화된 데이터 스토리지 플랫폼은 데이터 과학자의 생산성을 높이고 데이터 아키텍트의 확장과 운영을 더욱 간편하고 민첩하게 만들어 줍니다.

에머슨은 “AI 여정을 시작할 때는 데이터 작업, 데이터 레이블링, 데이터 변환 등에 얼마나 많은 시간이 소요되는지 알지 못하는 경우가 많다. 훈련 프레임워크에 들어가기 전에 해야 하는 이러한 모든 일에는 엄청난 용량의 스토리지가 필요하다”고 말했습니다. 

플래시블레이드//S(FlashBlade//S)를 사용하면 다음과 같은 이유로 AI 시스템을 쉽게 구축, 운영 및 성장시킬 수 있습니다.

  • 성능:섀시당 최대 60GB/초의 읽기 대역폭을 지원하는 플래시블레이드//S는 전체 AI 워크플로우의 동시성 요구사항을 지원할 수 있습니다.
  • 작은 파일 처리:플래시블레이드//S를 사용하면 소규모 파일을 임의로 읽고 쓸 수 있으므로, 개별 데이터 포인트를 모아 더 크고 스토리지 친화적인 파일을 만드는 데 추가적인 노력을 들일 필요가 없습니다.
  • 확장성:플래시블레이드//S는 아키텍처가 분리되기 때문에 소규모 시스템에서 시작한 다음 데이터 세트가 증가하거나 처리량 요구사항이 증가하면 블레이드를 추가하여 용량이나 성능을 향상할 수 있습니다.
  • 네이티브 오브젝트 지원(S3):입력 데이터는 파일 또는 오브젝트로 저장할 수 있습니다.
  • 간편한 관리:대용량 파일이나 작은 파일에 맞게 성능을 조정할 필요가 없으며 파일 시스템을 프로비저닝할 필요가 없습니다.
  • 모든 것에 대한 무중단 업그레이드:프로덕션 모델을 훈련하는 중에도 언제든지 소프트웨어 업그레이드와 하드웨어 확장 또는 업데이트를 수행할 수 있기 때문에 스토리지 투자를 보호할 수 있습니다.
  • 관리 용이성:클라우드 기반 관리 및 지원 플랫폼인 퓨어1(Pure1)을 사용하면 모든 디바이스로 스토리지를 모니터링할 수 있으며, 문제가 영향을 미치기 전에 식별하고 해결할 수 있도록 하는 예측적 지원을 활용할 수 있습니다. 퓨어1은 사용자가 스토리지 관리가 아니라 데이터를 이해하는 데 집중할 수 있도록 합니다.
  • 미래 지향적:플래시블레이드//S는 10년 이상 최신 상태로 유지되는 유연한 에버그린 아키텍처로 구축되었습니다. 모듈형 구성 요소들은 독립적으로 유연하게 확장할 수 있으며, 변화하는 비즈니스 요구사항에 따라 운영 중단 없이 업그레이드할 수 있습니다.

텍스트, 오디오, 이미지 등 많은 입력 유형이 기본적으로 작은 파일로 저장되므로 작은 파일 처리가 특히 중요합니다. 스토리지 계층에서 작은 파일을 제대로 처리하지 못하는 경우 샘플을 더 큰 파일로 사전 처리하고 그룹화하는 추가적인 단계가 필요합니다. 대부분의 기존 스케일 아웃 스토리지 시스템은 작은 파일에 맞는 성능을 내도록 구축되지 않았습니다.

또한 SSD를 캐싱 계층으로 사용하는 회전식 디스크로 구축된 스토리지는 필요한 성능을 내지 못합니다. 무작위 입력 배치를 사용하는 훈련이 보다 정확한 모델을 제공하므로, 전체 데이터 세트에 높은 성능으로 액세스할 수 있어야 합니다. SSD 캐시는 데이터의 일부 하위 세트에 대해서만 높은 성능을 제공하며 회전식 드라이브의 레이턴시를 숨기는 데 효과적이지 않습니다.

결론적으로 플래시블레이드//S의 성능과 동시성은 데이터 과학자들이 데이터 복사에 시간을 낭비하지 않고 작업 단계 간에 빠르게 전환할 수 있게 해줍니다. 또한 플래시블레이드//S를 사용하면 동일한 데이터로 여러 가지 실험을 동시에 실행할 수 있습니다.

에머슨은 “우리는 조직, 연구원, 고객들이 AI 데이터 파이프라인을 어떻게 운영하고 산업화할지 파악하는 데 전문적인 지원을 제공하려고 한다. 이것이 모든 AI 알고리즘 구축의 기반이 되는 연료이기 때문이다”라고 말했습니다.

퓨어스토리지와 함께 AI 이니셔티브 가속화하는 방법 자세히 알아보기

Written By: