이 블로그 글은 Ziff.aiCEO David Gonzales와 공동으로 작성한 것입니다.


AI 프로젝트를 위한 데이터 파이프라인을 구축하는 일은 쉽지 않습니다. 연속적인 훈련과 증강 학습이 포함된 AI 프로젝트는 후반 단계로 이동해가면 더 어려워집니다.

이 글에서는 AI 프로젝트가 성숙기에 접어들면서 애플리케이션 레벨, 그리고 인프라 레벨에서의 복잡성을 가중시키는 몇 가지 공통적인 사항들을 살펴보겠습니다.“AI 구현”은 간단히 결정할 수 있는 문제가 아닙니다. 현 시점에서 AI 솔루션들은 플러그 앤 플레이 방식처럼 간단하고 쉽지 않기 때문입니다. AI 파이프라인 구축을 이제 막 시작했다면, 후에 곤란한 상황을 맞닥뜨리지 않도록 적어도 AI 단계가 진행되면서 어떤 상황이 벌어지게 될지 미리 인지하는 것이 좋습니다.

퓨어스토리지는 고객들이 처음부터 끝까지 성공적으로 AI 솔루션을 구축할 수 있도록 지원해왔습니다. 초반에 반드시 고려해야 할 몇 가지 요소들이 있습니다.

초기 AI 고려사항에서 최첨단 증강 학습까지, 데이터 관리의 효율성을 향상할 수 있는 방법을 모색해야 합니다 AI로 보다 깊게 들어가면서 애플리케이션과 인프라 레벨의 복잡성이 더 심해질 수 있습니다.

1: AI에 대한 검토

AI 전략을 모색하기로 결정합니다. AI가 어떻게 비즈니스 가치를 더해줄지 다양한 방법들을 생각해보고, 해결해야 할 지표와 검색할 데이터 세트를 파악한 후, 머신 러닝 대신 간단한 경험적 접근 방식으로도 충분할지를 평가합니다. 일반적으로 오픈소스 애플리케이션(: TensorFlow)과 오픈소스 데이터 세트(: ImageNet)를 사용해 AI 툴을 검토합니다.

보편적인 고충점:

•사용가능한 훈련용 데이터 – 구축하려는 모델의 측정 항목에 대한 데이터를 수집하지 않았을 수 있습니다.

•AI에 대한 과도한 기대로 인해 AI보다 간단한 솔루션이면 충분할지 판단을 내리기가 쉽지 않습니다. 머신 러닝은 많은 투자가 요구되기 때문에 실현 가능한 대안이 있다면 피하는 게 좋습니다.

2: 먼저 머신러닝을 실제 운영 환경에 구현  

인간의 추론 기능으로 훈련 데이터를 라벨링하거나 사전에 라벨링된 데이터를 확보합니다. 일관성 여부를 확인하고, 이상치, 공백 또는 오류값을 평가하여 확보된 훈련 데이터세트를 면밀하게 검토해야 합니다.

데이터 준비 과정에서의 보편적인 고충점:

•수동 데이터 라벨링은 많은 노력이 필요하고 오류가 발생하기 쉬운 작업입니다. 보통 최대 수천 명이 각 훈련 데이터 콘텐츠를 수동으로 평가하고 문서화합니다.

•정확한 결과를 생성하려면 훈련 데이터세트는 전체 데이터를 잘 대표해야 합니다. (데이터 세트가 슬픔이 아니라, 녹색 티셔츠를 식별하고 있지는 않은가?)

•데이터 관리 및 출처(provenance) 추적은 시간이 많이 걸리고 비효율적입니다. 다양한 데이터 포맷과 데이터 과학 프로젝트 전반에서 훈련 데이터의 복사본 수십 개가 필요할지도 모릅니다.

선호하는 훈련 애플리케이션(: Caffe2, TensorFlow, PyTorch)을 사용해 신경망을 훈련시킵니다사전 예약된 데이터세트를 기준으로 신경망을 검증하고 모델을 반복하여 정확도를 향상시키며 실제 운영 환경에 대비할 수 있습니다. 모델이 허용할만한 수준의 정확도에 도달하면, 추론을 시작할 준비가 된 것입니다. 즉석에서 분석할 수 있도록 새로운 데이터 스트림으로 신경망을 구현합니다.

훈련 과정에서의 보편적인 고충점:

•훈련 반복의 속도가 하이퍼파라미터 튜닝의 복잡성, 느린 스토리지 성능, 반복적인 데이터 이동으로 인해 느려지는 경우가 많습니다. 데이터를 스테이징하고 인프라 사일로들간에 이동해야 한다면, 작업 방식이 올바르지 않은 것입니다. 데이터 관리 노력을 극소화하고 데이터를 확장 가능한 단일한 스토리지 플랫폼에 유지해야 합니다.

•신경망을 디버깅하려면 훈련 소프트웨어의 포괄적인 튜닝과 데이터 자체의 훈련이 요구됩니다. 실제 운영 환경 수준의 정확도에 도달하려면 수개월간의 반복 작업이 필요할 수 있습니다.

AI 파이프 라인을 중앙 집중화 된 스토리지 허브에 보관하면 첫 파이프 라인까지 소요되는 시간을 줄일 수 있습니다.

 

3: 범위 확장

AI 프로젝트는 보통 한 개 이상의 모델로 확장됩니다. 이는 추론 중 수집할 수 있는 정보의 완벽성을 향상시켜 줍니다. 예를 들어, 연령, 성별, 감정 등 안면 인식의 각 요소를 위해 신경망을 구축할 수 있습니다. 인프라는 다수의 데이터 과학자 또는 데이터 과학 팀들이 동일한 훈련 데이터를 동시적으로 활용할 수 있도록 지원해야 합니다.

어려운 점은 단계2와 동일하지만, 작업하는 모델 수가 늘어나면서 그 어려움이 가중됩니다.

 

4: 연속 훈련

추론 중에 발견된 이상을 파이프라인으로 다시 피드하여 모델을 재훈련할 수 있습니다. 이를 “능동 학습(active learning)”이라고도 합니다. 네트워크 디자인(: 컨볼루션 신경망, GAN) 또는 데이터 소스(: 합성 훈련 데이터 생성)의 계속되는 폭발적 증가로 야기된 개선사항들을 활용하기 위해 파이프라인을 조정할 수 있습니다. 성공적인 팀들은 즉석에서 모델을 구현하는데 보통 데브옵스(DevOps)와 같은 기법을 적용하고 연속적인 피드백 루프를 유지합니다.

보편적인 고충점:

•파이프라인의 진화하는 성능 요구에 보조를 맞추지 못하는 유연하지 못한 스토리지나 네트워크 인프라는 AI 팀의 역량을 제한할 수 있습니다.

•모델 모니터링 모델들은 통과하는 데이터가 변하면서 방향을 잃어버릴 수 있습니다. 부분적인 확인, 보다 이상적으로는 자동화된 지상참값 성능에 대한 확인을 통해, 비용이 많이 들고 번거로운 모델 표류를 방지해야 합니다.

5: 증강 학습

신경망은 ‘효과적인 사일로 내에서 작동하는 것’에서 ‘서로의 개발에 필요불가결한 것’으로 변화하고 있습니다. 기존 신경망을 활용할 수 있는 다양한 방법들이 존재합니다. 예를 들어, 훈련 데이터를 대체함으로써 또는 기존 모델을 인접한 문제 세트에 적용함으로써 새로운 신경망을 시작할 수 있습니다.

인간과 데이터가 상호작용하는 각 단계에 존재하는 어려움은 기하급수적으로 늘어납니다.

AI 개발의 초기 단계에 존재하는 비효율성과 고충들은 심화되어 한 신경망의 개발에서 다른 다운스트림 프로젝트들로까지 흘러 내려갑니다.

빠른 인프라를 갖춘 AI 팀은 개발 단계들을 보다 빠르게 진행할 수 있습니다.

오늘날, 팀들은 AI 파이프라인의 각 단계에서 서로 단절된 인프라 사일로를 보유하는 경우가 많습니다. 이는 전체 파이프라인을 연결하는 단일한 중앙화된 스토리지 허브를 보유한 것보다 융통성이 부족하고 시간이 더 오래 걸립니다.

다수의 스토리지 위치에서 파이프라인의 여러 단계들을 운영하는 대신, 대기시간, 복잡성, 복사의 위험을 제거하고, 데이터의 다수 복사본을 관리 및 삭제함으로써 데이터 과학 팀이 시간을 절약할 수 있게 해주어야 합니다. 직접 연결 스토리지(DAS)는 AI에 맞게 확장되지 않습니다. 퓨어스토리지는 데이터 파이프라인의 모든 단계를 가속화하도록 설계된, AI를 위한 궁극적인 데이터 허브인 FlashBlade™를 구축했습니다.

AI가 비즈니스에 정말 도움이 될지 많은 기업들은 의아해하지만 확실하게 말씀 드릴 수 있습니다. AI가 기업의 핵심역량에 중심이든 아니든, AI가 데이터 중심의 프로젝트에 효율성과 정확성을 제공하는데 사용될 수 있는 툴이라는 사실은 확실합니다. 그러므로, AI 전략이라는 피라미드에서 얼마나 높은 곳까지 도달할 계획인지에 상관없이, 방대한 데이터 입력처리와 신속한 분석작업의 발전을 지원하는 인프라를 보유하는 것이 중요합니다.

퓨어스토리지는 다수의 경험을 바탕으로 기업들이 성공할 수 있도록 지원하고 GPU + 스토리지 아키텍처, 소프트웨어 툴에 대한 모든 질문에 답을 제공할 수 있습니다. 지금 퓨어스토리지에 연락하여 어떻게 데이터로부터 보다 신속하게 인사이트를 확보할 수 있는지 알아보십시오.

지금 바로 실행하십시오!