인공지능(AI) 열풍이 뜨겁습니다. 금융 서비스 산업도 예외는 아닙니다. 인공지능은 대부분의 사람에게 새로운 분야로 아직 배울 부분이 많은 분야이기도 합니다. 인공지능 관련 수학, 모델, 데이터 과학을 구체적으로 보게 되면 매우 복잡하기 때문에 너무 구체적인 것에 얽매이지 않는 것이 중요합니다. 물론 구체적 사항들도 중요하지만 적정한 규모의 인공지능(AI @ scale)을 제공하는 데에는 이외의 중요 요소들과 도전과제들이 있습니다. 이 글에서는 이러한 점들을 이야기하고자 합니다.
적정한 규모의 인공지능은 곧 슈퍼컴퓨터 수준의 성능을 의미합니다. 따라서 평범하고 일반적인 기존의 IT와 스토리지에서는 인공지능 제공이 불가능하기 때문에 많은 금융 서비스 기관들이 기존의 기술이 아닌 신기술을 평가하고 검토하고 있습니다. 여러 인공지능 관련 사례를 봤을 때, 인공지능에 대한 높은 수준의 이해와 인공지능 프로젝트를 위해 인프라스트럭처에 요구되는 기술 요건(혹은 중요 기능)에 대한 이해가 성공을 좌우한다고 할 수 있습니다. 아직 인공지능에 관한 경험 및 지식이 부족한 상황이기 때문에 이 부분이 더 중요합니다.
이 글에서는 경험으로부터 얻은 10가지 주요 교훈을 여러분께 공유하고자 합니다.
1. 방대한 데이터를 과소평가하지 말라
인공지능 알고리즘 학습을 위해서는 방대한 양의 데이터가 필요합니다. 금융 서비스 조직에서 볼 수 있는 주요한 문제 중 하나가 알고리즘 학습에 필요한 데이터를 액세스하는 것이 어렵다는 점입니다. 그래서 내부적인 데이터 소싱에 예상보다 더 오랜 시간이 걸리곤 합니다. 여기에서 한 가지 짚고 넘어갈 점은 고객의 데이터센터 내부에, 즉, 온-프레미스 환경에서 이런 현상이 나타난다는 점입니다. 퍼블릭 클라우드 경우에는 이 과정에 훨씬 더 많은 시간이 소요됩니다. 따라서 인공지능 프로젝트 초반에 필요한 데이터를 파악하고 요청할 수 있어야 합니다.
2. 툴을 융통성 있게 사용하라
툴과 프레임워크는 빠르게 진화하고 있습니다. 자체적인 툴과 시스템에 구애 받기 쉽기 때문에 몇 가지 원칙을 명심할 필요가 있습니다. 몇 개월 전 고객이 한 말이 기억에 남습니다. “처음 6개월 정도 좋다가 그 후에는 계속 문제가 되는 시스템을 원하는 사람은 아무도 없습니다.” 가장 중요한 원칙은 개방형 표준을 채택하고, 벤더 종속성을 피하는 것입니다. 즉, 더 나은 대안이 나올 때마다 툴을 바꿀 수 있도록 하는 것입니다. 데이터의 개방형 표준을(예: NFS, S3) 통한 공유를 가능케 해 인프라스트럭처가 이러한 “유연성”을 촉진할 수 있도록 해야 합니다.
3. 이니셔티브가 전략적인가, 전술적인가?
이 질문은 처음부터 던져봐야 하는 질문입니다. 전술적 이니셔티브라면 중간에 전략적 솔루션으로 방향을 전환하는 경우, 전술적 방식(그리고 관련된 비용)을 모두 버리고 다시 시작해야 한다는 점을 명심해야 합니다. 처음부터 이니셔티브가 전략적이라면 확고한, 입증된 기반에 투자 및 구축을 하여 지속적으로 확장하고 성능을 보일 수 있도록 해야 합니다.
4. 인공지능은 PoC에 대한 도전이다
작은 규모에서는(단일 GPU) 웬만한 하드웨어로 인공지능 프로젝트를 지원할 수 있습니다. 그러나 규모가 커질수록 이야기가 달라집니다. 저희가 지금까지 봐온 인공지능 프로젝트의 도전과제들은 아래와 같습니다:
- 컴퓨팅 – 실험실 환경에서 대량의 인공지능 워크로드를 효과적으로 시뮬레이션하고 시험할 컴퓨팅 자원이 부족합니다.
- 데이터 – 앞서 언급한 바와 같이 유의미한 데이터 세트에 대한 액세스가 어려우며, 시간이 많이 소요됩니다. 그래서 종종 고객들은 작은 사이즈의 데이터 세트에 집중하게 되는데 이에는 큰 리스크가 따릅니다. “작은” 데이터 세트는 “작은” 결과를 낳을 수밖에 없습니다. 실제로 1페타바이트의 데이터 세트가 필요한데, 실험은 1테라바이트 크기의 데이터 세트로 하게 되면 큰 리스크에 노출됩니다. 가장 이상적인 방식은 실제의 데이터 크기 요건과 PoC 데이터 세트 크기의 “차이”를 최소화하는 것입니다. 시간이 더 소요되더라도 실제 쓰일 데이터 크기와 활용사례를 활용하는 것을 추천 드립니다.
- 종합 테스트 – 고객들은 미래의 모든 인공지능 워크로드 요건에 대해 확신이 없습니다. 그렇기 때문에 광범위의, 서로 다른 데이터 타입과 크기를 테스트해보는 것이 필요합니다. 스토리지 솔루션은 파일의 크기에 따라(작은 파일 혹은 큰 파일 둘 중 하나에만) 효과가 있을 뿐, 모든 파일 크기를 처리할 수는 없습니다. 따라서 “혼돈 요인(chaos factor)”에 대처할 수 있는 솔루션을 찾아 비즈니스상에 어떠한 문제가 생기더라도 보유한 솔루션으로 해결 가능하다는 확신을 가질 수 있어야 합니다.
5. 인프라스트럭처의 주요 목표를 작성하라
일반적으로 인프라스트럭처의 주요 우선순위는 아래와 같습니다.
- 지속적인 GPU사용
- 지속적인 데이터 사이언티스트 활용
6. 핵심 역량을 사전에 파악하라
미리 파악한 인프라스트럭처 목표에 따라 사전에 필요한 핵심 역량을 기록해 잘 추적할 수 있어야 합니다.
- 용량 확장 – 시작점은 어디인가? 어디까지 확장하길 원하는가?
- GPU 확장 – 시작점은 어디인가? 어디까지 확장하길 원하는가?
- 인공지능 서비스 – 하나의, 잘 정의된, 학습 데이터 세트를 갖췄는가? 아니면 다수의, 정의되지 않은 인공지능 워크로드 혹은 “인공지능 서비스”를 지원할 수 있는 인프라스트럭처를 구축하고 싶은가? 일반적으로 고객들은 후자를 구축하고자 합니다. 여러분도 그렇다면, 여러분의 인프라스트럭처는 임의, 임시, 공존 워크로드, 상이한 데이터 타입과 비즈니스 우선순위의 변동 등 혼돈 요인에 대처할 수 있어야 합니다.
이외에도 비용 효과적인 방식으로의 확장, 지속적인 확장 및 성능 등의 역량도 고려해볼 수 있습니다.
7. 데이터 사이언티스트 비용을 인지하라
뉴욕시의 데이터 사이언티스트를 활용하는 데에는 연간 평균 15만 달러의 비용이 듭니다. 따라서 데이터 사이언티스트라는 자원을 놀려서는 안됩니다. 이 인력들이 가만히 앉아 데이터를 기다리게 해서는 안됩니다. “데이터는 세계에서 가장 가치 있는 자원”, 인공지능은 “제4차 산업혁명”이라는 생각을 믿으신다면, 데이터 사이언티스트들로부터 최대의 가치를 끌어낼 수 있도록 적절한 투자를 해야 합니다.
8. 인공지능은 파이프라인이다
인공지능의 80%는 데이터 준비며, 20%는 학습으로 이뤄집니다. 그러나 인프라스트럭처에 관해서는 초점이 학습에 맞추어져 있습니다. 이 때문에 데이터 준비 과정이 간과되어 데이터가 아무 인프라스트럭처에 설치, 복사 및 복제됩니다. 이는 비효율적 일뿐 아니라 여러 측면에서 문제를 야기할 수 있습니다. 퓨어스토리지는 고객들이 풍부하고, 효율적이고, 확장 가능한 통합된 인프라스트럭처 구축의 기회를 잡고, 아래 그림에 제시된, 저희가 정의한 “데이터 허브”에 따라 전체 데이터 파이프라인을 지원할 수 있어야 한다고 생각합니다.
사일로 방식의 솔루션
데이터 허브
9. 엔드-투-엔드 솔루션을 이해하는 사람은 거의 없다
슈퍼컴퓨터 수준의 성능을 갖춘 통합 시스템을 제공하는 것은 일반적인 IT의 영역은 아닙니다. 오늘날 인공지능/머신러닝/딥러닝의 특성은 끝에서 끝까지, 전체를 이해하는 사람이 거의 없다는 점입니다. 데이터 사이언티스트들은 소프트웨어 툴, 프레임워크에 대한 이해도는 갖췄지만, 각 레이어들이 인프라스트럭처에 미치는 영향에 대해서는 알지 못합니다. 일례로, TensorFlow는 인프라스트럭처에 다운스트림 영향을 미칠 수 있는 수백 개의 조정기(tuneables)를 갖고 있습니다. 엔드-투-엔드 솔루션 성능 최적화와 조절을 위해서는 시행착오를 거치는 것 외에는 방법이 없습니다. “인프라스트럭처” 자체도 컴퓨팅, 스토리지, 네트워크 분야로 쪼개져 있어 각각의 전문가는 서로의 분야에 대해서는 한정적인 지식만을 가지고 있습니다. 따라서 슈퍼컴퓨터 성능의 엔드-투-엔드 솔루션을 개발하는 것이 어렵다는 점을 간과해서는 안됩니다.
10. 큰 조직에는 큰 도전과제가 따른다
성공적, 전략적, 통합적이며 연속적 확장이 가능한 인공지능 인프라 구축에는 긴밀한 협력이 필요합니다. 그러나 대부분 큰 조직 내의 사일로에서는 이러한 협력이 이뤄지지 않습니다. 성공적인 인공지능 인프라스트럭처 구축을 위해서는 컴퓨팅, 스토리지, 네트워크, 데이터 사이언스, 쿠버네티스, 도커 분야의 다수의 전문가 간의 긴밀한 합작이 필요합니다.
마무리
퓨어스토리지는 NVIDIA와 함께 세계에서 가장 크고, 정교한 인공지능 구축의 중심에 서있습니다. NVIDIA의 세계 최고 수준의 GPU 기술, 퓨어스토리지와 Cisco)/Arista 간의 긴밀한 네트워킹과 더불어 집단 학습, 경험, 지적재산권(IP)을 활용해 세계 최초의, 인공지능을 위한 완벽 준비가 된 에이리(AIRI)를 개발할 수 있었습니다. 에이리(AIRI)는 리스크, 복잡성 및 본 블로그에 소개된 잠재적 실수를 최소화하고, 3주 전부터 설치 및 운영이 가능한, 사전에 최적화되고 통합된 인공지능 플랫폼을 기업에 제공할 수 있습니다. 여러분의 솔루션에 엔터프라이즈 지원(DIY 솔루션에서는 불가능한)을 제공할 뿐 아니라, 오픈소스 소프트웨어 통합, 관리에 따르는 부담을 줄여줍니다.
물론 DIY 방식을 선호하는 고객들은 계속해서 플래시블레이드(FlashBlade)의 성능, 단순성 및 효율성의 이점을 활용해 인공지능을 위한 탄탄한 기반을 마련할 수 있습니다.
에이리(AIRI)에 대해 더 알아보세요:
- 퓨어스토리지와 NVIDIA, 에이리(AIRI) 통합 인프라 레퍼런스 아키텍처 발표( Pure Storage And NVIDIA Announce AIRI Converged Infrastructure Reference Architecture)
- 에이리(AIRI): 딥러닝을 위한 업계 최초의 통합, 인공지능을 위한 완벽한 준비가 된 인프라 (Announcing AIRI: Industry’s First Integrated AI-Ready Infrastructure for Deploying Deep Learning at Scale)
- 퓨어스토리지, NVIDIA, Arista 7060X 스위치의 레퍼런스 아키텍처 (Reference Architecture by Pure Storage and NVIDIA with Arista 7060X Switch)
- AI 캐즘을 뛰어넘는 방법: 비전에서 AI-퍼스트 비즈니스 실현까지 (How to cross the AI chasm: from vision to an AI-first business)