새로운 장난감이 넘쳐나는 지금 시대에도 80년이나 된 레고®(LEGO®)의 인기는 식을 줄 모릅니다. 레고가 인기를 유지하는 하나의 비결은 아이, 어른 할 것 없이 상상력을 펼치도록 한다는 것입니다. 한 열정적인 레고 애호가는 “나는 지금도 레고로 만든 작품에 매료되는데, 이를 만든 이들은 설명서에는 나와있지도 않은 방법으로 작품을 만들어 내기 때문이다.“ 라고 말했습니다.
레고는 어떻게 세월이 흘러도 변치 않는 성공을 이루었을까요? 이는 레고 블록의 세 가지 특성으로 귀결됩니다.
- 단순한 모양으로 되어 있다.
- 인터페이스가 명확해서 쉽게 조립할 수 있다.
- 아주 기본적인 능력만을 요하며, 그 외는 모두 상상력으로 채워진다.
이는 엔터프라이즈 AI가 나아가야 할 방향을 정확히 보여준다고 생각합니다. 퓨어스토리지는 NVIDIA와 Mellanox와 협력하여 레고와 동일한 기본 원칙을 가지고 하이퍼스케일 에이리(Hyperscale AIRI™)를 설계했습니다.
그러나 먼저, 실제 AI 환경의 배경과 현 주소를 살펴보겠습니다. 2018년 3월 NVIDIA와 퓨어스토리지는 업계 최초로 완벽하게 준비된 AI 인프라인 에이리(AIRI™)를 발표했습니다. 발표 후, 헬스케어, 금융서비스, 자동차, 테크, 고등교육 및 연구 등 전세계 다양한 산업에서 널리 구축되었습니다. 에이리(AIRI™)는 기업들이 전례 없는 속도로 데이터를 비즈니스 혁신으로 바꿀 수 있는 길을 열어주었고, 또한 멀티-랙의 DGX 서버와 플래시블레이드(FlashBlade) 스토리지에서 고도로 확장 가능한 솔루션에 대한 필요성도 안겨주었습니다.
하이퍼스케일 에이리(Hyperscale AIRI™): AI 선도기업을 위해 탄생한 레고 방식의 AI 인프라
하이퍼스케일 에이리(Hyperscale AIRI™)는 AI를 선도하는 기업에 슈퍼컴퓨팅 능력을 제공하기 위해 업계 최초로 완벽하게 준비된 AI 인프라입니다. 하이퍼스케일 에이리(Hyperscale AIRI™)의 세 가지 주요 요소는 다음과 같습니다.
- 컴퓨트 기기(NVIDIA DGX-1 & DGX-2 서버), 스토리지 시스템(퓨어스토리지 플래시블레이드), 네트워크 아키텍처(Mellanox 이더넷 패브릭)의 단순한 모듈 기반 구성
- 어떠한 규모에서도 데이터 팀의 생산성을 유지하기 위해 쿠버네티스와 통합되어 엔드-투-엔드 AI 파이프라인을 위해 명확히 정의된 소프트웨어 스택
- 방대한 AI 데이터 처리를 지원하기 위해 64개 랙까지 확장 가능한 멀티-랙 AI 인프라 구축에 대한 간소화된 접근방식
하이퍼스케일 에이리(Hyperscale AIRI™)는 이미 인증을 받았고 AI 선도기업에 구축됐습니다. 한 보안회사는 Mellanox InfiniBand 네트워크와 연결하여 멀티-랙의 DGX-2와 플래시블레이드(FlashBlade)를 사용하고 있습니다.
하이퍼스케일 에이리(Hyperscale AIRI™): DGX 서버와 플래시블레이드(FlashBlade)를 64개 랙까지 확장 가능하도록 설계
하이퍼스케일 에이리(Hyperscale AIRI™)는 DGX-1 및 DGX-2 서버와 퓨어스토리지 플래시블레이드(FlashBlade)의 이점과 더불어 높은 대역폭, 낮은 레이턴시 이더넷 혹은 Mellanox InfiniBand 패브릭, 일관된 스토리지, RDMA 가능한 100Gb/s 네트워크로 컴퓨트를 제공합니다. 에이리(AIRI™)는 GPU 서버와 스토리지 시스템이 모두 완벽하게 확장할 수 있도록 합니다. 연산에 대한 수요가 증가하면서 추가적인 DGX-1과 DGX-2 서버를 고성능 패브릭에 프로비저닝 할 수 있고, 따라서 모든 가용 데이터세트에 즉시 접근할 수 있습니다. 유사하게 스토리지 용량이나 성능 수요가 증가하면 플래시블레이드(FlashBlade) 시스템에 블레이드를 추가할 수 있어서 다운타임 없이 혹은 환경설정을 다시 하지 않고 단일 네임스페이스에 페타바이트의 데이터를 처리할 수 있습니다.
멀티-랙 AI 플랫폼을 구축하는 데 있어서 가장 큰 어려움은 네트워크 설계와 토폴로지의 구축입니다. 퓨어스토리지, Mellanox, NVIDIA의 엔지니어들은 다양한 신경망 모델에 대한 멀티-노드 GPU 트레이닝의 커뮤니케이션 패턴과 전체 AI 파이프라인에 대한 스토리지 패턴을 연구하여 이러한 난제를 해결하려 했습니다. 그 결과, 딥러닝 컴퓨트는 HPC 애플리케이션의 동일한 특성을 공유하는데 반해, 스토리지와 네트워크 아키텍처에서는 그렇지 않다는 점을 알게 되었습니다. 사실 NERSC의 데이터 팀은 HPC 스토리지가 비효율적이고 대규모의 AI 이니셔티브를 지원할 수 없다는 점을 이미 발견했습니다.
구체적으로 말하면, 네트워크 설계와 관련해 가장 유명한 3대 네트워크 토폴로지, 즉 (대형 HPC 클러스터에서 자주 사용하는) 3-D Torus, (대형 웹-스케일 기업에서 자주 사용하는) Hierarchical, (엔터프라이즈 IT에서 자주 사용하는) 리프-스파인(leaf-spine)을 비교해보았습니다. 3-D Torus나 Hierarchical가 가장 적합하다고 생각할 수도 있겠지만, 연구 결과 리프-스파인만이 대규모 AI 이니셔티브의 어려움을 해결할 수 있는 유일한 토폴로지였습니다.
[자세한 내용을 알아보기 위해 참조 아키텍처 다운로드]
하이퍼스케일 에이리(Hyperscale AIRI™)는 리프-스파인 토폴로지에서 DGX-1과 DGX-2 서버와 플래시블레이드(FlashBlade) 스토리지를 최대 64개 랙까지 지원할 수 있습니다. 딥러닝 성능은 500 페타플롭 이상, 데이터 스토리지는 100 페타바이트 이상입니다.
하이퍼스케일 에이리(Hyperscale AIRI™): 어떠한 규모에서도 데이터 팀의 생산성 유지
하이퍼스케일 에이리(Hypersclae AIRI™)의 장점은 소프트웨어와 하드웨어가 결합된 완전한 솔루션이고 데이터과학팀이 어떠한 규모에서도 생산성을 유지하도록 설계되었다는 점입니다. 사용하기 쉬운 API로 데이터 과학자들은 어떠한 규모의 클러스터에서도 AI 프로젝트를 쉽게 트레이닝, 테스트, 구축할 수 있습니다. NVIDIA의 NGC 컨테이너 레지스트리로 TensorFlow, PyTorch, 오픈-소스 RAPIDS와 같은 모든 AI 프레임워크가 바로 사용 가능하도록 컨테이너화 및 최적화되어 있습니다. 에이리(AIRI™) 스케일링 툴킷은 데이터 과학자들이 간단한 단계만으로 ML 모델을 멀티-DGX 서버에 바로 트레이닝할 수 있도록 해줍니다. 마지막으로 DGX와 플래시블레이드(FlashBlade)를 쿠버네티스와 통합하여 데이터 팀은 특징 추출, 데이터 수집 검증, 분석과 같은 단일 노드 작업과 대규모 데이터세트에 대한 멀티-노드 모델 트레이닝 작업을 포함하여 전체 파이프라인에 대한 컨테이너화 된 AI 워크플로우의 구축 및 관리를 빠르게 자동화할 수 있습니다.
에이리 미니(AIRI™ Mini)부터 하이퍼스케일 에이리(Hyperscale AIRI™)까지!
많은 기업들이 AI 이니셔티브를 활성화하고자 하지만, 확장 가능하고 AI에 최적화된 인프라 구축의 어려움에 직면하게 됩니다. AI 혁신의 경계를 넓히려는 기업이 확장 가능하고 강력한 인프라를 구축할 수 있도록 NVIDIA, Mellanox, 퓨어스토리지의 엔지니어들이 힘을 모았습니다. 레고와 같은 에이리(AIRI™)의 모듈 구조와 간편성을 누리기 위해 기업들은 에이리 미니(AIRI™ Mini)로 시작할 수 있고, 팀과 프로젝트가 성장하면 쉽게 확장할 수 있습니다. 또한 에이리(AIRI™)는 인프라의 복잡성을 해소하여 AI를 개척하려는 기업들에게 슈퍼컴퓨팅 능력으로 솔루션을 제시하고자 합니다. 이제 기업들은 간단하고 확장 가능하며 검증된 에이리(AIRI™) 시스템을 구축하여 AI에 대한 강력하고 새로운 인사이트를 얻는 데 초점을 맞출 수 있습니다.
더 자세한 내용은 퓨어스토리지 홈페이지에서 확인할 수 있습니다.