넷앱(NetApp)이 최근 딥러닝을 위한 레퍼런스 아키텍처 백서를 발표했습니다. 데이터는 인공지능(AI)의 정확성을 향상시켜 주며, AI 인프라스트럭처에서 데이터 학습을 위한 스토리지의 중요성을 알게 해줍니다. 그러한 점에서 레거시 스토리지 공급업체들이 앞다투어 AI 경쟁에 뛰어들고 있다는 사실은 놀랄만한 일은 아닙니다. 그러나, 레거시 스토리지 아키텍처가 과연 현대적인 AI에 보조를 맞출 수 있을까요?  퓨어스토리지의 AIRI에서 ‘영감’을 얻어 온 듯 하지만 주목할 만한 몇 가지 차이점이 존재하는 넷앱 최초의 AI 레퍼런스 아키텍처에 대해 보다 자세히 살펴보도록 하겠습니다.

퓨어스토리지는 지난 3월 에이리(AIRI)™를 선보였습니다. 엔비디아(NVIDIA)와 공동 개발한 이 업계 최초의 AI-레디 인프라스트럭처는 모든 기업이 모든 규모로 AI를 활용할 수 있도록 만들어줍니다. 에이리는 각자의 업계에서 엔비디아의 DGX와 퓨어스토리지의 플래시블레이드(FlashBlade™)로 자체 AI 인프라스트럭처를 구축하며 혁신을 추구하고 있는 공동 고객들의 요청으로 생겨나게 되었습니다. 퓨어스토리지는 이 고객들과 협력하며 AI 인프라스트럭처에 대해 많은 것을 배울 수 있었습니다. 그리고 그 모범 사례들을 한데 모아서 에이리를 구축하고 레퍼런스 아키텍처 백서를 발표했습니다.

‘모방은 최고의 칭찬’이라는 말이 있습니다. 넷앱의 백서를 보면 군데군데 어디서 본 듯한 느낌이 듭니다. (칭찬으로 여기겠습니다.) 그런데 자세히 보면 여러 가지 의문점이 생깁니다.

진정한 레퍼런스 아키텍처, 한번 일어나 보실래요?

넷앱의 백서는 두 개의 레퍼런스 아키텍처를 제안하지만, 측정된 결과는 제안된 두 개의 레퍼런스 아키텍처와 전혀 무관한 환경에서 테스트 되었습니다. 제안된 두 아키텍처 중 하나는 엔비디아의 DGX-1 시스템 5대와 넷앱의 A800 시스템 1대로 구성되며, 다른 하나는 DGX-1 시스템 4대와 A700 시스템 1대로 구성됩니다. 그러나 이 백서는 DGX 시스템 1대와 A700 시스템 1대에 대한 성능 결과를 보여줍니다. 다른 벤치마크는 찾아볼 수 없습니다.

백서를 읽는 사람은 궁금증이 생깁니다.

  • 두개의 레퍼런스 아키텍처로 구성하면 실제 성능은 어떻게 되는 걸까요?
  • A800이 넷앱의 최고의 하이엔드인데, 넷앱은 왜 A700의 결과만 보여주는 걸까요?
  • 측정된 결과가 관련성이 있기는 한 걸까요? DGX 1대를 사용하고자 한다면 DGX에서 그냥 로컬 SSD를 사용하면 되는데 말이죠

가능성 있는 이유를 추리해 보자면, 실세계에서는 멀티노드 훈련을 위해 선형으로 확장되는 AI 인프라스트럭처를 구축하기가 대단히 어렵습니다. 그리고 레거시 아키텍처를 고수해야 한다면 더 어렵다는 게 퓨어스토리지의 생각입니다. 다수의 DGX 시스템을 사용하면 공유 스토리지 시스템에 엄청난 부담이 가해질 수 있습니다. 플래시블레이드는 선형적인 결과와 여러 대의 DGX 시스템을 더 추가할 수 있는 여력을 제공하는 것이 아주 간단한 것처럼 보이게 만듭니다. 아래 그림은 DGX와 GPU가 추가되면 에이리가 어떻게 선형으로 성능이 향상되는지를 보여줍니다.

넷앱의 백서에서 발견된 또 다른 이상한 점은 A700 시스템이 설정 변경에 지나치게 민감하다는 것입니다. 이미지 왜곡(크롭, 블러 등)이 벤치마크의 일부로 활성화된 경우, A700은 DGX의 성능을 최대 20%까지 떨어뜨립니다. (넷앱 백서 그림 4 & 5) 이러한 벤치마크는 복잡해서, 설정 변경이 레거시 스토리지 시스템에 예측하지 못한 방식으로 영향을 미치는 것일 수 있습니다. 에이리에서는 그러한 성능 변화는 일어나지 않습니다. 설정에 관계없이 동일한 성능이 그대로 유지됩니다.

현대적인 스케일 아웃 아키텍처에 대한 리트머스 테스트

실세계의 AI는 전체 데이터 파이프라인을 지원할 수 있는 진정한 스케일 아웃 스토리지 아키텍처를 요구합니다. AI는 단순한 훈련이나 이미지넷(ImageNet) 벤치마크가 전부가 아닙니다. 데이터 인제스트와 라벨링에서 탐색과 훈련까지, AI는 실세계의 워크로드 파이프라인입니다. AI 데이터 파이프라인은 순차적 액세스와 랜덤 액세스, 그리고 소규모 파일과 대용량 파일 등 모든 작업에서 요청된 작업을 효과적으로 지원할 수 있는 스토리지가 필요합니다. 또한 수많은 데이터 파이프라인의 클라이언트들이 요청하는 데이터세트나 메타데이터를 지속적으로 성능저하없이 처리할 필요가 있습니다. AI데이터 파이프라인에 대해 보다 자세한 설명은 퓨어스토리지의 블로그를 통하여 확인해보시기 바랍니다.

진정한 스케일 아웃 아키텍처에 대한 리트머스 테스트를 해보면, 넷앱의 A700과 A800은 두 가지 측면에서 참패한 것으로 보입니다. 먼저, 개별적인 컨트롤러들을 클러스터 형식으로 묶어 놓은 것이 A700/A800의 스케일 아웃 설계입니다. 데이터 볼륨이 물리적으로 컨트롤러와 노드에 연결되어 있기 때문에 성능의 핫스팟이 생기고 수동 로드 밸런싱이 필요해집니다. 각 물리 컨트롤러는 고정된 리소스라서 다른 컨트롤러들과 로드를 완전히 공유할 수 없습니다. 진정한 스케일 아웃 설계와는 차이가 있습니다. 진정한 스케일 아웃 스토리지인 플래시블레이드는 데이터가 블레이드 간에 원활하게 이동 및 확장될 수 있도록 하며 지능적인 로드 밸런싱을 통해 선형적인 성능을 제공합니다.

두 번째는 A700처럼 넷앱의 A 시리즈 제품은 I/O에 고정된 8KB 크기의 블록을 이용합니다. 플래시블레이드에는 가변 블록 메타데이터 엔진이라 불리는 핵심 기술이 적용되어 파일과 오프젝트라는 형식이나 사이즈에 관계없이 효율적으로 데이터를 처리합니다. 넷앱의 시스템은 소규모 파일 성능에는 효과적일지는 몰라도(성능은 작은 파일들의 양의 정도에 따라 달라지는데 그 이유는 메타데이터 관리때문이다.), 대용량 파일의 경우 워크로드가 타격을 받습니다.

가장 큰 문제는 AI 워크로드는 소규모 파일에만 국한될 수 없다는 것입니다. 위에서 설명한 것처럼, 실세계 AI 데이터 파이프라인은 모든 측면에서 I/O를 한계까지 몰아부칩니다. 이미지넷과 텐서플로우(TensorFlow)를 이용한 이러한 특정 벤치마크에서는, 소규모 이미지들이 하나의 대용량 파일로 통합됩니다. 이러한 AI데이터 특성을 넷앱 아키텍처에서 효과적으로 처리하는데 어려움이 있어보입니다. 이유는 딥러닝 벤치마크에서 A700이 최대 300MB/초의 성능밖에 낼 수 없는 이유가 바로 이 때문이 아닐까 합니다. (넷앱 백서 그림 5)

모방자들 가운데 홀로 우뚝 선 에이리

100년에 한 번씩은 업계와 사회를 획기적으로 바꾸어 놓을 수 있는 잠재력을 가진 강력한 기술이 등장합니다. 우리 세대에는 AI가 바로 그러한 기술입니다. AI의 혁명을 추진하는 데이터는 바로 스토리지 시스템으로 공급이 됩니다. 그러나, 레거시 시스템은 20년도 더 된 소프트웨어 스택으로 인해 제대로 효과를 발휘하지 못합니다. 설정과 I/O 패턴에 따라 예측할 수 없는 성능을 제공한다는 점에서 그 나이가 확연히 느껴집니다.

플래시블레이드는 독창적입니다. 플래시블레이드는 처음부터 파일과 오브젝트를 위해 다차원적인 성능을 제공하도록 설계된 업계의 유일한 스케일 아웃 스토리지 시스템입니다. 소프트웨어는 현대적이며 레거시 시스템이라는 과거에서 벗어나 방대한 병렬구조와 높은 성능으로 전체 데이터 파이프라인을 가속화해줍니다.

플래시블레이드에 기반해 구축된 에이리는 AI 인프라스트럭처를 위해 특별히 구축된 가장 선도적인 솔루션입니다. 에이리를 설계하는 과정에서 고객들, 특히 각자의 영역에서 새로운 길을 개척해가고 있는 고객들과 협력하며, 퓨어스토리지는 모든 AI 인프라스트럭처는 3가지 핵심 요소를 제공해야 한다는 사실을 배웠습니다.

  1. GPU가 지속적으로 구동될 수 있도록 모든 규모에서 선형 성능을 제공해야 합니다. 많은 기업들이 소수의 서버로 AI 영역에 발을 들이고 있는 동시에, AI 클러스터, GPU farm을 위한 스케일 아웃 인프라스트럭처를 고민하기 시작하고 있습니다. 멀티 노드 환경에는 소프트웨어와 인프라스트럭처의 측면에서 수많은 도전과제가 존재합니다. 그렇기 때문에 솔루션이 규모에 상관 없이 선형 성능을 제공하는지 공급업체에게 질문을 해보아야 합니다.
  2. AI 데이터 인프라스트럭처를 지원해야 합니다. 실세계 워크로드는 벤치마크와는 차이가 있고, 레거시 스토리지를 한계까지 몰아부치는 경우가 많습니다. 데이터는 예측불허합니다. AI는 지속적으로 진화하고 있습니다. 이제 공급업체에게 솔루션이 모든 크기의 데이터(작은 파일 크기부터 큰 파일 크기까지)와 모든 유형의 액세스 패턴에서 효과적으로 성능을 제공할 수 있도록 구축되었는지 물어보십시오.
  3. 현대적인 스케일 아웃 아키텍처에 구축되어야 합니다. AI는 직렬의 세계에서 병렬의 세계로, 그리고 레거시 설계에서 현대적인 설계로의 기술적 전환을 의미합니다. 공급업체에게 솔루션이 진정한 스케일 아웃 스토리지인지, 그리고 데이터에 액세스하는 방법에 한계가 있는 레거시 소프트웨어에 구축되지는 않았는지 물어보십시오.

AI 여정에 오를 것을 고려하고 있는 기업들은 레거시 아키텍처에 구축된 모방 솔루션들을 우회하시기 바랍니다. 퓨어스토리지와 엔비디아가 AI를 위해 특별히 구축한 현대적인 AI 솔루션 에이리로 여정을 시작하십시오.