플래시블레이드//EXA 출시 – 대규모 AI 및 HPC를 혁신하는 데이터 스토리지 플랫폼

퓨어스토리지는 가장 까다로운 AI 워크로드에 차세대 대용량 스토리지 처리량을 제공하기 위한 혁신적인 최첨단 솔루션인 플래시블레이드//EXA를 발표하게 되어 매우 기쁩니다.

FlashBlade//EXA

요약

FlashBlade//EXA는 FlashBlade 제품군의 가장 최신 모델로, AI 작업에 최적화된 데이터 스토리지 플랫폼입니다. 이 플랫폼은 매우 빠른 데이터 처리 속도를 제공하며, 대규모 데이터도 손쉽게 처리할 수 있는 뛰어난 성능과 확장성을 갖추고 있습니다.

image_pdfimage_print

퓨어스토리지는 대규모 스토리지 처리량을 제공하고 극도의 성능과 확장성으로 운영하여 AI 워크로드에 최적화된 초고급 데이터 스토리지 플랫폼인 플래시블레이드//EXA를 발표하게 되어 매우 기쁩니다.

고성능 자동차 제조업체와 퓨어스토리지의 공통점은 무엇일까요? 최고 수준의 자동차 제조업체가 속도와 효율성의 한계를 뛰어넘는 최첨단 레이싱카 모델을 설계하는 것과 마찬가지로, 플래시블레이드//EXA는 AI 및 HPC 워크로드를 위한 한 차원 높은 성능을 제공하도록 설계되었습니다. 플래시블레이드//EXA는 가장 까다로운 AI 워크로드를 위한 한 차원 높은 성능을 제공하도록 퓨리티//FB가 고도로 최적화된 플래시블레이드(FlashBlade)® 시스템이라는 점에서 이러한 사례와 유사합니다. 엔터프라이즈 시장에서 입증된 고성능 플래시블레이드//S 및 고밀도 플래시블레이드//E 모델을 보완하며, 가트너 매직 쿼드런트 파일 및 오브젝트 스토리지 플랫폼 부문에서 4년 연속 리더로 인정받았습니다.

신속한 AI 발전의 비즈니스 과제

AI 혁신이 확장됨에 따라, 많은 기업들은 모델 트레이닝 및 추론을 통해 기존 운영을 강화하거나 혁신하는 데 있어 가치를 빠르게 발견하고 있습니다. 이러한 성장 가속화로 전처리, 트레이닝, 테스트, 미세 조정 및 배포 전반에 걸쳐 AI 워크플로우의 채택이 증가했습니다. 각 워크플로우는 더욱 강력한 GPU와 더 큰 멀티모달 데이터 세트의 혜택을 누릴 수 있었습니다. 

이러한 확장으로 인해 새로운 인프라 문제도 발생했습니다. 레거시 스토리지 확장성, 체크포인트, 관리 및 메타데이터 성능 제한은 병목 현상을 일으키고 고가의 GPU 지향 인프라의 완전한 활용을 방해하며, 진행 및 혁신을 늦추고 있습니다. 이는 AI의 공격적인 ROI 재정적 압박에 큰 영향을 미칩니다. AI 전용 인프라는 모델 트레이닝 및 추론을 위해 가능한 가장 빠른 가치 실현 시간을 보장하기 위해 최고 성능으로 실행되어야 합니다. 시간을 잃는 것은 돈을 잃는 것입니다.

대규모 AI 워크플로우를 통해 비즈니스 도전과제 확대

유휴 GPU의 이러한 비즈니스 과제는 두 가지 이유로 GPU GPU 클라우드 제공업체 및 AI 랩과 같은 대규모로 기하급수적으로 증폭됩니다. 첫째, 대규모 운영 효율성은 수익성의 핵심이며, 대부분의 온-프레미스/인-하우스 데이터센터 운영이 관리하는 수준을 훨씬 뛰어넘습니다. 작년에 발표한 블로그는 서비스 제공업체가 자동화 및 타박상 표준화가 운영에 얼마나 중요한지 인사이트를 제공했습니다. 둘째, 서비스 제공업체는 유휴 상태로 실행되는 리소스를 피하는 핵심 원칙을 따릅니다. 모든 AI 모델의 유휴 GPU는 수익 손실의 기회입니다. 운영 수준에서 스토리지 비효율성은 손상될 수 있습니다.

기존의 고성능 스토리지 아키텍처는 병렬 파일 시스템을 기반으로 구축되었으며, 기존의 전용 고성능 컴퓨팅(HPC) 환경에 맞게 설계 및 최적화되었습니다. HPC 워크로드는 예측이 가능하기 때문에 병렬 스토리지 시스템을 특정 성능 확장에 맞게 최적화할 수 있습니다. 대규모 AI 기반 워크플로우 및 모델은 기존 HPC와는 다르며, 이는 더 복잡하기 때문입니다. 텍스트 파일, 이미지, 비디오 등을 포함한 멀티모달의 더 많은 매개변수가 포함되기 때문입니다. 이 모든 것은 수만 개의 GPU가 동시에 처리해야 합니다. 이러한 새로운 역동성은 기존의 HPC 기반 스토리지 접근 방식이 어떻게 더 큰 규모의 성능을 발휘하는 데 어려움을 겪는지 빠르게 입증하고 있습니다. 보다 구체적으로, 기존 병렬 스토리지 시스템의 성능은 동일한 스토리지 컨트롤러 평면에서 메타데이터 및 관련 데이터를 서비스하는 데 논란이 됩니다.

이러한 새로운 병목 현상은 메타데이터 관리 및 데이터 액세스 최적화를 위한 새로운 사고방식을 통해 다양한 데이터 유형과 AI 워크로드의 높은 동시성을 서비스 제공업체 규모로 효율적으로 관리해야 합니다.

AI 워크로드의 진화를 통한 스토리지 확장 요구 사항

데이터 볼륨이 급증함에 따라 메타데이터 관리는 중요한 병목 현상이 됩니다. 레거시 스토리지는 메타데이터를 효율적으로 확장하는 데 어려움을 겪고 있으며, 특히 극도의 병렬 처리를 요구하는 AI 및 HPC 워크로드의 경우 지연 시간과 성능이 저하됩니다. 순차적 액세스를 위해 구축된 기존 아키텍처는 이를 따라갈 수 없습니다. 이들은 종종 견고성과 복잡성으로 인해 확장성이 제한됩니다. 이러한 문제를 해결하려면 메타데이터 우선 아키텍처가 필요합니다. 메타데이터 우선 아키텍처는 원활하게 확장되고 대규모 병렬 처리를 지원하며 병목 현상을 제거합니다. AI와 HPC의 기회가 진화함에 따라, 도전과제는 복잡해질 뿐입니다.

대규모의 진화

플래시블레이드//S에서 제공되는 입증된 메타데이터 코어는 엔터프라이즈 고객이 다음과 같은 메타데이터 문제를 극복하여 까다로운 AI 트레이닝, 튜닝 및 추론 요구 사항을 해결하는 데 도움을 주었습니다.

  • 동시성 관리: 여러 노드에서 대규모 메타데이터 메타데이터 요청을 효율적으로 처리
  • 핫스팟 방지: 성능을 저하시키고 지속적인 튜닝 및 최적화를 필요로 하는 단일 메타데이터 서버 병목 현상 방지
  • 규모 일관성: 분산 메타데이터 사본 간 동기화 보장
  • 효율적인 계층 관리: 성능을 유지하면서 복잡한 파일 시스템 운영 최적화
  • 확장성 및 복원성: 데이터 양이 기하급수적으로 증가함에 따라 높은 성능 유지
  • 운영 효율성: 대규모 효율성을 지원하기 위해 관리 및 오버헤드를 최소화하고 자동화합니다.

플래시블레이드//EXA, 대규모 AI 성능 문제 해결

퓨어스토리지는 광범위한 고성능 사용 사례와 AI 여정의 모든 단계에서 고객을 지원한 입증된 실적을 보유하고 있습니다. 2018년 에이리(AIRI)®(완벽하게 준비된 AI 인프라)를 도입한 이래 NVIDIA DGX SuperPOD™ 및 NVIDIA DGX NVIDIA BasePOD™에 대한 인증은 물론 GenAI Pods와 같은 턴키 솔루션과 같은 혁신을 주도해 왔습니다. 플래시블레이드(FlashBlade)는 엔터프라이즈 AI 및 HPC 시장에서 신뢰를 얻어 Meta와 같은 조직이 AI 워크로드를 효율적으로 확장할 수 있도록 지원합니다. 퓨어스토리지의 메타데이터 코어는 대규모 분산 트랜잭션 데이터베이스를 기반으로 구축되었으며, 키-가치 스토어 기술은 높은 메타데이터 가용성과 효율적인 확장을 보장합니다. 퓨어스토리지는 하이퍼스케일러의 인사이트를 적용하고 FlashBlade//S로 입증된 고급 메타데이터 코어를 활용하여 대규모 AI 및 HPC의 메타데이터 문제를 극복하는 최고의 성능 스토리지를 제공할 수 있는 고유한 역량을 보유하고 있습니다.

플래시블레이드//EXA를 입력하세요. 

극단적인 엔드-투-엔드 AI 워크플로우가 인프라의 경계를 확장함에 따라, 이러한 규모에 맞는 데이터 스토리지 플랫폼에 대한 필요성이 그 어느 때보다 커졌습니다. 플래시블레이드//EXA는 플래시블레이드 제품군을 확장하여 대규모 AI 및 HPC 환경이 더 이상 레거시 스토리지의 제약을 받지 않도록 합니다.

플래시블레이드//EXA는 AI 공장을 위해 설계되었으며, 데이터 및 메타데이터를 분리하는 대규모 병렬 처리 아키텍처를 제공하여 레거시 병렬 파일 시스템과 관련된 병목 현상과 복잡성을 제거합니다. 플래시블레이드(FlashBlade)의 입증된 강점을 기반으로 구축되었으며, Purity//FB의 고급 메타데이터 아키텍처를 기반으로 모든 규모의 탁월한 처리량, 확장성 및 간소성을 제공합니다.

플래시블레이드//EXA는 AI 네이티브, 기술 타이탄, AI 기반 엔터프라이즈, GPU 기반 클라우드 제공업체, HPC 랩 또는 연구 센터 등 가장 데이터 집약적인 환경의 요구를 충족합니다. 차세대 설계를 통해 원활한 프로덕션, 추론 및 트레이닝이 가능하며, 가장 까다로운 AI 워크로드에도 포괄적인 데이터 스토리지 플랫폼을 제공합니다.

퓨어스토리지는 고속 처리량 네트워크 기반 I/O를 두 개의 개별 요소로 분할하는 방식으로 퓨리티//FB를 수정했습니다.

  • 플래시블레이드 어레이는 업계 최고의 스케일-아웃 분산 키/가치 데이터베이스를 통해 메타데이터를 저장하고 관리합니다.
  • 제3자 데이터 노드 클러스터는 업계 표준 네트워킹 프로토콜을 사용하여 원격 직접 메모리 액세스(RDMA)를 통해 GPU 클러스터로부터 매우 빠른 속도로 데이터 블록을 저장하고 액세스하는 곳입니다. 
플래시블레이드(FlashBlade)//EXA

이러한 분리는 메타데이터 요청이 데이터 I/O 연산과 동일할 수 있는 고성능 컴퓨팅 시나리오에서 기하급수적으로 증가하는 비차단 데이터 액세스를 제공합니다.

데이터 노드용 기성품 서버와 SSD를 선택해야 하는 이유는 무엇일까요?

대규모 AI 환경에는 SSD를 인프라 구성 요소로 사용하는 1U 및 2U 서버에 대한 투자가 이루어질 수 있습니다. 플래시블레이드//EXA는 데이터 플레인을 위해 기성 서버를 활용하므로 대상 고객의 아키텍처(이 경우 대규모 환경)에 더 쉽게 맞출 수 있습니다. 이는 퓨어스토리지의 데이터 스토리지 플랫폼에 대한 중요한 요점을 강조합니다.

*퓨리티는 자사 플랫폼의 핵심으로서, 자사 하드웨어 외부에서 작동하도록 확장하는 것을 의미하더라도 새로운 사용 사례를 해결하기 위해 이를 수정할 수 있는 역량에 있습니다. 퓨어스토리지는 보다 우아한 접근 방식을 통해 고객에게 더 빠른 가치 실현 시간을 제공하기 때문에 소프트웨어와 관련된 문제를 해결하는 것을 핵심 원칙으로 삼고 있습니다.

이러한 기성 데이터 노드는 시간이 지남에 따라 유연하게 적응할 수 있도록 하며, 데이터 센터에서 NAND 플래시를 활용하는 방법에 대한 고객의 진화에 따라 구동될 수 있습니다. 

플래시블레이드//EXA 컴포넌트 및 I/O에 대한 높은 수준의 뷰

메타데이터와 데이터 서비스 평면을 분리하는 동시에, 위의 다이어그램의 요소를 간단하게 확장하고 관리하는 데 중점을 두었습니다.

  • Metadata 코어: 이는 컴퓨팅 클러스터의 모든 메타데이터 쿼리를 지원합니다. 쿼리가 서비스되면, 요청 컴퓨팅 노드는 특정 데이터 노드로 이동하여 작업을 수행합니다. 또한 어레이는 자체 네트워크 세그먼트의 비하인드 스토리에 있는 제어 평면 연결을 통해 데이터 노드와 메타데이터의 관계를 감독합니다.
  • 타사 데이터 노드: 이러한 서버는 광범위한 호환성과 유연성을 보장하는 표준 기성품 서버입니다.   데이터 블록은 이러한 서버의 NVMe 드라이브에 있습니다. 볼륨 관리 및 RDMA 타겟 서비스를 통해 플래시블레이드//EXA 어레이에 있는 메타데이터와 함께 작동하도록 사용자 정의된 “씬” Linux 기반 OS 및 커널을 실행합니다. 퓨어스토리지는 노드에 대한 구축 및 업그레이드를 관리하여 대규모 복잡성에 대한 우려를 제거할 수 있는 Ansible 플레이북을 제공합니다.
  • 기존 네트워킹 환경을 사용한 데이터에 대한 병렬 액세스: 플래시블레이드//EXA는 BGP를 활용하는 고가용성 단일 코어 네트워크를 활용하여 메타데이터, 데이터 및 워크로드 클라이언트 간의 트래픽을 라우팅하고 관리하는 우아한 접근 방식을 채택하고 있습니다. 이러한 설계 덕분에 기존 고객 네트워크에 완벽하게 통합되어 고도로 병렬화된 스토리지 환경의 구축을 간소화할 수 있습니다. 중요한 점은 모든 활용 네트워크 프로토콜이 업계 표준이라는 점입니다. 통신 스택에는 독점 요소가 포함되어 있지 않다는 점입니다.

병렬 파일 시스템 및 분리된 모델을 통해 레거시 고성능 스토리지의 도전과제 해결

대규모 AI 워크로드의 고성능 특성을 목표로 하는 많은 스토리지 벤더는 병렬 처리 문제의 절반만 해결하여 고객이 데이터 목표에 도달할 수 있는 가장 광범위한 네트워킹 대역폭을 제공합니다. 대규모 병목 현상이 발생하는 대규모 처리량에서 메타데이터와 데이터가 어떻게 서비스되는지는 다루지 않습니다. 이는 1984년 Sun Microsystems가 NFS 설계를 다시 만들었을 때의 의도가 로컬 파일 액세스와 원격 파일 액세스 간의 간극을 메우는 것이었기 때문에 타당합니다.

레거시 NAS를 통한 확장의 과제

레거시 NAS의 설계와 확장은 운영 파일 공유를 지원하는 단일 목적 설계와 더 많은 컨트롤러가 추가됨에 따라 I/O를 선형으로 확장할 수 없기 때문에 병렬 스토리지를 지원하는 것을 금지합니다.

퓨어스토리지 레거시 NAS

기존의 병렬 파일 시스템을 통한 확장의 도전과제

AI가 등장하기 전에도 일부 레거시 스토리지 제공업체는 Lustre와 같은 특수 병렬 파일 시스템을 활용하여 고성능 컴퓨팅 요구 사항을 충족하는 높은 처리량의 병렬 처리를 제공했습니다. 이는 여러 대규모 및 소규모 환경에서 작동하지만, 메타데이터 지연, 매우 복잡한 네트워킹 및 관리 복잡성이 발생하기 쉬우며, 더 큰 요구 사항으로 확장할 때 HPC 아키텍처 및 관련 소프트 비용을 감독하는 박사들에게 종종 위임됩니다.

분산 데이터 및 컴퓨팅 솔루션의 과제

다른 스토리지 벤더들은 특별히 설계된 병렬 파일 시스템에 의존할 뿐만 아니라 워크로드 클라이언트와 메타데이터 및 데이터 타겟 사이에 컴퓨팅 집계 레이어를 추가할 수 있는 솔루션을 설계했습니다.

플래시블레이드(FlashBlade)//EXA 분산 컴퓨팅

이 모델은 대규모 성능을 위해 확장할 때 확장 강성과 pNFS보다 관리 복잡성이 더 큰 도전과제를 안고 있습니다. 컴퓨팅 집선 노드로 움직이는 부품을 더 많이 추가해야 하기 때문입니다. 또 다른 잠재적 도전과제가 있습니다. 이 모델에서 분산된 데이터 액세스 기능을 배치하면 스택에서 예기치 않은 레이턴시가 발생할 수 있습니다. 그 이유는 네트워킹이 pNFS에 필요한 것보다 3개의 개별 계층과의 주소 지정, 케이블링 및 연결을 관리하는 데 훨씬 더 복잡해지기 때문입니다. 

또한, 각 데이터 및 메타데이터 노드에는 메타데이터가 항상 저장되는 고정된 양의 캐시가 할당됩니다. 이러한 견고성으로 인해 데이터 및 메타데이터가 록스텝으로 확장되어 멀티모달 및 동적 워크로드에 비효율성을 발생시킵니다. 또한 워크로드 요구가 변화함에 따라, 이러한 선형 확장 접근 방식은 성능 병목현상과 불필요한 인프라 오버프로비저닝을 초래하여 리소스 관리를 더욱 복잡하게 만들고 유연성을 제한할 수 있습니다.

이제 막 시작하겠습니다.

플래시블레이드//EXA 발표는 대규모 AI 워크로드를 위한 성능, 확장성 및 단순성을 혁신합니다. 이제 막 시작하겠습니다. 

퓨어스토리지 팀에 문의하여 빠르게 성장하는 업계 부문에서 기존의 사고 방식을 어떻게 혁신하고 있는지 알아보세요!

3월 17~21일 NVIDIA GTC 2025에서 NVIDIA를 만나보세요. 미팅을 예약하세요.

자세한 내용은 pure.ai AI 솔루션 페이지를 참조하세요.

Pure AI