엔터프라이즈 인사이트 가속화: 퓨어스토리지와 엔비디아 AI 데이터 플랫폼, 대규모 정밀 추론 지원

인사이트의 지연은 곧 기회의 상실을 의미합니다. 퓨어스토리지 기반의 엔비디아(NVIDIA) AI 데이터 플랫폼을 통해 기업은 방대한 데이터를 실시간 인텔리전스로 전환할 수 있습니다.

Pure Storage and NVIDIA AI Data Platform 4

요약

오늘날의 급변하는 비즈니스 환경에서는 찰나의 시간차가 성패를 가릅니다. 플래시블레이드//EXA(FlashBlade//EXA)와 포트웍스(Portworx)가 통합된 엔비디아 AI 데이터 플랫폼은 조직이 추론을 가속화할 뿐만 아니라 대규모 정밀 추론을 실현할 수 있게 합니다.

image_pdfimage_print

찰나가 시장 리더십을 결정할 수 있는 시대에, 기업들은 중요한 과제에 직면하고 있습니다. 바로 방대한 데이터 저장소를 전례 없는 속도와 정확성으로 실행 가능한 인텔리전스로 전환하는 것입니다. 엔터프라이즈, 하이퍼스케일러 및 메타(Meta), 코어위브(Coreweave)와 같은 클라우드 고객은 플래시블레이드//S(FlashBlade//S™) 및 퓨어스토리지 플랫폼을 통해 다양한 AI 워크로드 요구 사항을 성공적으로 해결했습니다. 여러 엔비디아 인증 스토리지 검증을 통해 고객은 AI 인프라의 빠르고 원활한 구축을 확인할 수 있습니다. 

정교한 AI 추론 요구 사항을 가진 대규모 고객의 경우, 퓨어스토리지 플래시블레이드//EXA(FlashBlade//EXA™) 및 포트웍스로 구현된 엔비디아 AI 데이터 플랫폼 레퍼런스 설계는 조직이 방대한 데이터를 실시간 인텔리전스로 전환하는 방식을 재정의합니다. 이 포괄적인 스택은 단순히 추론을 가속화할 뿐만 아니라 대규모 정밀 추론을 실현하여, 대기업이 프로덕션급 보안을 유지하면서 복잡한 데이터셋을 정확하게 디코딩할 수 있도록 합니다. 

인텔리전스 필수 요건: 속도와 정밀도가 중요한 이유

현대의 기업들은 인사이트 지연이 곧 기회 상실을 의미하는 환경에서 운영되고 있습니다. 엔비디아 AI 데이터 플랫폼의 퓨어스토리지 구현은 가속화된 컴퓨팅과 지능형 데이터 오케스트레이션을 결합하여 엔터프라이즈 지식과 AI 추론 간의 피드백 루프를 생성함으로써 이를 해결합니다. 이 인프라의 핵심은 다음과 같습니다.

  • 1초 미만의 지연 시간으로 멀티모달 데이터(텍스트, 이미지, 비디오)의 실시간 분석
  • 분산 데이터셋 전반의 컨텍스트 인식 추론
  • 세분화된 보안 제어로 신뢰할 수 있는 인사이트 및 데이터 거버넌스

조직은 엔비디아 블랙웰(NVIDIA Blackwell)엔비디아 네트워킹(NVIDIA 네트워킹), 엔비디아 네모 리트리버(NVIDIA NeMo Retriever)AI-Q 엔비디아 블루프린트(AI-Q NVIDIA Blueprint) 마이크로서비스를 포함한 검색증강생성(RAG) 소프트웨어, 그리고 퓨어스토리지 메타데이터 최적화 아키텍처를 통해 가속화된 컴퓨팅을 활용하여 프로덕션 환경에서 매우 높은 추론 정확도를 유지하면서 인사이트 도출 시간을 수일에서 수초로 단축할 수 있습니다.

퓨어스토리지 데이터 플랫폼
그림 1. 퓨어스토리지가 구현한 엔비디아 AI 데이터 플랫폼 구성도

플래시블레이드//EXA: 데이터 속도를 가속하는 엔진

퓨어스토리지 플래시블레이드//EXA는 단일 네임스페이스에서 10TB/s 이상의 처리량으로 기존 스토리지 병목 현상을 해결합니다. 이는 미국 의회도서관의 전체 컬렉션을 3분 이내에 처리할 수 있는 수준입니다.

플래시블레이드//EXA의 분산 설계의 주요 장점은 메타데이터와 데이터 성능을 독립적으로 확장할 수 있다는 점입니다. 즉, 기업은 어느 구성 요소도 과도하게 프로비저닝하지 않고 스토리지 아키텍처를 추론 워크로드의 특정 요구 사항에 정확히 맞출 수 있습니다.

수천 또는 수백만 개의 작은 파일에 대한 빠른 액세스가 필요한 추론 워크로드의 경우, 메타데이터 레이어를 적절히 확장할 수 있습니다. 마찬가지로 대용량 파일로 구성된 대규모 데이터셋을 처리하는 워크로드의 경우, 불필요한 메타데이터 오버헤드 없이 데이터 레이어을 확장할 수 있습니다. 이러한 유연성은 사실상 무한한 확장성을 제공합니다.

메타데이터와 데이터 처리를 분리하면 상호 방해 없는(non-blocking) 데이터 접근이 가능해집니다. 이는 메타데이터 작업이 실제 데이터 I/O 작업만큼 많거나 심지어 더 많은 고성능 컴퓨팅(HPC) 환경에서 특히 큰 가치를 발휘합니다. 이러한 아키텍처는 GPU가 가능한 최고 속도로 지속적으로 데이터를 공급받을 수 있도록 해, 비싼 대기 시간(idle time)을 효과적으로 제거합니다.

플래시블레이드//EXA는 분산된 대규모 병렬 아키텍처를 통해 AI 워크로드 확장 문제를 해결하고 유휴 GPU 시간을 제거하여 기업이 AI 훈련과 추론을 가속화할 수 있게 합니다. 이러한 효율적인 데이터 전달은 급증하는 워크로드와 혼합된 워크로드를 위한 효율적인 KV 캐시 공유를 통해 가능한 최고 속도보다 일관되고 예측 가능한 성능이 더 중요한 추론 워크로드에 매우 중요합니다. 

추론 가속화를 위한 포트웍스와 플래시블레이드//EXA의 시너지

포트웍스와 플래시블레이드//EXA 간의 시너지는 포트웍스의 쿠버네티스 네이티브 데이터 관리 및 지능형 모델 캐싱을 플래시블레이드//EXA의 초고속 대규모 병렬 스토리지 아키텍처와 결합하여 대규모 AI 추론을 가속화합니다. 포트웍스는 분산된 추론 워크로드 전반에서 고가용성, 낮은 레이턴시 액세스 및 모델 데이터의 원활한 확장을 보장하며, 플래시블레이드//EXA는 탁월한 처리량과 분산된 확장으로 스토리지 및 메타데이터 병목현상을 제거합니다. 이 둘은 함께 GPU 활용을 극대화하고, 추론 지연 시간을 최소화하며, 프로덕션 환경에서 AI 추론 파이프라인을 배포하고 관리하기 위한 강력하고 유연한 기반을 제공합니다.

엔비디아 KV 캐시 아키텍처는 세 가지 혁신을 통해 추론 파이프라인을 재구상합니다:

  1. GPU 인접 프리픽스 캐싱
    • 규제 준수 검증 등 자주 반복되는 쿼리 패턴을 GPU 근접 NVMe에 직접 저장
  2. 로드 인식 스케줄링
    • 쿼리 복잡도에 따라 프리필(prefill) 및 디코딩 리소스를 동적으로 할당
    • 트래픽이 급증하는 상황에서도 GPU 활용률을 95% 이상 안정적으로 유지
  3. 이기종 GPU 풀링
    • 이기종 GPU 클러스터가 KV 캐시 메모리를 공유할 수 있도록 지원

퓨어스토리지 솔루션은 대규모 AI 추론환경에서 초당 토큰 처리 성능을 획기적으로 향상시키는 다음과 같은 기능을 통해 앞서 언급한 기술을 보완합니다.

  1. KV 캐시 공유: 기하급수적으로 증가하는 클러스터 간 효율적인 KV 캐시 공유 보장
  2. 높은 IO 동시성: 플래시블레이드(FlashBlade)의 고도로 동시성을 지원하는 아키텍처는 초고속 성능을 제공할 뿐만 아니라, 이처럼 폭발적으로 증가하는 IO 패턴을 안정적으로 처리
  3. 데이터 절감: KV 캐시를 자동으로 압축해 IO 속도를 높이고 사전 로딩(prefill) 시간을 단축

보안으로 실현하는 AI 혁신: RAG 및 에이전틱 AI의 RBAC 기반 인사이트

안전하고 효율적인 데이터 처리를 위해서는 RAG(검색증강생성) 또는 에이전틱 파이프라인 에 역할 기반 액세스 제어(RBAC) 프레임워크를 구현하는 것이 중요합니다. 여기에는 데이터 수집, 검색, 처리, 저장 등 다양한 단계에서 사용자 역할과 액세스 권한을 정의하는 통합 권한 레이어를 구축하는 것이 포함됩니다. 또한 구성 요소들은 사용자 역할과 의도에 따라 데이터 액세스를 맞춤화하고 설정된 권한 준수를 보장하기 위한 효율적인 쿼리 이해를 지원해야 합니다. AI 증강 및 생성 프로세스는 보안 및 액세스 프로토콜을 유지하면서 생성 모델 내에서 컨텍스트별 데이터를 통합해야 합니다. 효과적인 감사 및 모니터링 메커니즘은 액세스 패턴을 추적하고 RBAC 규칙 준수를 보장하여 전반적인 보안을 강화하는 데 매우 중요합니다. 제로 트러스트 모델 및 JWT 기반 인증과 같은 보안 모범 사례는 파이프라인에 대한 성능 영향을 최소화하면서 임시적이고 안전한 액세스 제어를 강조합니다.

포트웍스의 제로 트러스트 보안 구현은 데이터 접근을 가속화합니다.

  • 스토리지클래스 단위의 세밀한 암호화: 민감한 개인정보(PII)는 전송 중과 저장 중 모두 암호화하면서도 학습 데이터에 대한 접근 보장
  • JWT 기반 액세스 제어: RAG 파이프라인에 대한 임시 액세스 권한 부여
  • 감사 대응 로그 기록: 데이터의 원시 수집부터 추론 결과에 이르기까지 전체 데이터 흐름을 추적

엔비디아 AI-Q: 추론 인텔리전스 레이어

AI-Q 엔비디아 블루프린트는 세 가지 핵심 구성 요소를 통해 정적인 데이터를 역동적인 지식으로 변환합니다:

  1. 멀티모달 추출 엔진: PDF 도식, 서비스 매뉴얼, 통화 녹취록을 구조화된 지식 그래프로 변환
  2. 네모 리트리버 마이크로서비스: 수십억 규모의 벡터 검색에서 매우 높은 리콜 정확도 제공
  3. 엔비디아 에이전트 인텔리전스 툴킷 오케스트레이션: 복잡한 에이전틱 시스템을 위한 프로파일링 및 최적화

플래시블레이드//EXA의 데이터 속도와 결합하면, 이 스택은 우리가 “정밀 추론”이라고 부르는 것을 가능하게 합니다. 즉, 매우 적은 쿼리 사이클로 원시 데이터에서 이사회 수준의 인사이트를 도출하는 능력입니다.

대규모 정밀 추론 구현: 새로운 경쟁력의 핵심

이러한 스택을 도입한 기업들은 비약적인 혁신을 경험하고 있습니다.

퓨어스토리지로 구현된 엔비디아 AI 데이터 플랫폼은 최고 수준의 추론 밀도, 즉 처리된 테라바이트당 더 많은 실행 가능한 인사이트를 추출할 수 있는 능력을 제공합니다. 엔비디아 블랙웰 가속 컴퓨팅과 퓨어스토리지의 데이터 접근성을 결합함으로써, 기업들은 이전에 상상할 수 없었던 것을 달성합니다. 바로 전체 데이터 자산을 전략적 추론 자산으로 전환하는 것입니다.

결론: 비즈니스 속도로 실현되는 인텔리전스

퓨어스토리지와 엔비디아의 협업은 단순한 대규모 AI 인프라 그 이상을 의미합니다. 오랜 파트너십을 바탕으로, 기업의 규모나 AI 성숙도에 관계없이 누구나 지원받을 수 있습니다. 초기 단계의 플래시블레이드//S(FlashBlade//S) 또는 에이리(AIRI) 도입부터, 고도화된 AI 및 HPC 요구사항에 이르기까지 대응이 가능합니다.

AI가 이제 실험적 프로젝트를 넘어 핵심 수익원으로 자리 잡는 시대, 이 플랫폼은 실시간 데이터 스트림을 기반으로 ‘지속적인 인텔리전스(Continuous Intelligence)’를 제공합니다. 즉, 데이터를 단순히 저장하는 것을 넘어, 생각의 속도로 데이터를 이해하는 기업이 미래를 선도하게 될 것입니다.

자세히 알아보기

극한 규모의 AI 및 HPC를 위한 플래시블레이드(FlashBlade)//EXA

퓨어스토리지 AI 솔루션

Pure AI