현재 빅데이터 분석은 매우 흥미로운 시기를 맞고 있습니다. 하둡(Hadoop)은 하이프 사이클(hype cycle: 기술의 성장 주기)의 마지막 단계에 접어들고 있고, 하이브리드 및 멀티 클라우드 등 새로운 환경에 직면하고 있으며, AI는 실험에서 생산 단계로 그 가능성이 가속화되고 있습니다.
이러한 세 가지 트렌드로 인해 인프라, 특히 스토리지 인프라가 기업의 대규모 현대적 분석을 가능하게 하는 핵심 요소로 재조명되고 있습니다.
최근 발표된 버티카 이온모드에 최적화된 퓨어스토리지 플래시블레이드 (Vertica in Eon Mode for Pure Storage)는 이러한 재조명의 좋은 예입니다.
이제 각 트렌드를 좀 더 깊이 살펴보고 현대적 분석을 성공적으로 수행하기 위해 필요한 스토리지 플랫폼의 특징에 대해 살펴보겠습니다.
빅데이터를 주도하는 세 가지 트렌드
하둡의 하이프 사이클로 인해 많은 데이터가 하둡 분산 파일 시스템(HDFS)의 데이터 레이크(data lake)와 데이터 저수지(data reservoir)에 저장되었습니다. 하지만 안타깝게도 데이터 레이크는 다수의 기업들에게 데이터 늪지(data swamp)가 되고 말았습니다.
데이터 정제화(data hygiene)의 정도에 따라 다르지만, 많은 조직들이 하둡을 분산 파일 스토리지 이상으로는 활용하지 못하고 있습니다. 이러한 데이터에 클라우드 오브젝트 스토리지의 방대한 데이터까지 더해져 기업들은 많은 데이터와 다수의 사일로에 갇혀버리게 됩니다. 여기서 필요한 것은 효과적이고 효율적으로 모든 데이터를 통합할 수 있는 방법입니다.
데이터 레이크는 일반적으로 DAS기반의 인프라 위에 구축됩니다. 하지만 하둡이 처음 시장에 들어왔을 때 사용한 접근법은 1GB 인터넷과 느린 스피닝 디스크와 같은 네트워킹 혹은 스토리지 기술의 한계에 얽매여 있었습니다.
그러나 오늘날 이러한 장벽은 사라졌고, 새로운 빅데이터 분석 시장을 이끄는 세 가지의 트렌드가 자리잡았습니다.
#1 기업들이 데이터에 접근, 관리, 이용하는 방식을 혁신한 올플래시 스토리지
올플래시 스토리지로 인한 성능의 향상으로, 방대한 데이터를 위한 로컬 데이터 스토리지의 필요성이 크게 줄었습니다.
동시에 기업들은 컴퓨팅과 스토리지의 분리로 더 큰 규모의 경제를 달성할 수 있습니다. 컴퓨팅과 스토리지가 항상 같이 연결되어 확장될 필요는 없습니다. 열차에 차량이 늘어날 때마다 엔진을 추가로 더 달아야 할 필요는 없는 것과 같습니다.
플래시블레이드(FlashBlade)는 컴퓨팅과 스토리지를 위하여 매우 우수한 리소스 활용이 가능하도록 설계되어 있습니다. 동시에 오래된 빅데이터 솔루션의 사일로적 특성으로 인하여 발생한 복잡성도 줄여줍니다.
#2 클라우드 경제에 대한 기대를 바꾼 새로운 “클라우드 현실”
퍼블릭 클라우드의 개념은 많은 가능성을 수반하였습니다. 하지만 현실적으로 보았을 때, ‘클라우드 우선(cloud-first)’ 전략을 선택한 많은 기업이 숨겨진 비용과 계획하지 않은 복잡성으로 인해 어려움을 겪었습니다.
높은 비용과 복잡성은 가장 주된 문제입니다. 보안 문제도 여전히 도입에 장애 요소로 남아있습니다. IT 부서는 반드시 필요한 높은 가용성과 데이터 보호 요건을 충족하기 위하여 많은 부담을 지니고 있습니다.
일반적으로 보안을 강화하기 위해서는 IT 생태계를 상당 부분 재설계해야 할 때가 많습니다.
많은 경우 데이터베이스 관리자(DBA)는 S3와 같은 오브젝트 스토리지 플랫폼을 활용하기 위하여 애플리케이션을 구축하게 됩니다. 여기에는 오브젝트 프로토콜이 필요하지만, 초고속 성능까지 필요할 수도 있습니다.
이러한 새로운 현실은 두 가지 중요한 점을 시사합니다.
- 간소화와 사용의 용이성은 매우 중요합니다. 시스템 운영을 위해 다수의 스토리지 전문가가 필요할 정도로 시스템이 복잡하다면 어떨지 생각해 보십시오.
- 소비 모델은 매우 중요합니다. 기업은 언제 어떤 서비스가 필요한지에 따라 비용을 지불하고, 중단 없이 원활하게(seamlessly) 환경을 확장할 수 있는 능력이 필요합니다. 많은 벤더들은 이러한 문제를 파이낸스 프로그램을 통해서 해결하려고 합니다.
하지만, 기업이 차세대 하드웨어를 도입해야 할 때, 퓨어스토리지 경쟁사들의 파이낸스 프로그램은 대폭적인 업그레이드의 문제를 해결해주지 않습니다. 적어도 5년에서 10년 동안 장기적으로 중단 없이 확장하기 위해서는 처음부터 아키텍트에 대한 중요한 결정을 내려야 합니다.
퓨어스토리지는 서비스형 스토리지(STaaS, Storage-as-a-Service)의 이점을 현대적 분석 스토리지에 적용하여 서비스형 퓨어(Pure as-a-Service)를 출시하였습니다.
#3 실험적 단계에서 생산 단계로 넘어가기에 충분한 지원을 받고 있지 못하고 있는 데이터 사이언스 및 머신 러닝 프로젝트
머신 러닝은 아주 높은 데이터 정확성을 필요로 하며, 각각의 훈련을 위하여 불러와야 하는 데이터가 너무도 많습니다. 동시에 정확성 없는 예측 분석은 기업에서 원하는 비즈니스적 이점을 제공하지 못할 것입니다.
이러한 트렌드는 샘플이나 데이터 세그먼트를 별도의 플랫폼으로 이전하는 것보다 머신 러닝 기능과 모델 훈련을 데이터가 있는 곳으로 가져오는 것이 더욱 필요하다는 것을 시사하고 있습니다.
일반적으로 데이터 분석은 데이터 웨어하우징과 AI의 중간 지점에 있다고 할 수 있습니다. 하지만 이는 대부분의 환경에서 사일로를 만들어냅니다. 수많은 맞춤형 분석, AI 환경, 인프라에서 데이터가 중복되는 것이죠. 이로 인해서 고비용의 복잡한 환경이 만들어집니다.
지금까지 다른 방식은 없었습니다. 어느 정도의 성능 저하는 감수해야 했고, 각각의 데이터 파이프라인은 고유의 워크로드 프로파일(workload profile)을 가지고 있었습니다. 하나의 플랫폼으로 다양한 성능을 지원하기 위해서는 다양한 애플리케이션이 필요하며, 이는 3년 전까지만 해도 존재하지 않았습니다.
이는 애플리케이션 벤더들이 기업에게 맞춤형 DAS 환경 등을 권했던 이유이기도 합니다. 하지만 이제는 컴퓨팅과 스토리지가 조금씩 분리되고 있습니다.
바로 이것이 퓨어스토리지 플래시블레이드(FlashBlade)가 설계된 이유입니다. 작은 파일, 큰 파일, 많은 처리량, 낮은 레이턴시, 그리고 하나의 네임스페이스에서 페타바이트급의 스케일을 확보할 수 있습니다. 퓨어스토리지는 기업이 경험하고 있는 현대적 데이터 경험을 개선하기 위하여 노력하고 있습니다. 결국 가장 중요한 것은 기업을 위한 가치 있는 경험을 창출하는 것입니다.
플래시블레이드와 버티카의 이점
올플래시 성능, 데이터 스토리지를 위한 경제적 클라우드 모델, AI에 최적화된 성능. 퓨어스토리지와 버티카는 다양한 기업을 상대로 현대적인 분석에 필요한 역량을 제공합니다. 그 예는 다음과 같습니다.
- SaaS 분석 기업 사례: 이 기업은 버티카 이온모드에 최적화된 퓨어스토리지 플래시블레이드를 사용하여 실시간으로 디지털 미디어의 품질을 검증합니다.
- 글로벌 자동차 기업 사례: 버티카 이온모드에 최적화된 퓨어스토리지 플래시블레이드를 사용하여 자율주행차가 일 초 만에 수천 개의 결정을 내릴 수 있도록 합니다.
- 의료 기관 사례: 버티카 이온모드에 최적화된 퓨어스토리지 플래시블레이드를 사용하여 실시간으로 의료진이 생명이 달린 결정을 내리는 것을 지원합니다.
더 나은 플랫폼을 만들기 위해 현대적인 아키텍처는 연결된 요소들이 필요로 하는 다양한 성능을 충족해야 하며, 별도의 사일로를 만들지 않고 모델을 데이터로 가지고 올 수 있어야 할 것입니다.
퓨어스토리지와 버티카에 대해 더 알아보세요