많은 업계 전문가들이 데이터를 현대 시대의 금광이나 석유로 비유하고 있습니다. 하지만 데이터는 항상 우리 주변에 존재하며 재생 가능하기 때문에 소비되는 자원이라기 보다는 오히려 ‘태양열 에너지’에 더 가깝다고 볼 수 있습니다.

IDC에 따르면 2018년에서 2023년까지 전 세계 스토리지 용량의 설치 베이스는 두 배로 늘어나고, 2023년에는 11.7ZB(제타바이트)에 이를 것으로 전망하고 있습니다. 이 많은 데이터는 도대체 어디서 만들어지는 것일까요?

오늘날 기업들은 고객 정보에서부터 IoT(사물인터넷)에서 수집되어 빠르게 증가하는 센서와 기기의 데이터까지 가히 어마어마한 양의 데이터를 모으고 있습니다. 하지만 CRM 데이터베이스, 스프레드시트와 같은 포맷을 제외하고는 이미지, 검색 데이터, 영상, 센서 데이터 등과 같은 비정형 데이터들의 대부분은 검색도 어렵고 분석은 더욱 까다롭습니다.

업계 전문가들에 따르면 비정형 데이터가 전체 디지털 데이터의 80-90%를 차지한다고 보고 있습니다. 게다가 비정형 데이터는 데이터 레이크(Data Lake), 데이터 웨어하우스(Data Warehouse), SAN(Storage Area Network)와 다양한 백업 시스템 등을 비롯한 복잡한 인프라 및 수많은 사일로 속에 존재하고 있기 때문에 대체 어떻게 활용해야 할지 대부분 엄두를 내고 있지 못하는 실정입니다.

 

정리되지 않은 데이터를 이해하려면

사일로는 본래의 목적과는 달리, 비생산적인 결과를 초래하고 있습니다. 사일로로 인해 로우 데이터(Raw Data)에 분석 툴을 적용하거나 인사이트를 얻기 위해 전사적으로 정보를 모으기가 매우 어려워졌기 때문입니다.

하지만 자연어 처리와 이미지 인식 개발을 위해 머신러닝에 많은 투자가 이루어지면서, 과거 “콜드 데이터(Cold Data)”로 여겨지던 데이터가 이제는 기업이 민첩해지고 더욱 데이터 주도적으로 변화하는데 있어 중요한 역할을 하고 있습니다. 분석 기술이 발전하면서 문제에 대한 답을 이끌어내고, 과거에는 상상하지 못했던 방식으로 트렌드를 포착해 미래를 예측하고 있습니다.

하지만 현대적인 데이터 경험을 제공하기 위해서는 우선 기존에 구축되어 있는 스토리지를 살펴볼 필요가 있습니다. 정확한 분석을 위해서는 AI 알고리즘을 지속적으로 학습시켜야 하는데, 이 때 레거시 스토리지 시스템 및 미디어를 손상시킬 수 있을 정도의 강도, 속도 및 볼륨이 요구됩니다. 점점 더 많은 기업들이 스토리지에서 컴퓨트를 분리하고, 컴퓨트에서 애플리케이션을 분리하며 모든 것을 서비스형으로 제공하는 클라우드-퍼스트 전략을 수립하는 과정에서 이러한 과제는 더욱 복잡해지고 있습니다.

 

데이터 허브를 통한 비정형 데이터 단순화

이러한 상황을 염두에 두었을 때, 성공적인 스토리지 인프라는 사일로와 사일로를 연결하고, 복잡성이나 타협 없이 성능, 민첩성, 간소성에 대한 니즈를 충족할 수 있어야 합니다. 뿐만 아니라, 확장성이 뛰어나고 병렬 처리가 가능해야 합니다.

퓨어스토리지의 데이터 허브 아키텍처는 데이터 웨어하우스(DW), 데이터 레이크, 스트리밍 애널리스틱스, AI 클러스터를 비롯한 주요 네 개의 사일로간에 데이터를 공유하기 위하여 설계된 데이터 중심의 아키텍처입니다. 각 사일로의 강점을 하나의 통합된 플랫폼 위에서 엮을 수 있으며, 더 나은 통찰력을 얻기 위해 필요한 데이터를 공유하고 애플리케이션 간 막혀 있는 장애물을 제거할 수 있습니다. 뿐만 아니라, 매우 심플하고 탄력적이라 필요에 따라 애플리케이션 자원을 스핀 업(Spin Up) 및 스핀 다운(Spin Down)할 수 있습니다.

퓨어스토리지가 제공하는 플래시블레이드(FlashBlade)와 같은 현대적인 비정형 데이터를 위한 데이터 허브는 데이터 집약적인 모든 애플리케이션을 통합할 수 있도록 철저히 설계되었습니다.

 

데이터 허브 활용 사례

실제 현업에서 데이터 허브를 사용하고 있는 사례를 살펴봅시다.  대만의 창겅 메모리얼 병원(Chang Gung Memorial Hospital)의 연구진들은 플래시블레이드와 NVIDIA DGX-1를 함께 사용하여 현미경으로 본 18 종의 혈구를 99%의 정확성으로 분석하고 분류할 수 있는 딥러닝 모델의 학습을 성공적으로 수행했습니다. 이로써 진단의 정확성을 개선하고, 검사 퀄리티를 향상했으며 의료진의 과도한 업무량을 감소시키게 됐습니다.

또한, 정유 업계에 매장된 석유와 가스에 대한 탐사 데이터를 제공하는 호주 기업 서처 사이즈믹(Searcher Seismic)은 현대적인 데이터 허브를 성공적으로 구축하여, 높은 수준의 지하 지질학 탐사 데이터를 제공하고 있습니다. 서처 사이즈믹은 서비스형 데이터 시스템을 구축해, 하둡 기반의 데이터 레이크와 페타바이트(PB) 분량의 데이터를 빠르게 활용하고 오류를 줄이고자 했습니다.

서처 사이즈믹은 처음, 클라우드에 플래시 스토리지를 직접 연결해 사용하려 했으나 비용이 너무 크고 속도가 원하는 만큼 나오지 않아 고민하다 데이터 허브를 구축했습니다. 그 결과 탄성파 탐사 자료의 수집 속도를 20~30배 향상함으로써, 탐사 데이터를 고객에게 전달하는 시간을 줄여 인사이트를 도출하는데 소요되는 시간을 단축하고, 기업 가치를 향상시켰습니다. 향후 지질파 탐지 선박 위에서 바로 데이터를 위성에 송출해 배 위에서 바로 탄화수소를 탐사할 수 있다면 산업 구도가 완전히 바뀔 것으로 보고 있습니다.

 

비정형 데이터의 잠재력

이처럼 비정형 데이터는 활용 가능 여부에 따라 기업의 경쟁력을 엄청나게 높여줄 수 있는 게임 체인저의 잠재력을 가진 자원입니다. 현대적인 데이터 허브 아키텍처를 갖춘다는 것은 곧 직원들이 실시간으로 비즈니스의 속도에 맞춰 인사이트를 얻을 수 있고, 불필요한 복잡성 없이 클라우드의 확장성과 심플한 운영을 누릴 수 있다는 것입니다. 고객들에게 더 빠르고 더 정확한 지원, 중단 없는 운영, 적정한 스케일의 맞춤형 경험을 제공할 수 있습니다.

또한, 질병을 극복하기 위한 진단 툴 개발, 더욱 안전하고 스마트한 자율 주행 기술 설계 등 여러 분야에 적용할 수 있습니다. 빠르게 변화하는 현대 사회에서 비즈니스 민첩성을 높이고 분석을 기반으로 비즈니스 결정을 하고자 하는 조직들에게 과거에는 접근이 어려웠던 수많은 데이터 세트들을 활용하는 일이 더욱 중요해지고 있습니다.

이미 다가온 5G 시대에는 저장하고 분석해야 할 데이터가 더더욱 넘쳐날 것입니다. 이제 기업들은 사일로식 데이터 아키텍처를 벗어나 비정형 데이터를 어떻게 활용하고 비즈니스 혁신을 도모할 것인가 고민해야할 때입니다.