머신러닝으로 비정형 데이터의 가치 100% 활용하기

비정형 데이터는 가장 중요한 자산 중 하나일 수 있지만, 그 안에 숨겨진 진정한 가치를 얻기 위해서는 머신러닝이 필요합니다.

Machine Learning: The Key to Unlocking Unstructured Data

산업 분야를 막론하고 많은 기업이 머신러닝의 힘을 점점 더 뚜렷하게 인식하고 있습니다. 머신러닝을 활용하면 어떤 조직이든 데이터로부터 가치 있는 인사이트를 도출할 수 있습니다. 그리고 이러한 인사이트는 비즈니스의 모든 측면에 혁신을 가져올 잠재력을 지니고 있습니다.

머신러닝(ML)은 인간의 개입이 없어도 시스템이 데이터를 통해 학습할 수 있다는 개념에 기반한 데이터 분석의 한 유형입니다. ML 시스템은 데이터를 처리하여 패턴을 식별하고, 이상 징후를 찾아내며, 사람들이 알아차리지 못하는 미묘한 상관 관계를 인식합니다. 이를 통해 조직에서는 어떤 워크플로우가 수익성 또는 효율성이 뛰어나거나 부족한 이유, 그리고 그 정도에 관해 심층적인 인사이트를 얻을 수 있습니다. ML 시스템을 활용하여 사기를 방지하고, 생산 병목 현상을 해소하고, 영업 및 마케팅 전문가에게 특정 타깃 고객에게 효과가 있는 전략을 알리는 등 여러 작업을 수행할 수 있습니다.

ML 시스템이 처리하는 조직 데이터가 더 많을수록 결과가 더 정확해집니다. 그리고 ML 워크로드를 실행하면 자체적으로 엄청난 양의 데이터가 생성될 수 있습니다. 이러한 데이터는 효과적으로 저장하고 관리해야 합니다. 한편, 오늘날의 데이터 트렌드를 고려하면 시스템에 공급할 충분한 정보를 얻는 것은 문제가 되지 않습니다.

비정형 데이터의 폭발적인 증가

기업이 수집, 저장, 분석 및 관리하는 데이터의 양은 해마다 크게 증가하고 있습니다. 디지털 혁신으로 인해 대부분의 조직에서는 자동화된 플랫폼 및 애플리케이션 형태의 소프트웨어를 사용하여 고객 어카운트, 판매, 생산 프로세스, 직원 생산성, 고객 만족도 및 피드백, 재무 정보 등을 추적하게 되었습니다. 이러한 모든 데이터는 특히 ML 시스템에서 통합 분석되어 숨겨진 상관 관계를 드러낼 때 매우 큰 가치가 있습니다.

이와 같은 정보의 대부분은 비정형 데이터이며 센서, 텔레메트리 시스템, 소셜 미디어 계정 등은 물론 모든 디지털 플랫폼 및 애플리케이션에서 나오는 정보로 구성될 수 있습니다. ML 시스템에서 최대한의 가치를 얻으려면 조직에서 모든 비정형 데이터를 통합 플랫폼 안으로 결합하는 방법을 찾는 것이 중요합니다.

이는 지금까지는 매우 어려운 일이었습니다. 비정형 데이터는 형식이 지정된 테이블 안에 깔끔하게 들어맞지 않으며, 보통 별도로 저장되는 파일과 오브젝트로 구성됩니다. 그래서 보관할 가치가 있는 데이터를 인식하기도 어려웠고 때로는 찾아내는 것조차 불가능했습니다. 개별 데이터 저장소를 수집하고 생성하는 다양한 이질적 시스템으로 인해 IT 관리자는 데이터를 효율적으로 관리하거나 액세스하는 데 어려움을 겪었습니다. 게다가 어떤 조직에서는 인력의 힘만으로 엄청난 양의 비정형 데이터를 적절하게 처리한다는 것은 불가능한 일입니다.

YouTube의 예를 들 수 있습니다. 1분마다 전 세계의 사용자가 YouTube 플랫폼에 500시간 분량의 동영상 콘텐츠를 업로드합니다¹. 하루에 YouTube에 업로드되는 동영상의 양은 한 사람이 평생 동안 시청해도 볼 수 없는 양입니다. 따라서 YouTube는 사용자가 최소한의 노력으로 최고의 콘텐츠를 제공받을 수 있도록 동영상을 필터링하는 방법이 필요합니다.

YouTube는 머신러닝 알고리즘에 크게 의존하여 동영상을 다양한 카테고리로 필터링합니다. 이 알고리즘은 불쾌하고 노골적인 콘텐츠를 표시 및 제거하고 각 업로드에 대해 저작권 보호 조치를 시행합니다.

만약 YouTube가 이러한 작업을 위해 인력을 고용해야 한다면 수백만 명의 직원이 필요할 것입니다. 머신러닝 알고리즘을 사용하면 동영상과 같은 대량의 비정형 데이터를 더 손쉽게 분석할 수 있습니다. 따라서 YouTube는 동영상 콘텐츠를 빠르게 이해하여 적절한 사용자에게 제공할 수 있는 것입니다. 또한 동영상에 표시되는 광고의 성과를 최적화하여 높은 ROI를 이끌어 낼 수도 있습니다.

머신러닝의 효과적 활용 방법: 적절한 도구의 선택

머신러닝을 통해 비정형 데이터의 가치를 실현하려면 먼저 올바른 도구가 필요하며, 여기에는 스토리지 플랫폼이 포함됩니다. 기존 스토리지 인프라는 충분하지 않습니다. 고도로 사일로화되어 있고 대개 특정 워크로드에 최적화된 다양한 아키텍처를 기반으로 분리되어 있기 때문입니다. 비정형 데이터는 크기, 파일 및 오브젝트 수, 처리 요구 사항, 파일 및 오브젝트 프로토콜에 따라 다양하게 나타날 수 있습니다. 비정형 데이터에서 최대한의 가치를 창출하려면 모든 데이터를 종합적으로 분석할 수 있어야 합니다. 이를 위한 이상적인 솔루션은 모든 형태의 비정형 데이터를 통합하여 간단하고 효율적으로 저장, 액세스, 관리 및 분석할 수 있는 스토리지 플랫폼입니다.

바로 이 부분에서 퓨어스토리지가 도움이 될 수 있습니다. 퓨어스토리지 플래시블레이드(FlashBlade)를 활용하여 초고속 통합 파일 및 오브젝트 스토리지 플랫폼을 구현할 수 있으며, 이 플랫폼은 모든 비정형 데이터를 위한 일체형 고성능 스케일 아웃 솔루션의 역할을 합니다. 또한 대규모 분석은 물론 최대 규모의 머신러닝 워크로드도 처리하도록 설계되어 있기 때문에, 이를 통해 데이터의 진정한 가치를 실현하여 경쟁 우위를 확보할 수 있습니다.

퓨어스토리지와 함께 ML 시스템에서 최대한의 가치를 이끌어 낼 수 있는 방법을 자세히 알아보려면 언제든 문의해주세요.


[1] https://blog.youtube/press/

Service Provider
기고

2부: 데이터센터 활용도 높이는 법

고효율 데이터센터는 실제로 존재합니다. 관리형 서비스 제공업체와 클라우드 하이퍼스케일러는 수년간 이러한 방식으로 운영되어 왔습니다. 어떻게…

By Don Poorman