image_pdfimage_print

비정형 데이터는 폭발적으로 증가하고 있으며, 그 속도는 느려질 기미가 보이지 않고 있습니다. 2024년까지 전 세계에서 생성, 수집, 복사 및 소비되는 데이터 양은 해마다 149제타바이트가 넘을 것으로 예상되며,¹  대부분은 비정형 데이터입니다. 이러한 데이터는 엄청난 가치를 지니고 있지만 도전과제와 복잡성도 만만치 않습니다.

비정형 데이터를 활용해 이점을 누리려는 조직은 먼저 데이터를 처리할 방법을 확보하고 데이터센터에서 많은 데이터를 저장하며 많은 공간을 차지하고 있는 회전식 디스크 하드웨어 문제를 해결해야 합니다. 현대의 비정형 데이터에는 기존 스토리지 아키텍처나 기술, 모범 사례, 정형 데이터 원칙이 대부분 적용되지 않습니다.

그렇다면 비정형 데이터의 폭증에 어떻게 대비해야 할까요?

비정형 데이터란?

엑셀 파일, SQL 데이터베이스 등의 정형 데이터와 달리, 비정형 데이터는 형식이 지정된 테이블에 맞지 않는 데이터를 말합니다. 일반적으로 파일과 오브젝트의 형태로 되어 있으며, 다음과 같은 데이터가 포함됩니다.

  • 센서 데이터, 티커 정보 등의 사물인터넷(IoT) 데이터
  • 텔레메트리와 위치 데이터 등 장치와 네트워크에서 생성된 데이터
  • 콜 센터의 고객 서비스 담당자가 기록한 메모 등 데이터를 처리 및 추출하는 데 컨텍스트가 필요한 텍스트 및 문서
  • 이미지, 비디오 등 시각적 데이터
  • 오디오 데이터
  • 기상 정보, 공간 분석 자료 등 리치 데이터
  • 사용자 활동, 댓글 정서 분석, 광고 클릭 수, 인구 통계 정보 등 소셜 미디어 활동으로 생성된 데이터

정형 데이터와 비정형 데이터 비교를 한 눈에 확인해보세요.

비정형 데이터가 폭발적으로 증가하는 이유

사람과 시스템은 매 순간 데이터를 생성합니다. 그리고 전 세계 수십억 명의 사람들이 매일 다양한 디지털 장치와 상호 작용을 합니다. 각 장치와 그 장치가 수행하는 모든 작업에서 엄청난 양의 데이터가 생성됩니다. 모든 스와이프, 키 입력 및 클릭은 데이터 포인트입니다. 전 세계 수십억 명의 데이터를 합치면 그 양은 매년 제타바이트(1,021바이트)에 달합니다.

오늘날의 데이터는 대부분 비정형 데이터이며, 엔터프라이즈 데이터를 포함해 비정형 데이터는 2025년까지 전체 데이터의 80% 이상을 차지할 것으로 예상됩니다.

모든 유형과 형식에 대한 분류 체계를 만드는 등 증가하는 비정형 데이터를 관리하는 데 필요한 ‘인적 자원’이 준비되지 않은 경우, 엄청난 양의 데이터로 인해 우회할 수 없는 병목 지점이 생겨날 것입니다.

비정형 데이터 분석의 도전과제

비정형 데이터는 엄청난 잠재력을 가진 인사이트를 제공할 수 있지만, 이를 액세스하고 활용하는 것은 ‘고통 없이 얻어지는 것이 없다’는 사실을 입증해줍니다.

비정형 데이터의 특성상 관련성을 파악하기가 어렵습니다. 일반적으로 직면하는 도전과제는 데이터 간 관련성 파악, 대규모 데이터에서 고품질 데이터 식별, 비정형 데이터 간의 인과 관계 파악 등이 있습니다. 방대한 양의 데이터를 수집하고 저장한다는 것은 혼재하는 수많은 관련성 없는 정보를 제거해야 한다는 것을 의미합니다.

최신 머신러닝 기술은 비정형 데이터로부터 인사이트를 도출하는 데는 효과적이지만 인과 관계를 찾아주지는 못합니다. 이는 비정형 데이터 분석의 결과물에 영향을 미칠 뿐만 아니라 검증되지 않은 트렌드나 잘못된 인사이트에 기반한 비즈니스 의사 결정으로 이어질 수 있습니다.

비정형 데이터 저장과 관련된 문제

정형 데이터와 비정형 데이터에 대해 고려해야 하는 마지막 요소는 스토리지 문제입니다. 앞서 언급한 데이터 폭증에 대처하려면, 보통 데이터 증가에 맞춰 원활하게 확장할 수 있는 스케일 아웃 아키텍처가 필요합니다. 대부분의 경우에서 이러한 데이터를 저장하는 데 유일하게 경제적인 옵션이었던 디스크 기반 스토리지는 속도, 효율성, 수명 및 안정성 문제를 수반합니다.

또한 다양성으로 인한 도전과제도 따릅니다. 비정형 데이터는 주로 파일 스토리지와 오브젝트 스토리지에 저장됩니다.

  • 파일 스토리지 데이터가 폴더 및 하위 폴더 내에 있는 파일에 저장됩니다. 컴퓨터는 파일에 대한 특정 경로를 사용해 데이터를 찾습니다. 이 스토리지는 빠르게 데이터를 읽고 검색하기에는 좋은 옵션이지만 시스템을 추가하지 않고는 스토리지를 확장할 수 없습니다. 용량을 늘리는 것만으로는 충분하지 않습니다.
  • 오브젝트 스토리지 – 데이터를 작은 청크(덩어리)로 분할하여 하드웨어에 분산시킵니다. 다른 점은 계층 구조(파일 스토리지 등)나 상호 연결(블록 스토리지 등)이 존재하지 않는다는 것입니다. 각 데이터 청크는 개별적인 단위로 역할을 수행합니다. 따라서 간단한 API를 사용하여 구현할 수 있으며 쉽게 확장할 수 있습니다. 단점은 한 번 쓰기된 오브젝트는 수정할 수 없다는 것입니다.

데이터 스토리지용 파일 및 오브젝트에 대해 더 자세히 알아보세요(영문자료).

비정형 데이터의 잠재력 100% 발휘하기

비정형 데이터는 고객의 여정을 이해하고 형상화하는 데 핵심적인 역할을 합니다. 사용 행동을 연구하여 더 나은 제품을 만들고, 사용자를 더 깊이 이해하며, 관심사를 더 잘 파악하고, 더 정확하게 제품을 추천할 수 있습니다. 그러려면 이러한 노력을 뒷받침할 수 있는 현대적인 솔루션이 필요합니다.

지금까지는 실용적이고 비용이 합리적인 대안이 부족했기 때문에 디스크 기반 스토리지가 사용되어 왔습니다. 이러한 스토리지는 비정형 데이터가 증가함에 따라 수행할 수 있는 작업이 제한되어 있으며 데이터센터의 부담을 가중시킵니다. 그 이유는 다음과 같습니다.

  • 디스크 기반 스토리지는 플래시 대비 데이터센터 설치 공간이 10배 더 필요합니다.
  • 플래시 대비 10배 더 많은 에너지를 사용하므로 에너지 효율성이 낮습니다.
  • 전력 공급에 필요한 에너지 비용뿐만 아니라 자원(전자 폐기물, IT 관리 직원, 추가 랙 등)의 측면에서도 비용이 많이 듭니다.

이제 퓨어스토리지의 초고속 통합 파일 및 오브젝트 스토리지를 통해 워크로드에 관계없이 비정형 데이터를 통합하고 저장할 수 있습니다.

  • 플래시블레이드//S(FlashBlade//S)는 민첩하게 모든 아키텍처를 확장할 수 있는 역량과 플래시의 속도를 제공합니다. 최고의 속도와 성능을 필요로 하는 중요한 워크로드에 이상적입니다.
  • 플래시블레이드//E(FlashBlade//E)는 비정형 데이터의 대규모 저장과 일상적인 워크로드에 적합하며, 디스크 대신 사용할 수 있는 경제적이고 효율적인 플래시 솔루션으로 높은 TCO 및 에너지 효율성을 제공합니다.
¹https://www.statista.com/statistics/871513/worldwide-data-created/