냄비, 후라이팬, 그리고 DAS로 데이터 마이닝이 가능한가요? 데이터 플랫폼을 현대화하십시오.

$1,200. 석유 20 배럴 또는 금 1온스를 살 수 있는 금액입니다. 몇 년 전 발표된 연구조사에 따르면 이는 엔드 유저 1명에 대한 데이터 가치이기도 합니다. 아마 지금은 그 가치가 훨씬 더 올라갔을 것입니다. 그 놀라운 속도를 감안할 때 대부분의 기업들은 금광에 올라 앉아 있다고 해도 과언이 아닙니다.

1세기 전, 전세계의 광부들이 금을 발견해 부자가 되겠다는 실낱같은 희망을 안고 캘리포니아로 모여들었습니다. 이들은 강이나 개울을 쉴틈 없이 누비며 바닥에 숨겨져 있을 금 덩어리를 찾아 해맸습니다. 이들이 주로 사용한 툴은 냄비와 후라이팬이었습니다. 세월이 흘러 기술도 진화하였고, 광부들은 드릴, 폭약, 지진감지기, 그리고 데이터 분석을 위한 현대적인 툴을 활용 해 훨씬 더 효율적인 모습이 되었습니다.

그리고 분명히 데이터의 세계도 이처럼 진화하고 있습니다. 데이터의 특성과 이를 분석(마이닝)하는 툴들의 유형은 획기적으로 바뀌었습니다. 그러나 대부분의 데이터 과학자, 엔지니어 및 연구자들은 구시대의 인프라를 사용하고 있습니다. 냄비와 후라이팬을 사용해 데이터 마이닝을 시도하는 것과 같습니다. 이는 데이터 과학자들에게는 불만을, 데이터 아키텍트에게는 복잡성과 한계를, 그리고 비즈니스 부서에게는 결과 지연을 야기하고 있습니다.

현대적인 데이터는 구식 기술이 지원하는 한계를 초월합니다. 현대적인 접근방식은 역동적이고 방대한 실시간의 병렬 아키텍처를 요구합니다. 그리고 Man AHL처럼(아래 설명 참조) 데이터 과학자들에게 이를 구축할 수 있는 올바른 플랫폼을 제공하면, 판도가 바뀔 수 있습니다. 설명을 해드리겠습니다.

Hadoop과 빅데이터 분석의 불씨

2003년, Google은 추후 중대한 영향을 미치게 되는 “구글 파일 시스템(The Google File System)”이라는 제목의 문서를 출간했습니다. 이 문서는 MapReduce의 문서와 결합되어 하둡(Hadoop)과 하둡 파일 시스템(Hadoop File System, HDFS)의 생성에 영감을 주었습니다. 이로부터 수십 억 달러 규모의 업계가 생겨나고 빅데이터의 역사는 영원히 바뀌었습니다. 처음으로, 세계는 상대적으로 간단한 프로그래밍 모델을 사용하여 방대한 양의 데이터를 활용할 수 있는 레시피를 확보하게 된 것입니다.

구글 파일 시스템과 HDFS는 데이터의 특징에 대한 특정 추측에 기반하여 구축되었습니다. 이 문서는 다음의 가정들에 대해 설명을 하고 있습니다.

  • 대규모 파일:“수 GB 규모 파일이 보편적이다.”
  • 순차적 액세스:“애플리케이션들은 대부분 대규모 파일을 순차적으로 읽거나 쓴다.”
  • 배치 워크로드:“대부분의 대상 애플리케이션들은 고속으로 대용량 데이터를 처리하는 것을 우선으로 하지만 엄격한 응답 시간 요구를 가지고 있지는 않다.”
  • 불가피한 컴포넌트 장애:“컴포넌트 장애가 발생하는게 정상이다.”

이러한 가정들을 고려할 때 확실한 툴은 서버 노드의 분산형 직접 연결 스토리지(DDAS)였습니다. DDAS는 대규모 파일을 순차적으로 처리하도록 설계되었지만 무작위적인 소규모 파일 액세스를 처리하는데는 효과적이지 않습니다. DDAS는 많은 디스크가 종합된 경우 배치 워크로드에 높은 대역폭을 제공할 수 있지만 실시간 워크로드에서는 성능 기준에 미치지 못합니다.  네트워크는 느리다라고 가정이 되었기 때문에(이에 대한 퓨어스토리지의 견해를 확인하십시오), 복잡성과 확장, 비용 및 민첩성과 관련된 여러 도전과제를 초래함에도 불구하고 처리장치 부분을 바로 옆으로 이동해 스토리지와 밀접하게 결합하는 것이 합리적인 선택인 듯했습니다. . 전체를 놓고 볼 때, 타협이 필요했고, 그 당시에는 그만한 가치가 있다고 여겨졌습니다.

모든 것을 변화시키는 현대적인 데이터

우리는 실시간 애플리케이션과 AI가 범람하는 새로운 시대에 살고 있습니다. 현대의 골드 러시가 이제 막 시작되려 합니다. 십년 전에는 Hadoop이 가장 광범위하게 사용되는 분석 툴이었지만, 데이터 과학자들은 이제 다양한 툴들을 사용할 수 있게 되었습니다. 실시간 스트리밍 프레임워크인 Apache Spark는 Hadoop 보다 간단하고 더 강력합니다. Kafka는 모든 규모의 파일을 위한 실시간 메시징 툴입니다. Hive는 순차적이 아니라 랜덤 액세스를 위한 SQL 같은 인터페이스를 제공합니다. 이와 같은 예시들은 무수히 많습니다.

현대적인 분석의 주인공은 머신 러닝과 인공 지능(AI)입니다. Amazon의 CEO인 제프 베조스(Jeff Bezos), “AI가 모든 기업에 역량을 제공하고 비즈니스를 향상시켜 줄 것이다. 기본적으로, 이 세상에서 머신 러닝으로 향상될 수 없는 조직은 없다.”라고 말했습니다.  TensorFlow와 Caffe2 같은 새로운 툴들은 데이터 과학자들에게 이전에는 액세스할 수 없었던 새로운 초능력을 제공합니다.

빅데이터 분야에서 이러한 변화의 물결을 추진하는 것은 단순한 사실입니다. ‘비정형 데이터는 문자 그대로 정형화되지 않아 지속적으로 변화하는 다양한 형태를 지녔다’라는 이 단순한 사실을 중심으로 구축된 새로운 툴들이 새로운 기술, 업계, 그리고 4차 산업 혁명의 폭발을 가져오고 있습니다. 빅데이터는 더 이상, DDAS 모델에 기반한 대규모의 순차적이고 고정적인 형태가 아닙니다. 머신 러닝을 위한 학습에서, 데이터에 관한 가정들은 기존 HDFS 및 DDAS 아키텍처 기반에서와는 정반대입니다. 학습 데이터는 순차적이 아니라 무작위로 액세스되어야 하며 파일들은 대부분 크기가 작습니다.

데이터는 이제 진정으로 역동적이 되었습니다. 그리고 완전히 새로운 형태의 데이터 플랫폼이 필요하게 되었습니다. 이 플랫폼은 역동적인 현대의 데이터 니즈를 위해 구축이 되고 알려지지 않은 사실을 위해 설계가 되어야 합니다.

데이터 과학자(및 비즈니스)를 위한 현대적 툴이 필요합니다

인프라는 데이터 과학자와 엔지니어들을 위한 하나의 툴입니다. 이는 제품의 혁신과 비즈니스 데이터에 대한 통찰을 지원합니다. 그러나 구식 툴을 선택하는 것은 오늘날의 금광에서 냄비와 후라이팬을 사용하는 것과 마찬가지라고 할 수 있습니다.

안타깝지만, 대부분의 IT 조직들은 이러한 전환의 중간 부분에서 멈춰서 움직이지 못하고 있습니다. 데이터 과학자들은 현대의 툴로부터 혜택을 얻길 바라지만 인프라가 DDAS에 HDFS로 구축된 구식이기 때문에 결과적으로 점점 제 멋대로 뻗어나가는 복잡하고 단절된 애플리케이션 네트워크를 야기합니다.. DDAS를 사용하는 데이터 과학자들은 머신 러닝과 Spark 같은 현대의 워크로드에 제대로 준비를 갖출 수 없습니다. 실제로, DDAS는 머신 러닝을 위해 구축하고자 하는 시스템과는 정반대입니다. 이러한 시스템은 일관성 있는 레이턴시와 처리량을 제공하고 전체 데이터세트에서 데이터를 무작위로 액세스할 필요가 있기 때문입니다.

현대에는 모든 워크로드를 위해 컴퓨트 역량이나 저장용량을 필요에 따라서 확장할 수 있고 모든 비정형 데이터를 위해 최고의 성능을 제공하는 역동적인 데이터 허브가 필요합니다. 그리고 6가지 핵심적인 특징을 보유해야 합니다.

  • 모든 것을 위한 튜닝 완료: 비정형 데이터는 다양한 크기, 형태 또는 액세스 패턴을 가집니다. 데이터 허브는 모든 데이터를 위해 타협 없는 성능을 제공해야 합니다.
  • 실시간: Spark와 같은 많은 현대적인 애플리케이션들은 데이터 스트리밍을 위해 설계되었습니다.
  • 올플래시: 하드디스크, 기계식 디스크 보다 월등하게 빠르며 랜덤 억세스 및 낮은 레이턴시를 제공합니다.
  • 병렬: 소프트웨어에서 하드웨어까지, 데이터 허브는 직렬 병목 현상 없이 종단간의 방대한 병렬성을 갖추어야 합니다.
  • 유연성: 오늘날의 툴들은 클라우드 기반으로 구축되어 인프라가 클라우드처럼 민첩하고 유연할 것을 기대합니다.
  • 간단함: 연구자 및 엔지니어들은 인프라 관리가 아니라 데이터에 중점을 두길 원합니다. 이는 손쉬운 관리, 그러나 입증된 우수한 안정성, 복구력 및 가용성을 의미합니다.

빠르게 진화하는 데이터 분석 툴셋

구축 후 지원이 필요할 무렵에 인프라는 이미 구식이 되어 있을 수도 있습니다. 불과 몇 년 안에, 세 가지 다른 접근방식이 빅데이터의 표준으로 떠올랐습니다.

현대적인 데이터와 분석의 역동적인 특징을 효과적으로 처리할 수 있는 새로운 유형의 스토리지 인프라를 간단하게 구현할 수 있다면 어떨까요? 그러한 스토리지 시스템은 이전엔 찾아볼 수 없었습니다. 알려지지 않은 것을 위해 개발한다는 것이 거의 불가능에 가까운 일이었기 때문입니다.

FlashBladeTM: 현대적인 분석을 위한 업계 최초의 데이터 허브

FlashBlade는 현대적 분석을 위해 특별히 설계된 업계 최초인 동시에 유일한 다이내믹 데이터 허브입니다.

FlashBlade는 완벽히 튜닝되어 조율 되었있습니다. 소규모 파일, 메타데이터 중심 파일, 대규모 파일, 랜덤 또는 순차적 액세스 패턴, 그리고 실시간 응답을 요구하는 최대 수십 만 개의 클라이언트를 처리할 수 있습니다. 지속적으로 스토리지 플랫폼을 재튜닝할 필요가 없습니다. 처음부터 하드웨어는 물론 소프트웨어까지, 방대한 병렬 아키텍처로 구축이 되어 현대의 모든 워크로드는 물론 미래의 워크로드를 위한 최고의 성능을 제공합니다.

FlashBlade는 데이터 과학 및 엔지니어링 팀 없이 데이터 파이프라인들이 역동적으로 성장할 수 있도록 지원합니다. 스토리지를 컴퓨트와 분리함으로써, 각 애플리케이션은 클라우드 서비스에서 기대되는 것처럼 적정량의 컴퓨트와 스토리지로 유연하게 확장될 수 있습니다. 팀들은 몇 분 안에 신속하게 애플리케이션 클러스터들을 늘리고 분해할 수 있습니다. 독립적인 새로운 DDAS가 구축될 때까지 몇 주를 기다릴 필요가 없습니다.

Man AHL를 위한 Apache Spark 성능 10배 향상

Man AHL은 투자 관리 기업으로 관리하는 자산이 190억 달러에 달합니다. 이 기업의 투자 결정은 사람의 개입 없이 컴퓨터로 실행되는 수학적 모델에 기반해 이루어집니다. IT가 제공하는 툴에 의존하는 약 50명의 데이터 과학자들은 FlashBlade에 인프라를 구축하기로 결정했습니다.

데이터 엔지니어링 팀의 팀장인 제임스 블랙번(James Blackburn)은 “우리 연구자들 대부분은 FlashBlade가 여러 시뮬레이션에서 Spark를 보다 쉽게 사용할 수 있도록 만들어 준다는 사실을 깨달았다. 한 연구자의 Spark 워크로드 처리량은 기존 스토리지 시스템 대비 10배 향상되었다”고 말합니다. 이는 기업이 제품을 시장에 출시하는 데 걸리는 시간을 단축해주는 게임 체인저가 될 수 있습니다.

지금 FlashBlade를 사용해 보십시오.

DDAS 아키텍처는 초창기의 빅데이터와 분석에 적합했습니다. 현대에는 클라우드 서비스와 같은 민첩성과 간단함을 갖추고 비정형 워크로드를 위한 새로운 차원의 역동성과 확장된 규모의 스토리지가 필요합니다. FlashBlade는 현대적인 분석을 위해 특수 설계되었으며 방대한 병렬 아키텍처를 기반으로 합니다.

보다 자세한 정보는 여기를 클릭하시거나여기로 문의해주십시오. 퓨어스토리지는 고객들이 어떻게 인프라를 현대화하고 데이터 과학자, 연구자들에게 역량을 부여해 조직의 한계를 뛰어 넘을지에 큰 관심을 가지고 있습니다.