유전체학 데이터 파이프라인의 분석을 가속화하는 플래시블레이드

유전체학 데이터 파이프라인을 가속화하는 경우, 엄청난 혁신을 가져올 수 있습니다. 여기서, 성공의 핵심은 바로 스마트 오믹스(omics) 데이터와 인프라 전략을 갖추는 것입니다.

elPrep

연구 및 대규모 임상시험에서 종양학과, 희귀 및 감염성 질환에 이르기까지, 게놈 시퀀싱은 빠르게 발전하고 있습니다. 게놈의 미세한 변화로 질병의 근본 원인을 식별하는 능력을 보유하게 되면 맞춤 의학에 한 걸음 더 가까운 임상적 의사결정을 내릴 수 있습니다.

시퀀싱 기술이 발전하면서 인간 게놈 해독 비용이 크게 감소했습니다. 처음 시퀀싱이 진행되었을 때 한 사람당 약 3억 달러에 달하던 비용은 현재 약 600달러(영문자료)로 줄었습니다. 그 결과 시퀀싱이 전 세계적으로 폭발적으로 증가했습니다. 이로 인해 생성되는 오믹스(omics) 데이터 양도 급증했으며, 이러한 데이터를 통해 인사이트를 도출하기 위한 컴퓨팅 요구사항도 함께 증가했습니다. 예를 들어, 미국에서 종양학 임상시험을 위해 연간 170만 명에 달하는 새로운 환자에 대한 데이터를 처리하려면 약 800만~3,400만 시간의 컴퓨팅 시간이 필요합니다.

이처럼 방대한 규모로 인해 생명과학 조직의 IT 담당자들은 엔터프라이즈 중심의 오믹스 데이터 전략을 구현할 때 여러 가지 도전과제에 직면하게 됩니다. 유전체학 분석 파이프라인은 많은 데이터 스테이징 작업과 다이렉트 스토리지의 병목 현상으로 인해 비효율적이고 복잡하며 노동 집약적일 수 있습니다. 전 세계적으로 CPU와 GPU가 부족한 상황에서 CPU 집약적인 워크플로우를 구현하는 것은 특히 어려운 일이죠.

따라서 임상시험의 복잡하고 까다로운 요구사항을 충족하려면 게놈 시퀀싱을 확장하는 데 보다 효율적인 접근 방식이 필요합니다. 조직은 컴퓨팅 이외에도 소프트웨어 계층에서 네트워킹 및 스토리지에 이르기까지, 스택의 나머지 부분에서 이러한 워크플로우를 최적화하는 접근 방식이 필요합니다. 퓨어스토리지 플래시블레이드(FlashBlade®)의 차세대 고속 시퀀싱 소프트웨어인 엘프렙(elPrep, 영문자료)은 이러한 효율성을 제공하고 생명과학 팀이 오믹스 파이프라인의 속도를 높이는 데 도움을 줄 수 있습니다.

엘프렙(elPrep)이란 무엇이며  그렇게 빠를까요?

세계 최대 반도체 연구소 imec이 구축한 엘프렙은 SAMtools, Picard, GATK4 같은 기존 프로그램처럼 게놈 분석을 실행하도록 설계되었습니다. 스마트 소프트웨어 아키텍처를 사용하는 엘프렙은 워크플로우에 탁월한 성능을 제공하여, 6시간 이내에 전체 게놈 시퀀싱 샘플을 실행합니다. 일반 툴로는 최대 4일이 소요되는 작업입니다. 엘프렙은 여러 준비 단계를 병렬로 실행하고 메모리 관리를 최적화하며, 프로세스에서 I/O 작업 수를 최소화하여 최대 16배 빠른 속도를 달성합니다. 엘프렙을 사용하면 연구원들은 GPU나 FPGA 엑셀레이터에 의존하지 않고 순수하게 소프트웨어 최적화 접근 방식에 기반한 단일 초고속 솔루션을 보유하게 됩니다.

 속도와 확장성을 제공하는 플래시블레이드의 엘프렙

오믹스 워크플로우는 소프트웨어 계층뿐만 아니라 플랫폼 계층에서 한층 더 최적화될 수 있습니다. 퓨어스토리지의 플래시블레이드에서 엘프렙을 실행하면 대규모 파이프라인에서 어떤 추가적인 이점을 확보할 수 있는지 테스트해보았습니다. 퓨어스토리지 고객 솔루션 센터에서 수행된 이 테스트는 단일 물리적 서버를 사용해 엘프렙 워크로드를 실행했습니다.

테스트 결과, 플래시블레이드는 서버와 플래시블레이드 공유 스토리지를 표준 이더넷으로 직접 연결한 플래시 스토리지 못지 않은 우수한 성능을 제공하는 것으로 나타났습니다. 특히 엘프렙과 플래시블레이드를 함께 사용하면 시간이 많이 소요되는 수동 데이터 스테이징 작업이 필요하지 않습니다. (그림 1 참조) 플래시블레이드가 고속 SMB와 고속 NFS를 모두 지원하기 때문입니다. 이 때문에, 공유 스토리지 플랫폼의 오믹스 데이터는 수동 데이터 복사 작업 없이 1차 유전체 분석을 위한 SMB 서버와 2차 유전체 분석을 위한 NFS 서버 모두에서 액세스할 수 있습니다. 또한 플래시블레이드의 확장성 덕분에, 70테라바이트에서 페타바이트로 증가하는 유전체 분석을 위한 스토리지 요구를 쉽게 지원할 수 있습니다.

퓨어스토리지 EMEA 지역 헬스케어 및 생명과학 부문 이브스 마히으(Yves Mahieu) 이사는 “엘프렙과 플래시블레이드를 함께 사용할 때 시너지가 나는 것은 당연합니다. imec과 퓨어스토리지는 개방형 표준을 기반으로 지능형 엑셀레이터를 구축하여 고성능 워크로드를 간소화하고 가속화한다는 점에서 같은 DNA를 공유하고 있기 때문입니다. 이는 유전체학에서 맞춤 의학과 임상적 의사 결정을 지원하는 데이터 허브를 생성하는 퓨어스토리지 플래시블레이드의 입지를 강화합니다”고 말했습니다.

플래시블레이드 공유 스토리지는 직접 연결 플래시 스토리지에 비해 성능 저하 없이 복잡하고 노동 집약적인 모든 데이터 스테이징 프로세스를 제거하여 엘프렙의 게놈 시퀀싱을 간소화하고 확장합니다. 퓨어스토리지의 유전체학 고객이 수행한 다른 테스트 및 보고서에서도 플래시블레이드는 고성능 컴퓨팅을 위한 기존 인프라 대비 최대 24배의 높은 성능을 보여주었습니다.

imec의 로엘 우이츠(Roel Wuyts) 수석 과학자는 “퓨어스토리지 같은 혁신적인 기업이 유전체학을 임상시험에 적용하는 데 필요한 유전체학 처리를 더 빠르고 비용 효율적으로 만들어 주는 엘프렙의 가치를 알아본다는 사실을 기쁘게 생각합니다”고 말했습니다.

오믹스 데이터를 마이닝하여 신규 약물 표적을 찾는 제약사, 고객 경험을 가속화하려는 진단 및 시퀀싱 연구소, 환자를 위한 맞춤형 의약품을 구현하려는 병원 등 사용 사례는 무궁무진합니다. 그러나 모든 사용 사례에서 성공적인 오믹스 데이터 및 인프라 전략을 수립하는 것이 필수입니다. 플래시블레이드에서 실행되는 엘프렙을 통해, 생명과학 및 의료 기관들은 증가하는 게놈 시퀀싱 요구사항을 충족해주는 간단하고 효율적인 CPU 최적화 게놈 플랫폼을 구축할 수 있습니다.