為何高效能運算的未來將取決於資料儲存

運算能力呈指數成長,但傳統儲存基礎架構無法跟上腳步。了解它如何幫助加速創新和科學發現。

High-performance Computing

概要

Traditional storage has become a bottleneck, limiting the full potential of HPC environments. The future of HPC and scientific breakthroughs hinges on having a platform that is specifically engineered for these data-intensive workloads.

image_pdfimage_print

高效能運算 (HPC) 是科學發現和技術創新的交集,無論是模擬氣候模型、分析基因組資料,還是訓練大規模 AI 模型。其工作負載的運算需求呈指數成長,導致傳統儲存方法成為關鍵瓶頸,因而限制了 HPC 環境的無限潛力。

因此,最成功的 HPC 部署將有一個共同點:一個大規模可擴充的儲存平台,能夠為這些強大的系統提供電力。 

資料挑戰:為何傳統儲存無法跟上腳步

高效能運算環境以前所未有的速度產生並處理大量資料。GPU 技術和專業加速器的演進,創造出運算能力,能夠比傳統儲存系統更快地處理資料。這種不平衡會產生根本問題:即使是最強大的運算系統,也只能以存取資料的速度運作。

傳統儲存解決方案最初是針對可預測工作負載而設計,通常難以解決現代 HPC 需求的各個關鍵層面:

  • 大規模並行:HPC 工作負載經常涉及數千個需要同時存取資料的平行流程。
  • Metadata效能: 除了原始輸送量之外,處理數十億元中繼資料作業的能力也變得至關重要。
  • 可擴充性: 隨著資料集擴展到 PB 和 EB 級,儲存系統必須線性擴展容量和效能。
  • 能源效率: 現代 HPC 叢集的運算密度需要能夠將功耗和冷卻需求降到最低的儲存解決方案。

根據 Intersect360 Research 的最新發現,這些瓶頸代表了當今 HPC-AI 產業面臨的最迫切問題。企業越來越常發現他們昂貴的 GPU 資源處於閒置狀態,等待資料處理。

Pure Storage 的 HPC Storage 方法

在 Pure Storage,我們從頭重新構思了Oracle架構,以解決這些基本的 HPC 挑戰。與其改寫傳統設計,我們打造了專為現代化資料密集型工作負載所設計的平台。

我們的方法以三大核心原則為中心:

  1. 大規模平行基礎架構:如同 HPC 本身,儲存必須以高度平行的方式運作,才能達到最大傳輸量。
  2. 快閃原生設計:DirectFlash® 技術讓我們能夠原生管理快閃 NAND,而不是模擬硬碟行為,從而大幅提升效能、可靠性和效率。
  3. 簡化管理: HPC 環境相當複雜,無需增加儲存管理的開銷。

我們最新的創新專為要求最嚴苛的 HPC 和 AI 工作負載而設計,讓這一理念更臻完美。

FlashBlade//EXA 簡介:重新定義大規模效能

我們很榮幸地推出 FlashBlade//EXAzie,這是業界最強大的資料儲存平台,專為 AI 工廠和 HPC 環境打造,以前所未有的規模提供極高的傳輸量。這種突破性的解決方案解決了目前 HPC 儲存受限的基本挑戰。

FlashBlade//EXA 代表Oracle架構的典範轉變,具備多項革命性功能:

  • 前所未見的效能:該平台提供超過 10TB/s 的讀取速度和寫入效能,在今夏的一般可用性下高達 50% 的讀取速度。
  • 分解式架構: 獨立擴充資料和中繼資料平面,可消除傳統瓶頸。
  • 大量分佈的中繼資料: 我們經過驗證的中繼資料核心,可在單一命名空間中支援數十億個作業,以及超過 20 倍的檔案系統。
  • 業界標準整合: 利用通用協定和現成硬體進行資料平面,確保無縫整合到現有環境中。

Pure Storage 技術長 Rob Lee 解釋道:「FlashBlade//EXA 提供大規模的平行基礎架構,能夠獨立擴展資料和中繼資料,為客戶提供無與倫比的效能、可擴充性和適應性,適用於世界上一些最大型、最嚴苛的資料環境。儲存設備正在加快大規模高效能運算和AI的演進速度。”

真實世界的影響:Pure Storage 與 CERN 合作

任何技術的真正測試都是其真實應用。因此,我們特別期待與歐洲粒子物理實驗室 CERN openlab 的合作,以加速為大型 Hadron Collider 開發尖端的 ICT 解決方案。

CERN 透過高能物理實驗產生大量資料,必須有效記錄、儲存和分析這些資料,以增進我們對宇宙的理解。傳統儲存解決方案在高效能運算需求方面,已成為重大瓶頸。

Pure Storage 與 CERN openlab 簽訂這份為期多年的協議,將能:

  • 探索 DirectFlash 技術如何支援未來科學研究的需求
  • 針對網格運算和 HPC 工作負載最佳化 exabyte 級快閃基礎架構
  • 找出在軟硬體方面發揮最大效能同時改善能源效率的機會

Lee 表示:「與 CERN openlab 合作,我們正在突破 HPC 和電網運算環境中的無限可能,並支援尖端科學工作流程。」 「CERN openlab 整合了 CERN 大型分散式儲存系統的先進技術,已準備好以無與倫比的速度和可靠性處理前所未見的資料量,同時讓研究人員得以面對高光度大型哈德倫聯合會 (HL-LHC) 時代帶來的巨大挑戰。」

CERN openlab 儲存技術長 Luca Mascetti 補充道:「我們預期這種夥伴關係將帶來一些關鍵勝利,因為我們展望科學實驗資料的未來。首先,我們希望將此技術整合到我們的大規模分散式儲存系統中,並更有效地提供資料,從而提供一種將儲存效能擴展到現今可能之外的途徑。其次,我們希望在 CERN 發掘新一代高能物理突破,並向更廣泛的科學界展示增強儲存能力的潛力,最終加快全球研究機構的發現和創新速度。」

大局:解決全產業的 HPC 挑戰

除了原始效能之外,我們的方法也解決了 2025 年 HPC 產業所面臨的幾項重大挑戰:

全球 HPC 環境持續面臨重大供應鏈挑戰,高階 GPU 伺服器和元件的前置時間從 6 個月到 12 個月不等。FlashBlade//EXA 支援資料平面的現成伺服器,在基礎架構規劃與部署方面提供更大的彈性。

隨著 HPC 部署的成長,電力消耗和冷卻需求變得越來越困難。FlashBlade//EXA 每機架 3.4TB/秒 的效能密度令人驚豔,有助於最佳化與高耗能 GPU 環境相關的不斷成長的電力與冷卻成本。

運算科學和 HPC-AI 系統管理方面缺乏熟練人員,是業界的重大挑戰。我們對簡化管理的關注降低了營運開銷,讓組織無需專業技術即可部署並管理高效能儲存。

加速跨產業的創新

先進儲存技術的影響遠遠超過傳統 HPC 環境。我們看到不同產業的驚人成果。 

在基因體學研究中,赫爾辛基大學利用 FlashBlade® 大幅加速其在 Birch Genome 專案上的工作。Jarkko Salojarvi 表示:「我們務必要平行處理,而改用 FlashBlade 讓我們能夠大幅加快流程。」 有了 FlashBlade,他們能夠並行執行多達四個工作,團隊在短短 18 個月內就超越了專案的一半,完成了超過 550 個基因組組件,相較之下,在相同的時間範圍內,連續處理不到 100 個組件。

在大規模的 AI 中,組織仰賴 FlashBlade 來有效率地擴展 AI 工作負載。隨著 AI 模型的規模和複雜度不斷增加,儲存基礎架構對於成功成果而言越來越重要。

前進之路:儲存裝置是探索的催化劑

如前所述,即使是最強大的運算系統,也能以最快速的速度存取資料。為了讓 HPC 更上一層樓,儲存技術將扮演越來越重要的角色。傳統的被動式儲存庫儲存方式,讓人們得以重新了解:儲存是運算工作負載的主動加速器。

FlashBlade//EXA 等解決方案能消除資料存取的瓶頸,不僅支援 HPC 工作負載,還能徹底改變一切可能。研究人員可以運用更大的資料集,執行更複雜的模擬,並更快速地迭代,最終加快探索的速度。

Pure Storage 對 HPC 儲存的願景,結合了前所未見的效能與極致的簡易性。我們相信,透過消除儲存的瓶頸和複雜性,我們能夠協助開啟新一代的科學和技術突破。

在運算能力持續呈指數成長的世界中,擁有能夠跟上步調的儲存基礎架構不只是優勢,更是必要條件。HPC 的未來取決於它。

Pure AI