打造 AI 的資料平台:挑戰、機會與習慣

隨著 AI 持續突破無限可能,我們正處於令人興奮的時刻。但為了跟上腳步,企業需要專為 AI 打造的資料平台,確保為當前需求做好準備,並做好未來定位。


概要

To fully capitalize on AI’s potential, enterprises need a platform that goes beyond sheer speed to deliver multi-dimensional performance, reliability, and scalability. The Pure Storage platform sets the industry standard, delivering consistent performance, unbeatable density, and cloud-like flexibility.

image_pdfimage_print

為 AI 建立資料平台既令人振奮又充滿挑戰。資料需求正在飆升,新模型不斷出現,而 AI 架構也在以驚人的速度不斷演進。隨著 LLM 的快速崛起和生成 AI,創新正在進一步加速。這是一個令人興奮但激烈的時刻,雖然我們仍在 AI 的早期階段,但隨著科技的成熟,現今的需求將持續發展。

現今的 AI 資料平台市場與快閃儲存的早期類似,其原始效能就是一切。許多新參賽者將他們的產品作為“拖延的賽車手”,優先考慮實現永續成長的建築和平台元件的速度。然而,現在我們看到 AI 架構從拖拉賽車者轉移到 F1 汽車,主要集中在各種工作負載的一致效能,以及精準且平衡地處理複雜的需求。 

雖然沒有一個成功公式,但有一件事很明顯:如同 F1 汽車並非為直線速度而打造,而是透過精密的工程來主宰,AI 資料平台需要在整個儲存堆疊中進行創新。在這裡,成功將取決於硬體和軟體的深度創新和共同設計方法,從而實現無縫、一致和可靠的解決方案,為整個市場提供“即服務”。

在 Pure Storage,我們支援數百位跨創新旅程不同階段的 AI 客戶,包括一些目前最大的 AI 環境。透過與這些客戶的合作,我們確定了他們所分享的基本要求:

  • 彈性與隨需求變化而進化的能力: AI正在迅速發展,您最想要的就是投資技術,這些技術無法隨著您的業務成長。平台不僅能跟上變化的腳步,還能提供策略性優勢,這點也至關重要。雖然效能和可擴充性是關鍵,但在現今快節奏的環境中,彈性成為您最大的資產,讓您的 AI 團隊能夠適應任何未來的挑戰。
  • 將不同工作負載的 GPU 使用率最大化:組織管理各種工作負載,從序列資料擷取到高並行性任務,都需要動態管理,才能充分運用 GPU。此功能必須延伸到地端和雲端的區塊、檔案和物件式資料儲存。
  • 可擴充效能與彈性使用:AI 專案通常從試驗開始,並擴展到生產。平台必須無縫、不中斷地從 TB 擴展到 exabyte,並隨用隨付,以實現流暢、符合成本效益的作業。
  • 保證 SLA 正常運行時間與長期耐久性: 無論是實驗或執行完整生產推論,彈性和運作時間都至關重要。經實證的重要服務彈性與持續可用性,可避免停機時間,確保不間斷的創新與開發。
  • AI 驅動的自動化和簡易性:大規模管理複雜度需要時間和資源,尤其是未定義的擴展和靈活性需求。自主化基礎架構具備自我調整效能、政策式升級與容量重新平衡等功能,可降低營運開銷、消除不必要的營運複雜性,並讓 IT 團隊專注於創新。
  • 效率與永續性:取得電力、機架空間和大規模冷卻功能既具挑戰性又昂貴,因此必須平衡效能和密度。最佳化快閃管理以減少能源、冷卻和空間需求,對於支援永續、高效能的營運至關重要。
  • 安全性與網路彈性:您的關鍵資料可驅動訓練、RAG 和其他流程,同時需要強大的安全性和流暢的網路存取。這必須包括端到端加密、惡意軟體偵測和快速入侵復原,所有這些都透過標準乙太網路協定進行。

海普背後的真相:避免常見陷阱

當您超越當今儲存市場的行銷趨勢時,您通常會發現大膽的聲明和“奇跡”解決方案,並承諾會成為 AI 需求的最終答案。有些人甚至宣稱自己是「AI 操作系統」,也就是所有跛行者的全能!不幸的是,我們過去幾十年來都了解到,“光亮不是金亮”和特徵速度在長期可靠性方面往往是失敗的。小提琴記憶庫是警告的故事:儘管製造出最快的硬體,但企業卻缺乏長期成功所需的強大儲存解決方案,最終卻無法產生持久的影響。遺憾的是,客戶還欠缺了痛苦的架構債務,需要花費數年的時間才能解決。 

過去十年來,快閃技術推動了變革性變革,但現今宣稱的革命性產品,如快閃/硬碟混合式架構,雖然取得成本低,卻仍無法在整個董事會中提供微不足道的效能。儲存級記憶體 (SCM) 與 QLC 混合分層相結合,也幾乎沒有真正創新的成果。隨著 Optane 有效的 DOA 和效能下降的不法“神奇”,依賴這些技術的廠商仍面臨了重大的架構挑戰,並為客戶帶來了艱難的升級。當商品 SSD 效能和密度方面只有少數有意義的進步時,有些廠商會非常仰賴行銷承諾,並希望工程人員能夠以某種方式實現。

雖然效能是關鍵,尤其是要充分運用 GPU,但這只是解決方案的一部分。由於 AI 的理念讓企業得以實際採用,Pure Storage 相信,支援各種使用案例的平台必須具備效率、可靠性和永續性。效能需要超越速度,包括多面向功能,如並行讀取和寫入、中繼資料擴充、彈性和永續性,以滿足現實生活中的多樣化需求。

考慮到這一點,以下是目前可用的選項以及如何評估這些選項的簡單說明。您會發現所有這些系統都缺乏真正的即服務模式,因為缺乏讓 GPU 保持充分利用的效能保證、25% 的容量空間,以及 99.9999% 可靠性所需的運作時間保證。效率與永續性? 這些也被排除在方程式之外。

  • 平行檔案系統:雖然這些系統提供高效能,但它們具有複雜的管理、頻繁的更新,以及缺乏保證的 SLA。在特定使用案例中表現優異,但隨著企業環境的擴展,管理負擔可能迅速超過效能效益,通常會變得嚴重。您真的希望技術高超的 AI 團隊能夠進行維護嗎? 在財務上和營運上都能夠大規模維護這些系統嗎?
  • DIY 分解式混合架構:分解式混合基礎架構聽起來很有希望,但通常無法實際交付。儲存級記憶體 (SCM) 歷來是革命性的,在功能上已證明昂貴且有限。將 SCM 與 QLC 快閃配對,只會產生暫時性的速度錯覺,效能會隨著容量填滿和快閃老化而下降,導致時間的不一致。AI 工作負載需要可靠、具備連拍功能的效能,快取系統難以提供。複雜度只會隨著“自備硬體”方法、自訂 Linux 分佈和網路複雜性的增加而增加,這使得操作體驗可能成為夢寐以求。在購買行銷聲明之前,徹底測試這些系統“大規模”。諷刺的是,許多產品現在正在從設計中移除 SLM,並直接寫入快閃記憶體。真是個概念!歡迎來到 2016 年!
  • 超融合希望與夢想: 將太多非儲存任務卸載至儲存系統,會引發 CPU 爭議,使儲存硬體上的非儲存作業成為一個夢。此外,還能鎖定客戶。最可靠的方法是依賴專用軟體進行非儲存任務,確保一致的效能,並避免依賴由儲存供應商捆綁的沉水式解決方案。
  • 可靠性與擴充性:快速適應和創新需要可靠性和可擴展性。然而,市場感覺好像正在向後邁進。當然,GPU 使用率至關重要,但許多平台仍無法在不停機的情況下處理快速、不中斷的韌體升級。容量擴充通常會影響效能或需要停機時間。更糟糕的是,增加效能節點需要重新分享資料,導致更多中斷。客戶每天都會告訴我們,當單一硬碟、節點或 SLC 快取裝置發生故障時,效能會高達 80%,或停機時間會大幅下降。就使用者體驗而言,感覺我們回到 2000 年代初期。

這導致我們提出下一個邏輯問題:為什麼 Pure Storage 是解決企業 AI 挑戰的最佳工具? 讓我們深入了解一下。

適用於 AI 的 Pure Storage 平台:AI AI 基礎架構的未來

Pure Storage 平台提供統一的多維解決方案,以 15 年不懈的軟體創新和快閃科技為基礎。它讓組織能夠順暢地執行 AI 流程的每個階段,從資料策劃、模型訓練到服務與推論,並自動調整高效能儲存裝置,所有這些都具備 Pure Storage 的效率與簡易性。不只是儲存,它專為加速企業級的 AI 成果而設計,透過整合式資料平台提供順暢、類似雲端的體驗,可同時支援許多客戶在相同資料上的許多存取模式(捨棄整合式資料版本,而我們本身就是一個帽子戲法)。 

儲存即服務

資料平台,而非儲存陣列

雖然資料儲存產業的其他人喜歡談論他們的儲存陣列的效能、功能和功能性,但我們的客戶總是告訴我們,我們解決他們真正的問題是他們不再需要擔心管理他們的儲存。我們的平台在幾個基本方面有所不同。

AI 資料平台
  • 大規模的多維效能: AI 工作負載會產生各種 I/O 設定檔,因此,一致的多維儲存基礎架構對於可擴充的合併資料和效能至關重要。我們的“AND,而非OR”方法結合了橫向擴充解決方案,以擴展性,以及向量資料庫等低延遲交易工作負載所需的橫向擴充架構。整合式 FlashArray FlashArray FlashArray 和 FlashBlade® 整合區塊式資料儲存、檔案儲存和物件式資料儲存,提供高可擴充性和高效能。DirectFlash® 技術消除了 SSD 的低效率,將 IO 路徑管理集中,以實現最高效能,而 DirectFlash 模組 (DFM) 則提供高密度(現今 150TB,即將推出 300TB),並具有頂級的彈性(年回報率
儲存即服務
  • 隨您而進化的彈性: 我們的 Evergreen//Oneza Storage-as-a-service 解決方案是以我們獨特的 Evergreen® 架構為基礎,提供持續創新、無縫升級和可預測的成本,是長期、全面的服務。Pure Storage 擁有業界首創的 SLA,其效能、容量、效率和運作時間皆由無與倫比的技術提供支援,可處理電力、冷卻和機架空間,因此您只需要為服務付費,而非硬體維護。AI 最佳化的 SLA 能確保簡化傳輸量大小,以保持 GPU 的充分使用,而且所有內容皆以直接、五頁以下的合約概述,不會產生鬆軟、意外的情況。
AI 資料平台
  • 零調校,永遠有效率、高效能: 雖然其他人可能會將簡易性推向市場,但我們的平台在設計上是真正的自主性,提供自我調諧效能,並持續優化資料配置,無需人為干預。建立在我們專屬的作業系統—Purity操作環境—以及 DirectFlash 硬體之上,它確保了最高效率與永續性,並透過近乎零的管理輕鬆擴充。它還能提供最高效能,無需複雜的 HPC 科學專案或混合系統的複雜功能,同時無縫支援多種存取模式。
  • 簡易的自動化、生命週期管理和調度: 我們的內建 AIOps—Pure1®—在單一介面中提供全企業的能見度與管理功能,並具備能消除猜測的 AI 副駕駛,簡化自動化、生命週期管理與調度作業。一次設定政策,管理法規遵循、自動化升級,以及即時安全性與永續性追蹤。單一控制平面—Pure Fusionza—可即時存取資源,讓管理員設定服務一次,讓開發人員和企業使用者無需 IT 延遲即可存取。這將等待時間從數月縮短為數秒,讓團隊得以創新並專注於高影響力的工作。
  • 再也不必停機: Evergreen 不只是一個概念,而是 Pure Storage 獨特的基礎架構驅動的持續創新模式。當我從 EMC 加入 Pure Storage 時,我很快意識到 Pure Storage 陣列的核心是 Purity,而不是控制器。Pure Storage 的無狀態基礎架構可實現不中斷的硬體升級,無需進行遷移或堆高機升級。體驗完我的第一次無縫硬體交換後,我知道這是革命性的。Evergreen 具備無狀態控制器與隨插即用簡易性,能輕鬆升級密度與效能,讓平台維持適應性與現代化,同時零停機時間。
  • 容器調度與最佳化的 Kubernetes 支援: 協調 AI 流程需要無縫協調,以 Kubernetes 為核心。我們的平台運用 Portworx®,這是專為 Kubernetes 和容器化應用程式設計的雲端原生資料解決方案,採用統一、可擴充且安全的儲存平台。它為具狀態的工作負載、零停機時間災害復原和無縫的資料可攜性提供持久性儲存,使企業能夠靈活地管理混合和多重雲端環境中的資料密集型應用程式。這個靈活的平台整合了任何支援 Kubernetes 的解決方案,從 Red Hat OpenShift 的 Kubeflow 到 Rancher 的 Milvus,讓客戶能夠最佳化他們所選擇的 Kubernetes 堆疊。
  • 最具永續性的平台: AI 是一項艱鉅的工作。許多 AI 創新者都在尋找降低耗電量的方法,以便在資料中心內堆疊更多的 GPU 功率。Pure Storage 在效率和永續性方面擁有良好的記錄:
    • 無與倫比的效率,僅使用傳統 HDD 系統 10% 的強大功能
    • 減少高達 95% 的地板和機架空間需求,降低高達 75% 的冷卻成本
    • 尖端設計與回收實務將電子廢棄物減少了 3 倍,推動永續的未來發展

經驗證的解決方案與參考架構

Pure Storage 致力於提供頂級儲存,提供經過驗證、認證的參考架構,以獲得最佳效能和可靠性。我們與 Arista、Cisco、NVIDIA 和 Supermicro 等領導者合作,提供彈性和順暢的互通性。與限制性的超融合平台不同,Pure Storage 的開放式基礎架構提供自由選擇,無需廠商鎖定,確保我們的儲存設備隨著 AI 需求而進化。

這些解決方案包括:

Pure Storage 平台的未來發展

我們的平台為效能、可靠性、效率和永續性樹立了業界標準,但我們永遠無法滿足需求。我們不斷創新,突破極限,讓數以百計的 AI 客戶,從小規模部署到全球最大的 GPU GPU 雲端,都能達成革命性的 AI 成果。值得注意的是,我們最近與 CoreWeave 的投資和合作夥伴關係公告,支援以數萬個 GPU 規模運作的客戶,以及 Meta 的 AI Research SuperCluster 等超大規模客戶。隨著 AI 創新持續發展,我們致力於繼續打造新一代解決方案,重新定義可能性。敬請期待未來的更新!

結論:運用 Pure Storage 釋放 AI 創新

AI 工作負載比速度還要快;他們需要一個彈性、可擴充且高效率的平台,適合所有工作負載,尤其是隨著您的 AI 需求不斷演進。Pure Storage 平台透過獨特的 Evergreen 架構、軟體創新和 DirectFlash,提供一致的效能、無與倫比的密度,以及零停機時間。無論是執行交易式 AI 還是大規模、高並行性管道,Pure Storage 都能確保最佳效能,同時不影響擴充性。Pure Storage 擁有類似雲端的彈性,以及致力於您成功的合作夥伴,協助您完全發揮 AI 的潛力。

別落下謎團,讓 Pure Storage 讓您領先群倫。

直到下一次……保持快點,我的朋友們!(回來真好!)