概要
Some newer NVMe-based, software-defined storage (SDS) startups are leveraging commodity off-the-shelf (COTS) SSDs in their solutions. However, using COTS SSDs poses limitations for these vendors and for customers who choose these systems.
隨著四層儲存單元 (QLC) NAND 快閃媒體持續擴展到儲存系統,我們看到 SSD 的成本效益有所提升,因此傳統 HDD 部署量也隨之下降。QLC 媒介成本降低,因此現在所有工作負載都適用所有效能密集型工作負載,這些優勢與傳統 HDD 取代相同。與此同時,AI 機會也為希望以營運高效的方式啟動並獲利的企業帶來了急迫性。
HDD 的那首歌曲已經開始了,但此時安排清醒是實際可行的嗎?
在「Hype 之外」部落格系列的兩部分中,我們將討論為何使用由一些較新的 NVMe 型軟體定義儲存 (SDS) 新創公司所提出的商品現成 (COTS) SSD,是全快閃陣列 (AFAs) 的不理想替代品,而這些陣列使用專門打造的快閃儲存裝置來取代 HDD。在第 2 部分中,我們將進一步比較 COTS SSD 與 Pure Storage® DirectFlash® 模組。

永續性問題將使 HDD 受損
與傳統 HDD 儲存系統相比,快閃式儲存為所有工作負載提供了極大的優勢:優異的效能、更高的可靠性、更高的儲存密度、更低的耗電量,以及更低的營運開銷。從 2012 年到 2019 年,AFA 的普及率不斷上升,現在可驅動約 80% 以上的所有儲存貨件,以因應高效能應用程式環境。
HDD 基本上被遺留在磁塵中。
原因何在? 隨著越來越多的企業將永續性視為新 AFA 採購的關鍵標準,能源效率 (TB/瓦特) 和儲存密度 (TB/U) 等指標對於評估新系統的成本至關重要。SSD 的密度較高(相對於 HDD),效能明顯較高是關鍵因素,可帶來更高的效率,最終降低成本,因為要建立系統,需要的媒體裝置(以及控制器、機箱、風扇、電源、纜線、交換器等裝置的支援基礎架構)要要少得多,才能符合任何特定的效能和容量需求。
在 Pure//Accelerate® 2023,我們深信 2028 年將是去年以 HDD 打造的新儲存系統將出售給企業使用。該聲明所導致的 hullabaloo 中失去了什麼:Pure Storage 的積極預測是根據企業使用我們的快閃裝置,而非商品現成(COTS)SSD。我們看好快閃,但即使我們不認為 COTS SSD 在這十年會推出 HDD。
在 Pure Storage,我們在企業級儲存系統中部署快閃的方式,有非常不同的創新。我們知道這一點,因為 Pure Storage DirectFlash 模組 (DFM) 經證實在每項有意義的指標上都比 COTS SSD 高出兩到五倍。而且,除了原始購置成本之外,其他所有指標都比 HDD 快 10 倍。
利用 COTS SSD 的供應商限制
使用 COTS SSD 的廠商有四件事是可行的,即使它們是以 NVMe 為基礎。我們來看看它們:
- SSD 設計是由零售消費市場的數量而非企業需求所驅動。
- 使用 COTS SSD 會讓 HDD 的技術債務持續存在。
- 它建立對磁碟供應商藍圖的依賴,以改善系統效率。
- 導致快閃媒體使用率不理想。
SSD 的設計受到零售消費市場的數量而非企業需求的驅動
在儲存媒體的世界中,製造成本效率與生產量直接相關。消費者(PC 和行動),而非企業,SSD 組成了大量市場。事實上,企業級 SSD 大約僅佔 SSD 整體市場的 15%。大量使用之後,COTS SSD 技術的關鍵創新是由消費者市場所驅動,消費者市場重視的是低成本和更低容量,而非企業需求。相反地,企業重視效能、耐久度、可靠性和資料完整性,所有需要深度工程的特性都超越核心消費級 SSD。這種二分法繼續阻礙 COTS SSD 及其應用到企業市場的創新週期。
使用 COTS SSD 能持續處理 HDD 的技術債務
SSD 的設計可讓 SSD 輕鬆插入專為 HDD 設計的儲存系統。具體而言,COTS SSD 主要設計用於裝入 2.5 吋小體積 (SFF) 硬碟機殼。大多數企業的 AFA 都是專為使用這些 COTS SSD 而開發。使用必須具備 2.5 吋 SFF 封裝的裝置的企業 AFA,其增加密度、提供較低瓦特/TB,以及最佳化使用快閃媒體的能力受到限制。
這些限制是什麼? COTS SSD 包含內部控制器、快取用 DRAM,有助於提升效能,以及快閃媒體本身。就架構而言,COTS SSD 每 1TB 的快閃記憶體容量需要 1GB DRAM,主要是為了驅動快閃記憶體轉換層 (FTL)。 1TB 建立更大容量的 SSD 意味著您必須為控制器、DRAM 和快閃媒體找到裝置內的空間,並冷卻裝置。要做到這一點,並維持在 2.5 吋包裝的限制範圍內,同時提高密度,變得越來越困難。
首先,我們來看看控制器及其產生的韌體需求。SSD 本身具有嵌入式控制器,可處理邏輯區塊定址、可用空間管理、背景維護工作,以及 FTL。它們也包含嵌入式 NAND 快閃記憶體控制器,負責處理 NAND 的直接記憶體存取。這些控制器都有韌體,每個企業級儲存系統都可以輕鬆擁有數百個 SSD,因此有許多韌體。韌體是 AFA 中故障的兩大原因之一(最常見的是裝置故障)。這樣的韌體複雜性迷宮帶來了可靠性的風險。
如果您曾想過為何大多數系統供應商不建議在線上升級 SSD 級韌體,那是因為有鑑於韌體複雜性的相關風險。最終結果是,企業甚至在系統的使用壽命期間,嘗試進行磁碟韌體升級是很罕見的,從而有效地將系統恢復為使用原本隨系統出貨的較舊、效率較低的磁碟韌體。在系統的使用年限內升級韌體,以改善效能、容量利用率、耐久性、能源效率和其他指標是非常好事,但在使用 COTS SSD 的系統上則很少發生,除非發生某種資料完整性問題。
接下來,我們來看看 DRAM。DRAM 比 NAND 快閃媒體更昂貴,相較於快閃媒體本身消耗了大量電力,並佔用了裝置中不直接影響其可用容量的空間。大容量 SSD 所需的 DRAM 數量,是您需要符合 2.5 吋規格尺寸的限制因素。而在擁有數百個 SSD 的系統中,DRAM 也非常龐大,所有這些都比 NAND 快閃媒體本身在每 GB 的基礎上消耗更多能源。DRAM 也會發生故障,影響裝置的可靠性。需要更多 DRAM 的大型 SSD 增加了 DRAM 可靠性的疑慮。
雖然企業和資料中心標準規格 (EDSFF) 的新磁碟封裝方法已經出現,但儲存容量卻略為密集,但它仍受到相同的 pesky “HDD packaging” 因素的限制,目前面臨的挑戰是容量超過 30.72TB,同時維持可靠性。
但 NVMe 並非專為快閃裝置開發? 是的,但它主要是為了加速延遲和增加快閃系統的頻寬而設計。在這些指標上,明顯表現優於 SAS,但與 COTS SSD 搭配使用時,它對耐久度、可靠性、容量利用率或能源效率的影響卻遠遠較低,而 COTS SSD 仍由獨立運作的控制器所管理。
依靠磁碟供應商的藍圖來提高效率
以 COTS SSD 為基礎的儲存設備架構,代表儲存系統廠商仰賴磁碟廠商的 SSD 藍圖來改善能源效率和儲存密度。一開始聽起來可能不錯,媒體供應商可以專注於製造“最好的” SSD,而儲存裝置供應商在系統中使用 COTS SSD 可以專注於製造最好的系統,對吧? 讓我們仔細看看。
如今,有 15.36TB SSD 的容量可用,有 30.72TB SSD 的容量可用(但尚未有容量可用,因此價格仍相對較高),且至少有一個磁碟供應商的價目表上有 61.44TB SSD(雖然可用性似乎有限,且價格也很高)。在市場層面,對於 30.72TB SSD 是否能達成大量出貨相關的價格下跌問題。還有更多問題是關於 61.44TB 裝置是否能達成這個降價目標。無庸置疑,更大的容量快閃裝置在儲存平台的能源效率方面有很大的差異,因為它們在每 1TB 的基礎上能降低功耗和機架空間消耗,並有機會購買較少的裝置,以實現系統層級的目標效能和容量目標。理論上,這也提高了可靠性,因為裝置較少的系統也需要大幅減少支援基礎架構(控制器、機殼、風扇、電源供應器、纜線、交換器等)。
然而,打造更大容量的 SSD 不僅只是將更多快閃媒體安裝到裝置中而已。視規格而定,您必須將控制器、DRAM(每 TB 1GB)和快閃媒體裝入套件中。假設廠商可以達到這個目標,那麼企業對於 SSD 的容量超過 15.36TB 會有合理的疑慮,特別是容量利用率和磁碟重建時間。
無論磁碟供應商聲稱裝置層級的容量使用,大多數儲存系統供應商都建議您不要在儲存系統中填滿超過 60%-70% 的 SSD。(但 HDD 更糟的是,因為系統廠商建議不要將裝置裝滿超過 50%-60% 的容量。) 這種 SSD 無法充分運用所有容量,意味著您必須購買更多容量,才能達成任何特定的效能和容量目標。
為提高每個裝置中快閃媒體的容量利用率,廠商可以新增一個大型快取層。此快取功能可作為高效能的寫入緩衝區,其大容量允許其執行寫入合併,以增加備份快閃記憶體的耐久度和容量利用率,比傳統系統更好。但這種方法有其風險。快取記憶體通常由超高效能儲存裝置(即 Optane 或 SLC NAND 快閃記憶體)組成,在 $/GB 的基礎上價格明顯更高,耗電量遠高於 QLC NAND 快閃記憶體。該快取記憶體的寫入效能必須足夠高,以避免系統碰到寫入懸崖,因為它能同時擷取新的寫入內容、服務中繼資料要求、處理任何讀取流量,並管理資料在低成本快閃媒體上的去勢方式。高效能媒體究竟是什麼?它的成本為何?寫入懸崖在不同工作負載中的位置為何?
寫入高效能媒體的讀取比率是成功處理高效能工作負載的關鍵,快取記憶體與快閃媒體的比率會因工作負載的寫入強度而異。大型快取記憶體對比率和成本的影響不對效能造成影響。
現在我們來看看重建時間的問題。大多數儲存系統廠商都實施某種形式的線上、磁碟上資料保護,如 RAID 或清除編碼 (EC),以保護資料免受個別 SSD 故障的影響。發生故障後,企業會擔心第二次磁碟故障,導致資料無法運作或遺失,之後才完成第一次磁碟故障重建,因此非常擔心磁碟重建時間。當 SSD 故障且必須更換時,該裝置上的所有資料都必須重建。COTS SSD 的速度比 HDD 快得多,因此企業更願意部署更大的 SSD。儲存系統廠商通常會為 15.36TB SSD 提供 8 到 12 小時的重建時間,而該容量的 HDD 估計為 25 到 30 小時。但這假設系統中沒有其他問題。實際上,HDD 的重建率採用 20 條線的 EC 方法,持續為正常 I/O 提供服務,每天大約是 1TB,這表示重建 24TB HDD 可能需要三週的時間。SSD 可以更快地重建,但對於容量更大的裝置,我們仍在討論可能要花上幾天的時間。
由於對重建時間的擔憂,企業往往希望在具有任何資料可用性靈敏度的系統中部署容量較小的設備。這尤其影響了磁碟供應商銷售 30.72TB 裝置的能力。事實上,我看到客戶在系統中部署了 30.72TB 裝置,後來決定改用 15.72TB 或 7.68TB 裝置,因為他們在滿足效能需求的同時,無法充分利用容量,使其經濟上更具吸引力。1 我也看過廠商投標了 30.72TB SSD 以節省成本,但由於類似原因,安裝時客戶便改用容量較小的 SSD。
因此,使用 COTS SSD 時,裝置規模越小,就越擔心重建時間,但系統成本越高,可靠性就越低。較大的裝置尺寸可產生更節能、更節省空間的系統,但會引起可用性的顧慮。事實上,基於大規模的效能和容量使用原因,磁碟供應商甚至可能不願意生產超大容量 (75TB+) SSD,快閃記憶體在企業工作負載中取代 HDD 所需的 SSD。這是因為即使供應商可以製造更大的容量裝置,企業還是會無法實際在生產系統中使用。而且,如果客戶不常購買,廠商就無法達成推動價格下跌所需的大量製造。因此,企業客戶購買產品的可能性甚至更低。
這讓我們的兄弟們在池塘裡可能認為,根據 COTS SSD,磁碟供應商和企業可能要“要吃掉黏性柳條”。
次佳的快閃媒體使用率
設計系統以最佳方式使用快閃媒體代表什麼意思? 這意味著要分配HDD行李,根據專為快閃(NVMe)打造的協定優化系統設計,並在全球和直接系統中對應和管理所有快閃媒體。
企業級 SSD 在每個磁碟中都使用一個小型控制器來管理該裝置中的媒體,並協調讀取和寫入 I/O 與可用空間管理,以及處理 I/O 錯誤。這基本上是 HDD 的製造方式,COTS SSD 的製造方式也是一樣。在做出媒體使用決策時,磁碟控制器無法看見系統內發生的其他事件。在單一磁碟中優化媒體管理,最終從系統角度來看,以不理想的方式進行管理。如此一來,寫入放大率更高,這是由於快閃記憶體耐久度問題,以及對效能一致性有影響的低效率垃圾收集,特別是 SSD 填滿的問題。為了嘗試並抵消這種情況,快閃記憶體在 COTS SSD 本身中“預留空間”(一般為 15%-20%),以幫助提高效能和耐用性。這種超額配置當然會增加成本,並擺脫了硬碟實際能提供的“可用容量”(因為超額配置容量佔用了空間,但只有該磁碟的控制器看得到,而非系統)。
市面上還有一些儲存系統,基本上只是在 1990 和 2000 年代專為目前正運行 SSD 的 HDD 設計的更新版系統。還有較新的系統,其中有些是針對 NVMe 設計,硬碟 HDD 的容量較少,效率也更高。然而,這些 NVMe 系統仍然存在的“HDD 行李”是,它們仍然使用以原始 HDD 設計為基礎的設備,內部控制器、DRAM 和媒體必須都符合 HDD 規格尺寸。而透過內部磁碟控制器存取磁碟媒體,無法全面檢視系統正在執行的工作,在嘗試充分利用快閃媒體時,也帶來了許多挑戰:效能一致性、耐久度、可靠性、能源消耗、密度和容量使用率。
在 SSD 中,內部控制器會將媒體映射並呈現給 FTL,然後呈現給儲存控制器,再呈現給執行各種應用程式的伺服器。容量使用率為 70% 的 15TB SSD,可用容量不到 11TB。這比 HDD HDD 更好,容量使用率為 60%,只能從 15TB 裝置提供 9.2TB 的可用容量。但與使用無消費者傳統、專為在企業環境中提升效能和效率而打造的快閃儲存裝置(非 COTS SSD)系統相比,這如何? 這正是我們在 Pure Storage 使用 DirectFlash 模組 (DFM) 所做的,我們將在部落格的第 2 部分回答這個問題。
總而言之,投資以 COTS SSD 為基礎的企業級儲存系統,會迫使客戶接受低效基礎架構,這些基礎架構在效能一致性、媒體耐久度、裝置可靠性、能源消耗、儲存密度、容量利用率,以及最終系統成本方面,對他們造成負面影響。但由於其中許多系統的比較點都是全 HDD 系統,因此 COTS SSD 系統似乎具有吸引力。
準備第 2 部分
我們看到了使用 COTS SSD 的影響。對於許多企業工作負載而言,它們比 HDD 好得多。但如果儲存裝置供應商在效能一致性、耐久度、可靠性、能源消耗、密度和容量使用率方面,能夠打造比 COTS SSD 快 2 到 5 倍的快閃儲存裝置,而且成本 $/GB 更低,會怎麼樣? 我們將在第 2 部分探討。
1以您無法使用的 30TB SSD 30% 付費,比以您無法使用的 7.68TB SSD 30% 付費更昂貴,這使得購買更大容量的 COTS SSD 變得不自在。

作者: