In che modo il carbonio incorporato in Flash si confronta con le unità HDD? Parte 2

Nella Parte 2 della nostra serie in due parti, esaminiamo come confrontare diversi tipi di sistemi di storage enterprise rispetto ai confronti tra dispositivi, il che può essere fuorviante.

Flash vs HDD part 2

Sintesi

The writing is on the wall for HDD. With its declining performance per TB, HDD isn’t suitable for the evolving needs of data centers. Enterprises are turning to flash storage for its better density, performance, and power efficiency.

image_pdfimage_print

Lo studio dell’Università del Wisconsin, citato nella Parte 1 di questa serie di blog, ha confrontato le emissioni di CO2e incorporate (note anche come emissioni di produzione) a livello di dispositivo di storage. Per le soluzioni che richiedono un solo dispositivo per soddisfare i requisiti di performance e capacità, questo può essere un confronto valido anche con i valori più recenti di CO2e per dispositivo. Ma nei sistemi aziendali, tali confronti diretti tra dispositivi sono spesso fuorvianti. Le performance e la capacità sono scalabili in modo diverso tra le tecnologie di storage e ignorare queste dinamiche a livello di sistema porta a conclusioni errate.

Per fare un confronto significativo tra i sistemi di storage enterprise, dobbiamo iniziare con i requisiti di performance e capacità a livello di sistema, quindi costruire configurazioni che soddisfino tali requisiti utilizzando unità HDD o SSD. I sistemi di storage flash offrono non solo un utilizzo più elevato della capacità, ma anche una data reduction in linea con penalità minime delle performance. Inoltre, poiché le unità SSD offrono una densità maggiore per dispositivo, sono necessarie meno unità per una data capacità di sistema. D’altro canto, performance inferiori nelle unità HDD spesso richiedono un eccesso di unità per soddisfare i requisiti di velocità di trasmissione. Ciò aumenta drasticamente i costi, l’energia, le emissioni integrate e operative, nonché i rifiuti elettronici.

Il crollo delle performance delle unità HDD per terabyte

Per capire perché si stanno verificando aumenti così drastici quando confrontiamo i sistemi di storage, dobbiamo prima considerare le performance degli HDD. Sebbene le unità HDD differiscano in termini di performance in base all’interfaccia e alla velocità di rotazione, anche le unità più veloci di oggi si sovrappongono a circa 200-300MB/s o 200-300 IOPS. È interessante notare che l’uso di code ad alta profondità o cache di write-back non protetta può migliorare gli IOPS HDD dalla sua base di circa 200-300 IOPS nell’intervallo di 500 o anche 1.000 IOPS. Per le dichiarazioni di marketing tecnico e le schede tecniche dei prodotti, questi miglioramenti sono una bonanza. Purtroppo, hanno un costo molto elevato in termini di latenze medie e posteriori. Come mostra questo articolo di Tom’s Hardware, le performance sono ancora un paio di ordini di grandezza inferiori rispetto alle unità SSD di sei anni fa. E questi sono gli scenari migliori per le unità HDD. I workload del mondo reale con anche una piccola frazione di I/O a piccoli blocchi casuali possono dimezzare le performance sequenziali dei workload rimanenti, il che ha relegato l’HDD a casi d’uso con capacità a basse performance. Per creare sistemi su larga scala, le aziende spesso utilizzano HDD da 24TB-28TB. Ma soddisfare le crescenti performance richieste dalla TB con questi dispositivi è una battaglia perduta.

Un recente blog di Meta Engineering pone a nudo il difetto fondamentale della scalabilità HDD attuale: le performance per terabyte (BW/TB) stanno crollando. Man mano che la capacità del disco cresce, la velocità di trasmissione non viene scalata di conseguenza man mano che la capacità aumenta, aggiungendo piatti o diminuendo lo spazio tra le tracce. Il risultato? I tecnici sono costretti a eseguire l’overprovisioning delle unità HDD per soddisfare i requisiti di larghezza di banda o scaricare i dati a caldo in costosi tier di unità SSD, che introducono costi e complessità. Meta ha infine concluso che le unità HDD non sono più in grado di soddisfare le esigenze dei workload incentrati sull’archiviazione o sulla capacità e sta accelerando completamente il suo allontanamento.

Carbonio in Flash
Figura 1: La velocità di trasmissione sostenuta per terabyte diminuisce drasticamente con l’aumento della capacità delle unità HDD. Fonte.

Le misurazioni di Meta dimostrano che, all’aumentare della capacità delle unità HDD, la velocità di trasmissione per terabyte diminuisce notevolmente, passando da oltre 15 MBps/TB a 12TB a meno di 6 MBps/TB a 30TB. Questa tendenza sottolinea il calo delle performance per TB che rende le unità HDD inutilizzabili anche per le applicazioni incentrate sulla capacità.

Questo collasso non è una nota a piè di pagina, ma una minaccia esistente. Infatti, segna l’inizio della fine delle unità HDD nel data center.L’hardware di Tom rafforza questa traiettoria, dimostrando che anche nel 2019 le unità SSD SATA di livello medio raddoppiano la velocità di trasmissione delle unità HDD a performance elevate, mentre le unità SSD NVMe offrono prestazioni 10-15 volte superiori. Per i workload con esigenze di performance crescenti, le unità HDD sono diventate sempre più irrilevanti negli ultimi cinque anni.

L’ultima posizione del settore e la realtà flash

I produttori di HDD stanno combattendo contro l’incessante ascesa del flash storage. Il divario di performance tra unità HDD e unità SSD sta diventando sempre più evidente, soprattutto nei workload con un’elevata intensità di dati. Sebbene le unità HDD siano ancora utilizzabili per il cold storage e il bulk storage, il loro ruolo nell’elaborazione dei dati attiva sta diminuendo. I produttori stanno cercando di mantenere le unità HDD rilevanti introducendo tecnologie come la registrazione magnetica a caldo (HAMR) e la registrazione magnetica a microonde (MAMR), ma questi sforzi sembrano essere un tentativo ultimo di prolungare l’inevitabile declino delle unità HDD in ambienti a performance medio-basse.

Anche i produttori di HDD hanno cercato di utilizzare un argomento sull’efficienza energetica, ma mentre le unità HDD consumano un po’ meno energia per le operazioni inattive, come evidenziato nei test sul consumo energetico di Tom’s Hardware, la loro efficienza complessiva è inferiore a quella delle unità SSD. L’articolo sull’hardware di Tom ha fornito un esempio concreto del problema dell’HDD. Anche se l’HDD WD Black offre un rapporto potenza/prestazioni ragionevole durante le scritture continue, le unità SSD come l’MX500 e l’SN750 offrono un’efficienza energetica molto migliore per watt sia durante l’uso attivo che durante gli stati inattivi, rendendole una scelta più sostenibile per i data center moderni. Le limitazioni delle performance delle unità HDD, unite al calo dei costi, chiariscono che lo storage flash prevarrà sul futuro del calcolo e dello storage a performance basse, medie e elevate.

La transizione di Meta è un segnale. La sconfitta dell’HDD non è una previsione distante, è in corso. Il crescente divario di performance tra unità HDD e unità SSD, soprattutto in ambienti che richiedono uno storage a performance elevate per i dati a caldo, sta convincendo Meta e altri data center a passare allo storage flash per ottenere densità, performance ed efficienza energetica migliori.  Hanno stabilito che il calo delle performance per TB di HDD è sempre più inadatto alle esigenze in evoluzione dei data center. Questo ha portato alla tendenza più ampia del settore di abbandonare le unità HDD a favore di soluzioni SSD più efficienti e a performance più elevate.

HDD: Capacità senza performance e persino in errore

L’ultima oasi per le unità HDD è stata la loro capacità ridotta di $/GB e alta. Ma anche questo rifugio ha subito un rapido erosione negli ultimi anni. Per molti workload aziendali, anche soglie di performance minime non sono più raggiungibili con le unità HDD. Come mostrerò un po’ più tardi, per raggiungere un obiettivo di velocità di trasmissione di 48GB/s, un sistema da 4,8 PB costruito con HDD da 28TB richiederebbe oltre 240 dispositivi, più del doppio del numero necessario per soddisfare solo il requisito di capacità. Per gli I/O a blocchi piccoli, la storia peggiora: Un modesto workload di 200.000 IOPS può richiedere oltre 800 dischi rigidi.

Al contrario, le unità SSD QLC moderne possono offrire capacità e performance. Un sistema da 4,8 PB può essere costruito da meno di 100 dispositivi, ottenendo la stessa velocità di trasmissione o una velocità di trasmissione migliore con meno impatto su alimentazione, spazio e CO2e. Ciò non include i vantaggi aggiuntivi di una migliore affidabilità, cicli di vita più lunghi e tassi di guasto inferiori.

I confronti a livello di sistema raccontano la storia reale

Secondo un recente articolo di ricerca della Harvard University and Meta, l’impronta di carbonio per gigabyte per le tecnologie di storage varia ampiamente:

  • HDD: Intervallo da 1,14 a 20,5 g di CO2e/GB, a seconda del modello e del caso d’uso. Le unità HDD aziendali più comuni, come Seagate Exos X16, rientrano nell’intervallo di 1,33 g di CO2e/GB.
  • SSD: Da 3,95 a 30 g di CO2e/GB, con le tipiche unità SSD aziendali come Seagate Nytro 3530 a 6,21 g di CO2e/GB e le unità SSD 2019 di Western Digital a 10,7 g di CO2e/GB.

I valori di g CO2e per GB per i prodotti specifici elencati sopra si traducono in:

  • HDD: ~1,33 kg di CO2e per TB
  • SSD: da ~6,21 a 10,7 kg di CO2e per TB

Questi numeri evidenziano perché i produttori di HDD continuano a concentrarsi sul confronto tra dispositivi. Tuttavia, per lo storage dei data center aziendali, è molto più sensato valutare l’impatto totale delle emissioni di CO2e incorporate a livello di sistema, in cui i sistemi di storage basati su flash richiedono un numero molto inferiore di dispositivi per raggiungere gli obiettivi di performance e quindi produrre un’impronta di carbonio complessiva inferiore nonostante l’intensità per GB più elevata.

Nella tabella seguente, ho utilizzato l’intervallo di performance di 10 MB/s/TB descritto nel blog di Meta Engineering per le applicazioni HDD e il grafico della velocità di trasmissione dell’HDD per TB per creare due sistemi HDD, due SSD e due sistemi DirectFlash® Module (DFM) con una capacità effettiva di 4,8 PB. In fondo alla tabella, ho applicato i valori di CO2e per TB dello studio Harvard/Meta. 

Carbonio in Flash
Figura 3: Confronto del numero di dispositivi e realizzazione di CO2e di diversi tipi di sistemi utilizzando i valori aggiornati dello studio Harvard/Meta.

Come mostrato nella Figura 3, le unità HDD richiedono oltre 286 dispositivi per un sistema da 48GB/s con capacità effettiva di 4,8 PB, mentre le unità SSD da 30TB e i sistemi DFM richiedono meno di 100. Il confronto delle CO2e incorporate a livello di sistema in un periodo di 10 anni ci racconta una storia molto diversa. Invece di fare una differenza di 8 volte superiore a quella del settore delle unità HDD, il totale delle unità SSD è inferiore a 2 volte superiore. In particolare, la CO2e integrata a livello di sistema per Pure Storage DFM è leggermente inferiore rispetto al sistema HDD.  

Quando consideriamo le emissioni derivanti dal consumo energetico a livello di sistema, il confronto delle emissioni di carbonio diventa ancora più chiaro. La Figura 4 di seguito presuppone lo stesso numero di dispositivi richiesto e le stesse capacità di unità della Figura 3. Questi valori vengono utilizzati per calcolare il consumo energetico utilizzando un rapporto shelf/s chassis principale di espansione di 8:1 per HDD e un rapporto 4:1 per SSD. Nell’arco di 10 anni, i sistemi HDD consumano quasi il doppio della potenza dei sistemi costruiti con DFM, richiedono molto più spazio su rack e creano una quantità notevolmente maggiore di CO2e e di rifiuti elettronici. Questa storia si ripete in diversi workload, compresi quelli con IOPS elevati o velocità di trasmissione sequenziale.

alimentazione annuale a livello di sistema
Figura 4: Impatto annuale sull’energia a livello di sistema e sulle emissioni operative.

Più driver che accelerano la convergenza delle emissioni di carbonio

Quando ho iniziato questo blog in due parti, ho fatto riferimento a un documento del 2017 che confronta il carbonio incorporato di HDD e SSD. Il documento del 2017 è stato citato numerose volte dalla pubblicazione. Se confronto i risultati del 2017 con le stime più recenti del paper di Harvard e Meta, i miglioramenti sono piuttosto evidenti.   

Carbonio in Flash
Figura 5: Confronto dei risultati dello studio dell’Università del Wisconsin del 2017 e dello studio di Harvard/Meta del 2022.

La densità flash è migliorata notevolmente negli ultimi 5-10 anni, riducendo il divario con le unità HDD. Tuttavia, le revisioni dei sistemi HDD e i messaggi dei vendor HDD hanno fortemente portato a modesti miglioramenti della tecnologia HDD, oltre ad attirare l’attenzione sui progressi della tecnologia flash e sui suoi vantaggi più ampi. Oltre a superare l’HDD nel miglioramento della densità, la tecnologia flash offre un ulteriore potenziale per ridurre le emissioni incorporate attraverso l’uso di energia a basse emissioni di carbonio nella produzione da fonti come l’eolico, il solare o il nucleare. Al contrario, le unità HDD si basano su materiali come il cobalto e il neodimio, il cui impatto sull’estrazione rimane elevato indipendentemente dalla fonte di energia.

Conclusione

Il settore delle unità HDD sa che la scrittura è a muro. Ecco perché alcuni vendor stanno facendo confronti sempre più disperati e fuorvianti, spesso ignorando le realtà a livello di sistema a favore di un semplice marketing di $/GB. Questi argomenti potrebbero ritardare l’inevitabile, ma non cambieranno la traiettoria. Imprese, hyperscaler e organizzazioni orientate alla sostenibilità stanno passando in modo decisivo alla tecnologia flash, in particolare le unità SSD QLC che bilanciano costi e performance per workload ricchi di capacità.

Il confronto delle unità HDD con le unità SSD non consente di raggiungere questo obiettivo. A livello di sistema, la tecnologia flash supera le unità HDD non solo in termini di velocità e densità, ma anche di sostenibilità, costi e affidabilità. Il crollo delle performance per TB nelle unità HDD le ha rese obsolete per molte esigenze aziendali. Meta e altri stanno già effettuando la transizione, e per un buon motivo: Il flash storage offre risultati migliori su ogni fronte. Le opzioni di storage flash, in particolare quelle realizzate con Pure Storage DFM, si traducono in un minor numero di dispositivi, un minor consumo energetico e una riduzione significativa delle emissioni di CO2e rispetto ai sistemi HDD tradizionali. Man mano che le aziende continuano a dare priorità alla sostenibilità, l’adozione di soluzioni di storage più efficienti non solo ridurrà l’impronta di carbonio, ma anche i costi e le esigenze infrastrutturali. È il momento di andare avanti.