Como o dióxido de carbono incorporado equivalente ao flash se compara aos HDDs?

Alguns estão anunciando a compra de sistemas baseados em HDD com base em CO2e, mas uma comparação do CO2e de HDDs COTS com SSDs não é tão compacta. Veja por que e o que você deve observar.


Resumo

Embodied carbon dioxide equivalent (CO2e) is a sustainability metric that can be used when evaluating enterprise storage systems’ impact on the environment. When you conduct a system-level comparison, flash-based systems can have a notably lower CO2e than HDD-based systems.

image_pdfimage_print

Recentemente, vários artigos da web e postagens de blog compararam o equivalente a dióxido de carbono (CO2e, carbon dioxide equivalent) incorporado de unidades de disco rígido (HDDs, Hard Disk Drives) prontas para uso (COTS, Hard Disk Drives) com discos de estado sólido (SSDs, Solid-State Disks). Se você fizer essas comparações pelo valor de face, é provável que você se afaste acreditando que, nessa métrica de sustentabilidade, as SSDs são até 8 vezes piores do que as HDDs com a sugestão implícita de que a construção de sistemas de armazenamento a partir do flash é muito pior para o ambiente do que a construção com disco mecânico. No entanto, se você observar os dados mais recentes de CO2e em HDDs e SSDs, esse número fica muito mais próximo e, dependendo dos dispositivos flash que você comparar, pode ser menos de 2x por terabyte (TB). 

Depois de atualizar as comparações no nível do dispositivo com os números atuais, executamos uma comparação no nível do sistema que mostra claramente que os sistemas baseados em flash podem ter um CO2e notavelmente menor do que os sistemas baseados em HDD, dependendo de quais fornecedores são usados para comparação. Também validei por que usar o nível do dispositivo em vez de comparações no nível do sistema para fazer argumentos de sustentabilidade sobre sistemas de armazenamento corporativo é extremamente enganoso. 

Como chegar a uma linha de base atualizada equivalente a dióxido de carbono incorporado  

Um estudo da Universidade de Wisconsin comparou HDDs e SSDs COTS fabricados em 2017, comparando o dióxido de carbono incorporado por terabyte (CO2e/TB) durante a fabricação de um HDD de 1TB para consumo e um SSD de 1TB para consumo. O estudo mostrou emissões incorporadas de 20 kg de CO2e/TB para o HDD e 160 kg de CO2e/TB para o SSD, uma diferença de 8x! Usando dados divulgados publicamente de fornecedores de unidades SSD para unidades corporativas fabricadas em 2021, comparei um HDD Seagate Exos X20 de 18TB com um CO2e/TB de 1,2 kg com um SSD Seagate Nytro 3332 de 15TB com um CO2e/TB de 2,91 kg. Em vez de uma diferença de 8x, a SSD tinha um conteúdo de carbono incorporado de apenas 2,4x o do HDD comparável.

Se olharmos para as tendências do setor desde 2017, não há dúvida de que as emissões de fabricação de SSD por TB têm diminuído rapidamente (em quase 10 vezes desde 2017), enquanto ao mesmo tempo, a densidade de SSD está aumentando mais rapidamente do que a densidade de HDD. A tabela na Figura 1 abaixo foi retirada do Relatório de sustentabilidade do ano fiscal de 2022 da Western Digital, página 43, e mostra a taxa média de intensidade de emissões de gases de efeito estufa (GHG, greenhouse gas) em todos os HDDs e SSDs fabricados pelo fornecedor por anos consecutivos. As taxas de intensidade das emissões de GEE para HDDs e SSDs por TB vendidas em 2020 mostraram SSDs 2,5 vezes maiores (4,3/1,7), mas é claro que cada ano subsequente as SSDs estavam melhorando muito mais do que as HDDs. Em 2022, os dados mostraram que a taxa de intensidade de emissões de GEE da SSD para SSDs por TB havia caído 49% para 2,2, enquanto a taxa de intensidade de emissões de GEE da HDD havia caído apenas 29% para 1,2, mostrando que as SSDs eram apenas 1,83x maiores (2,2/1,2) em intensidade de emissões de GEE naquele ano. 

flash
Figura 1. Uma comparação da taxa de intensidade de emissões de gases de efeito estufa de HDDs e SSDs no FY22 publicada pela Western Digital.

Mas não devemos parar por aí. E quanto ao impacto dos ciclos de vida dos dispositivos no CO2e? A maioria dos fornecedores de HDD oferece uma garantia na faixa de dois a cinco anos, enquanto os fornecedores de SSD citam cinco anos de maneira uniforme. A Backblaze, uma empresa independente de armazenamento em nuvem e backup de dados que publica números de confiabilidade de dispositivos de armazenamento com base em um estudo de centenas de milhares de dispositivos executados em seus próprios laboratórios iniciado em 2013, rastreia falhas de HDD e SSD em testes em execução contínua. Os dados mais recentes do Backblaze mostram que os HDDs falham aproximadamente 50% mais frequentemente do que os SSDs e, dessas falhas de HDD rastreadas, a idade média na falha é de 2 anos e 10 meses. Observe que, se um SSD durar 1,83 vez mais que um HDD, ele alcançou CO2e equivalente, e a chance de isso acontecer é muito boa em ambientes corporativos. 

Com base nisso, fica claro que as SSDs estão muito mais próximas das HDDs em termos de intensidade de emissões de GEE por TB e a disparidade que ainda existe pode ser compensada pelo ciclo de vida mais longo das SSDs. Além disso, o carbono incorporado por TB entre HDDs em comparação com SSDs continuará a diminuir conforme a eficiência da fabricação flash melhorar e as instalações de fabricação aproveitarem as fontes de geração de energia mais ecológicas. 

As comparações no nível do dispositivo são até mesmo relevantes para o armazenamento corporativo?

Eu comentei sobre outras comparações de HDD vs. SSD que usavam comparações no nível do dispositivo no passado, principalmente aquelas que mostravam que os HDDs têm um custo muito menor de US$/GB para capacidade bruta. Se você estiver tentando fazer comparações entre computadores, como laptops, que provavelmente terão apenas um dispositivo de armazenamento integrado, talvez uma comparação no nível do dispositivo funcione. Mas os sistemas de armazenamento corporativo geralmente têm centenas ou milhares de dispositivos de armazenamento, e a dinâmica de comparação é muito diferente nesses tipos de ambientes. Eu diria que usar comparações no nível do dispositivo para fazer argumentos de sustentabilidade sobre sistemas de armazenamento corporativo é extremamente enganoso. 

Abordei esses argumentos detalhadamente em outras publicações, mas resumirei aqui por que as comparações no nível do dispositivo são tão enganosas para o armazenamento corporativo. Para fazer uma comparação relevante para sistemas de armazenamento corporativo, você precisa definir um requisito de desempenho e capacidade para o sistema e, em seguida, criar o sistema que possa atender a esse requisito usando HDDs ou SSDs. Depois, você precisa levar em conta a economia de capacidade com o flash que se acumula de uma conversão de capacidade mais alta bruta para utilizável (maior utilização de capacidade, codificação de exclusão mais eficiente). Devido ao desempenho e às densidades significativamente maiores e às taxas de conversão de capacidade bruta para utilizável mais altas de SSDs, você acaba precisando de muito menos SSDs do que HDDs, o que também significa que precisa de muito menos infraestrutura de suporte (controladores, gabinetes, ventiladores, fontes de alimentação, infraestrutura de comutação), tudo isso gera um custo mais alto, consumo de energia, emissões de carbono e lixo eletrônico no final da vida útil de um produto. 

Tenha em mente que o desempenho muito melhor das SSDs significa que você pode usar dispositivos muito maiores enquanto ainda atende às metas de desempenho e tempo de reconstrução de disco, e pode usar tecnologias de redução de armazenamento, como desduplicação, que funcionam em tempo real para aumentar ainda mais a capacidade efetiva das SSDs. 

A Figura 2 mostra uma comparação de sistemas desenvolvidos para atender a um requisito de 4 petabytes usando HDDs de 12TB e três opções diferentes de dispositivo flash (SSD de 15,36 TB, SSD de 30,72 TB, DFM de 75TB)1. Para criar a Figura 2, usei as taxas de intensidade de emissões de GEE do FY22 para disco mecânico e flash para o FY22 da Figura 1. As emissões de CO2e e de fase de uso são usadas alternadamente de acordo com a convenção. Você notará que apenas com base no CO2e dos dispositivos de armazenamento, o sistema baseado em SSD é apenas 1,84x maior (não o 8x que foi implícito em artigos recentes). Essa comparação rápida não leva em conta os componentes e gabinetes adicionais necessários para o sistema baseado em HDD (todos os quais aumentariam seu CO2e). [Note that I added in two 1U switches for the networking in each system type to get to the rack space requirement.] 

Comparação de flash com HDDs
Figura 2. Uma comparação rápida da contagem de dispositivos de armazenamento e CO2e para sistemas de armazenamento corporativo usando diferentes tipos de dispositivos.

Não quero entrar em uma comparação detalhada do consumo de energia do ciclo de vida neste blog, mas observaria que os sistemas baseados em SSD podem usar muito menos energia do que os sistemas baseados em HDD comparáveis. Um HDD de 12TB extrai cerca de 6 watts em uso médio, produzindo um TB/watt de 2,0. Um SSD de 30,72 TB puxa entre 9 e 13 watts, dependendo do nível de atividade. Se usarmos uma suposição de 11 watts, essa SSD gera um TB/watt de 2,8, cerca de 40% maior do que a HDD. Para a comparação na Figura 2, o consumo de energia apenas para os dispositivos no sistema baseado em HDD é de 2.052 watts em comparação com 1.474 watts para o sistema baseado em SSD de 30,72 TB. É ainda menor para o sistema baseado em módulo DirectFlash® (DFM) de 75TB da Pure Storage. Nossos DFMs consomem 10 watts, têm um TB/watt de 7,5 e impulsionariam o consumo de energia de 550 watts no exemplo dado na Figura 2, cerca de 75% menor do que o sistema baseado em HDD. Uma comparação mais completa do consumo de energia será o tópico de outro blog, mas fica claro que quando se trata do consumo de energia e de CO2e associado, os sistemas baseados em flash podem oferecer grandes vitórias sobre os sistemas baseados em HDD.

E o lixo eletrônico? Se usarmos a comparação de 10 anos mostrada na Figura 2 para HDDs de 12TB e SSDs de 30,72 TB, você terá 2,55 o número de HDDs para descartar. Supondo que tanto HDDs quanto SSDs operem em um ciclo de vida de cinco anos em sistemas (o que pode ser generoso para HDDs). Assim, no final de 10 anos, você teria descartado 684 HDDs, mas apenas 267 SSDs de 30,72 TB (sem mencionar a necessidade de comprar e descartar todos os controladores, gabinetes, ventiladores, fontes de alimentação e infraestrutura de comutação adicionais necessários para os HDDs).

Emissões de fase de uso no nível do sistema 

Vamos dar outra olhada nas emissões de fase de uso total para opções baseadas em flash e disco mecânico. O relatório de sustentabilidade do FY22 da Western Digital mostra que o HDD médio tem emissões de fase de uso que são 1,2x maiores do que a SSD média. Na Figura 3, comparei a infraestrutura baseada em HDD usando HDDs de 22TB com uma infraestrutura baseada em DFM da Pure Storage usando os DFMs de 150TB que serão enviados até o final de 2024 para uma implantação de 1 exabyte2 ao longo de 10 anos. Presumo um ciclo de vida de 5 anos para os HDDs (o que pode ser generoso) e um ciclo de vida de 10 anos para os DFMs (o que é comprovado pelas próprias taxas de falha anuais internas da Pure Storage [AFRs] e pelos registros de resistência). Portanto, para os fins da Figura 3, presumimos que o equipamento baseado em HDD deve ser comprado duas vezes durante o período de 10 anos, enquanto o equipamento baseado em DFM deve ser comprado apenas uma vez. Você notará que a configuração baseada em HDD tem um ciclo de vida total de CO2e 7,3 vezes maior do que a configuração baseada em DFM.

flash
Figura 3. Comparação de CO2e entre uma implantação baseada em HDD de 1EB e uma implantação baseada em DFM de 1EB em um período de 10 anos. 

Qualquer comparação muda dependendo do tamanho dos dispositivos que você pode usar enquanto ainda atende ao desempenho, ao tempo de reconstrução do disco e a outros requisitos, mas fica claro que se você puder usar dispositivos maiores, precisará de muito menos deles. Especialmente quando se trata de sistemas baseados em HDD, muitas empresas escolhem tamanhos de dispositivos menores para resolver as preocupações com a reconstrução e o desempenho geral do sistema, de modo que comparações mais realistas possam usar HDDs de 10TB ou 8TB, reduzindo ainda mais a lacuna inicial de CO2e entre sistemas baseados em SSD e HDD. Por outro lado, se os requisitos de desempenho e tempo de reconstrução forem muito frouxos, você pode usar HDDs maiores. HDDs de 24TB estão disponíveis normalmente hoje e, nos próximos anos, podemos ver HDDs de 30TB migrando para produção em volume. Isso, é claro, aumentaria a lacuna inicial de CO2e entre SSDs e HDDs. 

Módulos DirectFlash da Pure Storage  

Deixe-me falar aqui sobre os módulos DirectFlash (DFMs, DirectFlash Modules) da Pure Storage®. Decidimos há quase uma década que, para usar o sistema baseado em flash mais eficiente, não poderíamos confiar em SSDs COTS. Precisávamos criar nossos próprios dispositivos3. Sem limites da tecnologia de empacotamento SFF de 2,5”, já mostramos que podemos criar dispositivos flash de capacidade extremamente grande que não são apenas totalmente utilizáveis em sistemas corporativos, mas também oferecem desempenho mais uniforme, melhor utilização de capacidade e têm densidade, confiabilidade, resistência e eficiência energética muito maiores do que os SSDs COTS. Embora os fornecedores de discos frequentemente impliquem em um ciclo de vida de 10 anos para suas SSDs, na verdade, eles só oferecem garantias no intervalo de cinco anos. Nossa garantia de DFMs corresponde às nossas suposições de análise do ciclo de vida: 10 anos. E nossos DFMs custam menos em uma base de US$/TB do que os SSDs COTS.

Estamos enviando nossos DFMs de 75TB desde 2023 e os incluí na Figura 2. Você pode ver que nossas densidades de DFM mais altas resultam em sistemas muito mais compactos que precisam de muito menos dispositivos, menos infraestrutura de suporte e espaço em rack, consomem muito menos energia e permitem sistemas de grande escala que podem realmente começar com um CO2e menor do que sistemas baseados em HDD comparáveis (dependendo das capacidades do dispositivo selecionadas). Enviaremos um DFM de 150TB até o final de 2024 e planejamos introduzir um DFM de 300TB até 2026. Esses DFMs de maior capacidade serão muito atraentes para a construção de sistemas com vários PB, enquanto manteremos DFMs de menor capacidade (que também estamos enviando hoje) para uso com nossos sistemas menores. 

Não se esqueça da confiabilidade

Há uma diferença significativa de confiabilidade entre HDDs e SSDs. Na versão mais recente do Backblaze em maio de 2024, eles mostram AFRs médios de HDD de 1,41%. Os AFRs de SSD do Backblaze mais recentes publicados estão em 0,96%. Os administradores de armazenamento sabem por experiência própria que a AFR aumenta conforme os HDDs envelhecem. Sim, os fornecedores substituirão dispositivos com falha ainda na garantia, mas o fato é que, com sistemas baseados em HDD, os administradores passam mais tempo substituindo dispositivos com falha e reconstruindo dados devido a falhas de unidade. Além disso, independentemente de o fabricante substituí-los ou não, não significa que o dispositivo de substituição não tenha impacto de CO2e, ou seja, o contrário. Cada dispositivo substituído está adicionando cada vez mais carbono incorporado ao total do sistema.

A propósito, os módulos DirectFlash da Pure Storage são muito mais confiáveis do que SSDs. Nosso AFR é 0,12%, comprovado em centenas de milhares de DFMs que enviamos em sistemas desde 2017, o que é 8 vezes melhor do que os AFRs mais recentes dos SSDs COTS!

Então, qual é o CO2e adicional incorrido de uma taxa de falha de dispositivo mais alta? A Figura 4 usa as suposições da Figura 3 comparando um sistema de 1EB construído a partir de HDDs de 22TB vs. DFMs de 150TB durante um ciclo de vida de 10 anos para mostrar que o sistema baseado em HDD incorre em um CO2e adicional de dispositivos de substituição de 169.224 kg, enquanto o sistema baseado em DFM incorre em apenas 26.400 kg adicionais, uma diferença superior a 6 vezes. Essa adição faz uma diferença significativa quando adicionada ao CO2e geral de cada sistema (os sistemas baseados em HDD e DFM).  

Comparação de flash com HDDs
Figura 4. CO2e adicional incorrido para a configuração 1EB devido a falhas do dispositivo.

Conclusão

Portanto, fica claro que os argumentos que buscam incentivar as compras de sistemas baseados em HDD para uso corporativo com base em CO2e não se destacam se você olhar para todo o sistema ao longo de seu ciclo de vida. Melhorar a eficiência da fabricação flash já reduziu a lacuna inicial de CO2e entre HDDs e SSDs no nível do dispositivo para menos de 2x, e isso só continuará a diminuir conforme a taxa de intensidade de emissões de GEE para SSDs diminui mais rapidamente do que para HDDs. E se você levar em conta a vida útil, isso reduz (e às vezes) qualquer diferença de CO2e. Se você usar sistemas de armazenamento da Pure Storage e avaliar o CO2e durante toda a vida útil de um sistema de armazenamento corporativo, o que eu diria que é a maneira certa de avaliá-lo, é verdade que os sistemas totalmente flash podem ter um impacto de carbono incorporado menor do que os sistemas baseados em HDD.  

As soluções da Pure Storage superam consistentemente os sistemas baseados em HDD em uma ampla variedade de métricas de nível de sistema: desempenho geral, bem como consistência de desempenho, utilização de capacidade, densidade, confiabilidade, resistência, custo/TB, eficiência energética e ciclo de vida. Artigos recentes que defendem as vantagens do CO2e para HDDs contra flash buscaram dar aos clientes corporativos motivos para continuar comprando novos sistemas baseados em HDD, mas essa análise mostra que os sistemas desenvolvidos com SSDs têm ciclo de vida de CO2e muito mais próximo do que as comparações no nível do HDD dispositivo sugeririam. Além disso, os sistemas de armazenamento de grande escala desenvolvidos com DFMs da Pure Storage têm, na verdade, menor conteúdo de carbono incorporado, não apenas em seu ciclo de vida de 10 anos, mas também na compra inicial. Novamente, como era com custo/TB, os SSDs COTS ainda não estão oferecendo capacidades que ameaçam um evento de nível de extinção para HDDs, mas os DFMs claramente estão.

 1 O DirectFlash Module (DFM) de 75TB é um dispositivo de armazenamento flash desenvolvido especificamente pela Pure Storage para uso corporativo. 
 2 Isso é baseado nos planos atuais da Pure Storage. 
 3 Entregamos nossos primeiros DFMs em 2017.