Resumo
Some newer NVMe-based, software-defined storage (SDS) startups are leveraging commodity off-the-shelf (COTS) SSDs in their solutions. However, using COTS SSDs poses limitations for these vendors and for customers who choose these systems.
À medida que a mídia flash NAND de célula de nível quádruplo (QLC, quad-level cell) continua expandindo sua prevalência em sistemas de armazenamento, estamos vendo um aumento na economia de SSDs e, com isso, uma queda na implantação de HDDs tradicionais. Todas as mesmas vantagens que impulsionaram o deslocamento histórico de HDDs para cargas de trabalho com desempenho mais intenso agora estão sendo aplicadas a todas as cargas de trabalho, impulsionadas pela queda dos custos de US$/GB da mídia QLC. Ao mesmo tempo, a oportunidade de AI trouxe urgência para as empresas que querem ativar e monetizar seus dados de maneira operacionalmente eficiente.
A canção de cisne dos HDDs começou, mas é realista agendar a vigília?
Nesta seção em duas partes da nossa série de blogs “Beyond the Hype”, discutiremos por que o uso de SSDs prontos para uso (COTS, commodity off-the-shelf), proposto por algumas startups mais recentes de armazenamento definido por software (SDS, Software-Defined Storage) baseadas em NVMe, é uma alternativa abaixo do ideal para arrays totalmente flash (AFAs, All-Flash Arrays) que usam dispositivos de armazenamento flash desenvolvidos especificamente para substituir HDDs. Na Parte 2, veremos uma comparação mais direta entre SSDs COTS e módulos DirectFlash® da Pure Storage®.

Preocupações com a sustentabilidade apressarão a morte dos HDDs
Quando comparado aos sistemas de armazenamento HDD legados, o armazenamento baseado em flash oferece benefícios impressionantes para todas as cargas de trabalho: desempenho superior, maior confiabilidade, maior densidade de armazenamento, menor consumo de energia e menor sobrecarga operacional. De 2012 a 2019, os AFAs aumentaram em popularidade e agora geram aproximadamente 80% ou mais de todas as remessas de armazenamento para ambientes de aplicativos de alto desempenho.
Os HDDs foram essencialmente deixados na poeira magnética.
Por quê? À medida que mais empresas priorizam a sustentabilidade como um critério-chave para novas compras de AFA, métricas como eficiência energética (TB/watt) e densidade de armazenamento (TB/U) se tornam essenciais na avaliação do custo de novos sistemas. A densidade mais alta da SSD (em relação aos HDDs) e o desempenho significativamente mais alto são fatores-chave que contribuem para uma melhor eficiência e, em última análise, menor custo, pois muito menos dispositivos de mídia (bem como muito menos infraestrutura de suporte para esses dispositivos, como controladores, gabinetes, ventiladores, fontes de alimentação, cabos, switches, etc.) são necessários para construir um sistema para atender a qualquer requisito de desempenho e capacidade.
Na Pure//Accelerate® 2023, colocamos em prática que 2028 seria o último ano em que novos sistemas de armazenamento desenvolvidos em torno de HDDs seriam vendidos para uso corporativo. O que foi perdido em meio ao cascalhão gerado por essa declaração foi: A previsão agressiva da Pure Storage foi baseada em empresas que usam nossos dispositivos flash, e não SSDs prontos para uso (COTS, commodity off-the-shelf). Estamos otimistas em relação ao flash, mas mesmo não achamos que os SSDs COTS eliminarão HDDs nesta década.
Há algo muito diferente e inovador sobre como nós, na Pure Storage, implantamos flash em nossos sistemas de armazenamento corporativo. Sabemos disso porque os módulos DirectFlash (DFMs, DirectFlash Modules) da Pure Storage são duas a cinco vezes melhores em cada métrica significativa do que os baseados em SSDs COTS. Além disso, elas são 10 vezes melhores do que HDDs em cada métrica, exceto em uma: o custo bruto de aquisição.
Limitações de fornecedores que aproveitam SSDs COTS
Quatro coisas funcionam contra fornecedores que usam SSDs COTS, mesmo quando são baseadas em NVMe. Vamos dar uma olhada em cada uma delas:
- O design da SSD é orientado pelo volume dos mercados consumidores de varejo, em vez dos requisitos corporativos.
- O uso de SSDs COTS perpetua a dívida técnica dos HDDs.
- Isso cria dependência de roteiros de fornecedores de disco para melhorar a eficiência do sistema.
- Isso resulta em utilização de mídia flash abaixo do ideal.
O design da SSD é orientado pelo volume dos mercados consumidores de varejo em vez dos requisitos corporativos
No mundo da mídia de armazenamento, as eficiências de custo de fabricação estão diretamente correlacionadas aos volumes de produção. Consumidor (PCs e dispositivos móveis), não corporativos, as SSDs compõem o mercado de volume. Na verdade, as SSDs corporativas representam aproximadamente apenas 15% do mercado geral de SSDs. Após o volume, as principais inovações para a tecnologia COTS SSD são orientadas pelo mercado consumidor, que valoriza o baixo custo e as capacidades mais baixas, não os requisitos corporativos. Por outro lado, as empresas valorizam o desempenho, a resistência, a confiabilidade e a integridade de dados, todas características que exigem engenharia profunda além das SSDs principais do consumidor. Essa dicotomia continua a dificultar o ciclo de inovação para SSDs COTS e seus aplicativos para mercados corporativos.
O uso de SSDs COTS perpetua a dívida técnica de HDDs
As SSDs foram desenvolvidas para que pudessem ser facilmente inseridas em sistemas de armazenamento que foram desenvolvidos para HDDs. Especificamente, os SSDs COTS são amplamente projetados para se encaixarem em gabinetes de unidade de fator de forma pequeno (SFF, Small Form Factor). A maioria dos AFAs corporativos foi desenvolvida especificamente para usar esses SSDs COTS. Os AFAs corporativos que usam dispositivos que precisam se encaixar em pegadas SFF de 2,5” são limitados em sua capacidade de aumentar a densidade, fornecer watts/TB mais baixos e usar mídia flash de maneira ideal.
Quais são essas limitações? Os SSDs COTS incluem uma controladora interna, DRAM para armazenamento em cache para ajudar a melhorar o desempenho e a própria mídia flash. Arquitetônicamente, um SSD COTS precisa de 1GB de DRAM para cada 1TB de capacidade flash, principalmente para impulsionar a camada de tradução flash (FTL, Flash Translation Layer). Criar uma SSD de maior capacidade significa que você precisa encontrar o espaço dentro do dispositivo para a controladora, a DRAM e a mídia flash, além de resfriar o dispositivo. Está ficando cada vez mais difícil conseguir fazer isso e permanecer dentro dos limites da embalagem de 2,5”, enquanto aumenta a densidade.
Primeiro, vamos ver o controlador e seus requisitos de firmware resultantes. As próprias SSDs têm controladoras integradas que lidam com endereçamento de bloco lógico, gerenciamento de espaço livre e tarefas de manutenção em segundo plano, bem como o FTL. Eles também incluem controladores flash NAND integrados que lidam com o acesso direto à memória NAND. Todos esses controladores têm firmware, e cada sistema de armazenamento corporativo pode facilmente ter centenas de SSDs para que haja muito firmware. O firmware é uma das duas principais causas de falha em AFAs (com as próprias falhas de dispositivo sendo a mais comum). Esse labirinto de complexidade de firmware apresenta riscos de confiabilidade.
Se você já se perguntou por que a maioria dos fornecedores de sistemas não recomenda fazer upgrade de firmware no nível de SSD online, é por causa do risco associado a isso, dada a complexidade do firmware. O resultado final disso é que é raro para uma empresa até mesmo tentar fazer um upgrade de firmware de disco durante a vida útil de um sistema, relegando efetivamente o sistema ao uso de firmware de disco mais antigo e menos eficiente que inicialmente era fornecido com o sistema. Seria bom poder fazer upgrade não disruptivo do firmware durante a vida útil de um sistema para melhorar o desempenho, a utilização da capacidade, a resistência, a eficiência energética e outras métricas, mas em sistemas que usam SSDs COTS, isso raramente acontece, a menos que seja forçado por algum tipo de problema de integridade de dados.
Agora, vamos dar uma olhada na DRAM. A memória de acesso aleatório dinâmica é muito mais cara do que a mídia flash NAND, consome muita energia em relação à própria mídia flash e ocupa espaço no dispositivo que não contribui diretamente para sua capacidade utilizável. A quantidade de DRAM necessária em SSDs de maior capacidade é um fator limitante quando você precisa se encaixar em um fator de forma de 2,5”. E em sistemas com centenas de SSDs, isso é muita DRAM, e tudo isso está consumindo muito mais energia por GB do que a própria mídia flash NAND. A DRAM também está sujeita a falhas que afetam a confiabilidade do dispositivo. SSDs maiores que exigem mais DRAM aumentam as preocupações com a confiabilidade da DRAM.
Embora tenha surgido uma nova abordagem de embalagem de disco chamada de Enterprise and Data Center Standard Form Factor (EDSFF) que permite uma capacidade de armazenamento ligeiramente mais densa, ela ainda é limitada pelos mesmos fatores incômodos de “embalagem HDD” e atualmente desafiada a ir além de 30,72 TB de tamanho enquanto mantém a confiabilidade.
Mas o NVMe não foi desenvolvido especificamente para dispositivos flash? Sim, mas foi desenvolvido principalmente para acelerar a latência e aumentar a largura de banda em sistemas flash. Nessas métricas, ela claramente supera o SAS, mas tem muito menos impacto na resistência, confiabilidade, utilização de capacidade ou eficiência energética quando usada com SSDs COTS que ainda são gerenciados por controladores individuais que trabalham isoladamente.
Dependência de mapas de fornecedores de disco para melhorar a eficiência
Uma arquitetura de appliance de armazenamento baseada em SSDs COTS significa que o fornecedor do sistema de armazenamento depende dos roteiros de SSD dos fornecedores de disco para melhorar a eficiência energética e a densidade do armazenamento. No início, isso pode parecer bom. Os fornecedores de mídia podem se concentrar em fazer os melhores SSDs e os fornecedores de appliance de armazenamento usando SSDs COTS em seus sistemas podem se concentrar em fazer os melhores sistemas, certo? Vamos dar uma olhada.
Hoje, SSDs de 15,36 TB estão disponíveis em volume, SSDs de 30,72 TB estão disponíveis (mas ainda não em volume, portanto, os preços ainda são relativamente altos) e SSDs de 61,44 TB estão na lista de preços de pelo menos um fornecedor de disco (embora a disponibilidade pareça limitada e os preços sejam altos). No nível do mercado, surgem dúvidas sobre se as SSDs de 30,72 TB atingirão a queda de preço associada a remessas de alto volume. E ainda há mais perguntas sobre se os dispositivos de 61,44 TB conseguirão essa queda de preço. Não há dúvida de que os dispositivos flash de maior capacidade fazem uma grande diferença na eficiência energética de uma plataforma de armazenamento, pois reduzem o consumo de energia e espaço em rack por terabyte, bem como abrem a oportunidade de comprar menos dispositivos para atingir uma meta de desempenho e capacidade no nível do sistema. Em teoria, isso também melhora a confiabilidade, pois um sistema com menos dispositivos também requer muito menos infraestrutura de suporte (controladores, gabinetes, ventiladores, fontes de alimentação, cabos, switches, etc.).
No entanto, criar uma SSD de maior capacidade não é apenas uma questão simples de instalar mais mídia flash no dispositivo. Dependendo do fator de forma, você precisa encaixar a controladora, a DRAM (1 GB por TB) e a mídia flash no pacote. Supondo que um fornecedor possa conseguir isso, há preocupações corporativas válidas sobre SSDs com mais de 15,36 TB de tamanho, especificamente utilização de capacidade e tempos de reconstrução de disco.
Independentemente das afirmações dos fornecedores de disco sobre a utilização da capacidade no nível do dispositivo, a maioria dos fornecedores de sistemas de armazenamento não recomenda que você preencha SSDs em um sistema de armazenamento com mais de 60% a 70% de capacidade total. (No entanto, é ainda pior com HDDs, pois os fornecedores de sistemas sugerem não preencher esses dispositivos com mais de 50% a 60% de capacidade.) Essa incapacidade de utilizar totalmente toda a capacidade dessas SSDs significa que você precisa comprar mais delas para atender a qualquer meta de desempenho e capacidade.
Para aumentar a utilização da capacidade da mídia flash em cada dispositivo, os fornecedores podem adicionar uma grande camada de cache. Esse cache funciona como um buffer de gravação de alto desempenho e seu tamanho grande permite realizar a coalescença de gravação para aumentar a resistência e a utilização da capacidade do flash de backup melhor do que os sistemas convencionais. Mas essa abordagem tem seus riscos. O cache normalmente consiste em armazenamento de desempenho extremamente alto (ou seja, Optane ou flash SLC NAND), que é significativamente mais caro em uma base de US$/GB e consome muito mais energia do que o flash QLC NAND. O desempenho de gravação desse cache deve ser alto o suficiente para impedir que o sistema atinja um penhasco de gravação, pois ele ingere simultaneamente novas gravações, atende a solicitações de metadados, lida com qualquer tráfego de leitura e gerencia como os dados são desclassificados para mídia flash de baixo custo. O que exatamente é essa mídia de alto desempenho, o que custa e onde o penhasco de gravação é experimentado com diferentes cargas de trabalho?
A proporção entre leituras e gravações que a mídia de alto desempenho pode oferecer é um fator crítico de sucesso para lidar com cargas de trabalho de alto desempenho, e a proporção entre o cache e a mídia flash variará de acordo com a intensidade de gravação da carga de trabalho. Há impactos no desempenho por não obter a proporção certa e nos custos do tamanho grande do cache.
Agora vamos ver o problema do tempo de reconstrução. A maioria dos fornecedores de sistemas de armazenamento implementa alguma forma de proteção de dados em disco, como RAID ou codificação de exclusão (EC, Erasure Cocoding) para proteger os dados contra falhas individuais de SSD. Na sequência das falhas, as empresas estão preocupadas com uma segunda falha de disco que resultaria em indisponibilidade ou perda de dados antes que a reconstrução do primeiro disco com falha fosse concluída e, por esse motivo, estão muito preocupadas com os tempos de reconstrução do disco. Quando uma SSD falha e precisa ser substituída, todos esses dados nesse dispositivo devem ser reconstruídos. Os SSDs COTS são muito mais rápidos do que os HDDs, por isso as empresas se sentiram mais confortáveis com a implantação de SSDs maiores. Os fornecedores de sistemas de armazenamento normalmente citam um tempo de reconstrução de 8 a 12 horas para um SSD de 15,36 TB, enquanto a estimativa seria de 25 a 30 horas para um HDD desse tamanho. Mas isso pressupõe que nada mais está acontecendo no sistema. Na prática, a taxa de reconstrução para um HDD usando uma abordagem EC de 20 listras que continua a atender I/O normal é de cerca de 1TB por dia, o que significa que a reconstrução de um HDD de 24TB pode levar mais de três semanas. As SSDs podem ser reconstruídas muito mais rapidamente, mas para dispositivos de maior capacidade, ainda estamos falando de potencialmente muitos dias.
Devido a preocupações com os tempos de reconstrução, as empresas tendem a querer implantar dispositivos de capacidades menores em sistemas que tenham qualquer sensibilidade à disponibilidade de dados. Isso afetou especialmente a capacidade dos fornecedores de discos de vender dispositivos de 30,72 TB. Na verdade, vi clientes implantarem dispositivos de 30,72 TB em sistemas e depois decidirem migrar para dispositivos de 15,72 TB ou 7,68 TB porque não conseguiram usar capacidade suficiente enquanto atendiam aos requisitos de desempenho para torná-los economicamente atraentes.1 Também vi fornecedores fazerem ofertas de SSDs de 30,72 TB para fechar um acordo de custo, mas depois transferir o cliente para SSDs de menor capacidade na instalação por motivos semelhantes.
Assim, com SSDs COTS, um tamanho de dispositivo menor reduz as preocupações com os tempos de reconstrução, mas leva a um sistema mais caro e potencialmente menos confiável. Tamanhos de dispositivos maiores levam a um sistema mais eficiente em energia e espaço, mas levantam preocupações de usabilidade. Na verdade, por motivos de desempenho em escala e utilização de capacidade, os fornecedores de disco podem nem estar dispostos a produzir SSDs de capacidade extremamente grande (75 TB+) que serão necessários para que o flash substitua HDDs em cargas de trabalho corporativas. Isso porque, mesmo que os fornecedores possam fabricar dispositivos de capacidade maior, ainda há uma questão de se as empresas vão realmente usá-los em sistemas de produção. E se os clientes não os comprarem com muita frequência, os fornecedores não conseguirão obter a fabricação de alto volume necessária para reduzir os preços. Isso torna os clientes corporativos ainda menos propensos a comprá-los.
Isso leva ao que nossos irmãos do outro lado do lago podem se referir como “bater em um pau pegajoso” para fornecedores de disco e empresas, dependendo dos SSDs COTS.
Utilização de mídia flash abaixo do ideal
O que significa projetar um sistema para usar a mídia flash da maneira ideal? Isso significa dispensar com bagagem HDD, otimizar o design do sistema em torno de um protocolo desenvolvido especificamente para flash (NVMe), e mapear e gerenciar toda a mídia flash em um sistema global e diretamente.
As SSDs corporativas empregam um controlador pequeno em cada disco que gerencia a mídia apenas nesse dispositivo, coordenando a I/O de leitura e gravação com gerenciamento de espaço livre e lidando com erros I/O. Essa foi basicamente a maneira como os HDDs foram desenvolvidos e os SSDs COTS foram desenvolvidos da mesma maneira. Ao tomar decisões sobre a utilização da mídia, o controlador de disco não tem visibilidade do que mais está acontecendo no sistema. Ao otimizar o gerenciamento de mídia em um único disco, ele acaba gerenciando-o de maneira subideal do ponto de vista dos sistemas. O resultado? ampliação de gravação mais alta, um problema devido a preocupações de resistência do flash e coleta de lixo menos eficiente que afeta a consistência do desempenho, principalmente à medida que as SSDs se enchem. Para tentar compensar isso, o flash é “provisionado em excesso” (geralmente de 15% a 20%) no próprio SSD COTS para ajudar a melhorar o desempenho e aumentar a resistência. Esse provisionamento excessivo, é claro, aumenta o custo e tira da “capacidade utilizável” que uma unidade pode realmente fornecer (já que a capacidade provisionada em excesso ocupa espaço, mas só é visível para o controlador desse disco, não para o sistema).
Ainda há sistemas de armazenamento no mercado que são basicamente apenas versões atualizadas de sistemas desenvolvidos nas décadas de 1990 e 2000 para HDDs que agora estão executando SSDs. Há também sistemas mais novos, alguns dos quais foram desenvolvidos em torno do NVMe, que têm menos bagagem de HDD e são mais eficientes. A “bagagem de HDD” que ainda está lá com esses sistemas NVMe, no entanto, é que eles ainda usam dispositivos desenvolvidos em torno do design original do HDD com uma controladora interna, DRAM e mídia que precisam se encaixar em um fator de forma de HDD. E acessar a mídia de disco por meio de controladores de disco internos que não têm uma visão global do que o sistema está fazendo apresenta desafios ao tentar aproveitar ao máximo a mídia flash em muitas métricas: consistência de desempenho, resistência, confiabilidade, consumo de energia, densidade e utilização de capacidade.
Em SSDs, a controladora interna mapeia e apresenta a mídia ao FTL, que a apresenta a uma controladora de armazenamento que a apresenta aos servidores que executam vários aplicativos. Um SSD de 15TB que opera com uma taxa de utilização de capacidade de 70% apresenta pouco menos de 11TB de capacidade utilizável. Isso é melhor do que um HDD com uma taxa de utilização de capacidade de 60% que apresentaria apenas 9,2 TB de capacidade utilizável de um dispositivo de 15TB. Mas como isso se compara a um sistema que usa dispositivos de armazenamento flash (não SSDs COTS) que não têm herança do consumidor e foram desenvolvidos especificamente para impulsionar o desempenho e a eficiência em ambientes corporativos? É exatamente isso que fizemos na Pure Storage com nossos módulos DirectFlash (DFMs), e responderemos a essa pergunta na Parte 2 deste blog.
Em resumo, investir em um sistema de armazenamento corporativo desenvolvido em torno de SSDs COTS força os clientes a aceitar uma infraestrutura ineficiente que os afeta negativamente em termos de consistência de desempenho, resistência da mídia, confiabilidade do dispositivo, consumo de energia, densidade de armazenamento, utilização da capacidade e, por fim, custo do sistema. Mas como os pontos de comparação para muitos deles são sistemas totalmente HDD, os sistemas baseados em SSD COTS parecem atraentes.
Preparação para a Parte 2
Vimos as implicações do uso de SSDs COTS. Para tantas cargas de trabalho corporativas, elas são muito melhores do que HDDs. Mas e se um fornecedor de armazenamento pudesse criar dispositivos de armazenamento flash que fossem duas a cinco vezes melhores do que SSDs COTS em consistência de desempenho, resistência, confiabilidade, consumo de energia, densidade e utilização de capacidade, além de reduzir o custo de US$/GB? Vamos dar uma olhada nisso na Parte 2.
1Pagar pelos 30% de um SSD de 30TB que você não pode usar é mais caro do que pagar pelos 30% de um SSD de 7,68 TB que você não pode usar, um fator que desencoraja a compra de SSDs COTS de maior capacidade.

Escrito por: