Resumo
Storage is the backbone of AI, but as model complexity and data intensity increase, traditional storage systems can’t keep pace. Agile, high-performance storage platforms are critical to support AI’s unique and evolving demands.
Na corrida em direção à inteligência geral artificial (AGI, artificial general intelligence), a tecnologia de armazenamento está definindo o ritmo. Embora algoritmos e computação sejam os holofotes, o armazenamento potencializa inovações de AI. Durante a revolução do flash, 15K discos estagnados como desempenho computacional dobraram a cada dois anos, mas a virtualização viabilizada por flash e, hoje em dia, as cargas de trabalho orientadas por GPU estão impulsionando mais inovação de armazenamento, além de demandas por eficiência, sustentabilidade e confiabilidade.
Os esforços iniciais de AI foram limitados pela complexidade algorítmica e pela escassez de dados, mas à medida que os algoritmos avançavam, surgiram gargalos de memória e armazenamento. O armazenamento de alto desempenho desbloqueou inovações como a ImageNet, que impulsionou modelos de visão, e a GPT-3, que exigia petabytes de armazenamento. Com 400 milhões de terabytes de dados gerados diariamente, o armazenamento deve gerenciar cargas de trabalho em escala de exabytes com latência inferior a milissegundos para potencializar o aprendizado de máquina quântico e AGI. À medida que a AI progrediu, cada onda de inovação colocou novas demandas no armazenamento, impulsionando avanços em capacidade, velocidade e escalabilidade para acomodar modelos cada vez mais complexos e conjuntos de dados maiores.
- Aprendizado de máquina clássico (1980s-2015): O reconhecimento de fala e os modelos de aprendizagem supervisionada impulsionaram o crescimento do conjunto de dados de megabytes para gigabytes, tornando a recuperação de dados e a organização cada vez mais essenciais.
- Revolução do aprendizado profundo (2012-2017): Modelos como AlexNet e ResNet superaram as demandas de armazenamento, enquanto Word2Vec e GloVe avançaram no processamento de linguagem natural, mudando para o armazenamento NVMe de alta velocidade para conjuntos de dados em escala de terabytes.
- Modelos básicos (presente em 2018): A BERT introduziu conjuntos de dados em escala de petabytes, com o GPT-3 e o Llama 3 exigindo sistemas escaláveis e de baixa latência, como o Tectonic da Meta, para lidar com trilhões de tokens e manter a taxa de transferência de 7TB/s.
- Leis de expansão de Chinchilla (2022): Chinchilla enfatizou o aumento dos conjuntos de dados em relação ao tamanho do modelo LLM, exigindo armazenamento de acesso paralelo para otimizar o desempenho.
O armazenamento não é apenas compatível com AI, é líder, moldando o futuro da inovação gerenciando os dados em constante crescimento do mundo com eficiência e em grande escala. Por exemplo, os aplicativos de AI na condução autônoma dependem de plataformas de armazenamento capazes de processar petabytes de dados de sensores em tempo real, enquanto a pesquisa genômica exige acesso rápido a conjuntos de dados massivos para acelerar as descobertas. À medida que a AI continua a expandir os limites do gerenciamento de dados, os sistemas de armazenamento tradicionais enfrentam desafios crescentes para acompanhar essas demandas em evolução, destacando a necessidade de soluções desenvolvidas especificamente.
Como as cargas de trabalho de AI sobrecarregam os sistemas de armazenamento tradicionais
Consolidação de dados e gerenciamento de volume
Os aplicativos de AI gerenciam conjuntos de dados que variam de terabytes a centenas de petabytes, excedendo em muito os recursos dos sistemas de armazenamento tradicionais, como NAS, SAN e armazenamento legado de conexão direta. Esses sistemas, desenvolvidos para cargas de trabalho precisas e transacionais, como gerar relatórios ou recuperar registros específicos, enfrentam as demandas pesadas de agregação da ciência de dados e os padrões de acesso abrangentes e de alta velocidade das cargas de trabalho de AI/ML. O treinamento de modelos, que exige recuperação de dados em lote em massa em conjuntos de dados inteiros, destaca esse desalinhamento. As arquiteturas rígidas, as restrições de capacidade e a taxa de transferência insuficiente da infraestrutura tradicional a tornam inadequada para a escala e a velocidade da AI, ressaltando a necessidade de plataformas de armazenamento desenvolvidas especificamente.
Gargalos de desempenho para acesso a dados de alta velocidade
A análise e a tomada de decisão em tempo real são essenciais para cargas de trabalho de AI, mas as arquiteturas de armazenamento tradicionais muitas vezes criam gargalos com IOPS insuficientes, pois foram desenvolvidas para tarefas transacionais moderadas, em vez das demandas intensivas de leitura/gravação paralela da AI. Além disso, a alta latência de discos mecânicos ou mecanismos de cache desatualizados atrasa o acesso aos dados, aumentando o tempo de insights e reduzindo a eficiência dos processos de AI.
Como lidar com diversos tipos de dados e cargas de trabalho
Os sistemas de AI lidam com dados estruturados e não estruturados, incluindo texto, imagens, áudio e vídeo, mas as soluções de armazenamento tradicionais enfrentam essa diversidade. Eles são frequentemente otimizados para dados estruturados, resultando em recuperação lenta e processamento ineficiente de formatos não estruturados. Além disso, a indexação e o gerenciamento de metadados ruins dificultam a organização e a pesquisa de diversos conjuntos de dados de maneira eficaz. Os sistemas tradicionais também enfrentam problemas de desempenho com pequenos arquivos, comuns em modelos de linguagem de treinamento, pois a sobrecarga alta de metadados leva a atrasos e tempos de processamento mais longos.
Limitações da arquitetura legada
O efeito cumulativo desses desafios é que as arquiteturas de armazenamento tradicionais não conseguem acompanhar as demandas das cargas de trabalho de AI modernas. Eles não têm a agilidade, o desempenho e a escalabilidade necessários para dar suporte aos requisitos de dados diversos e de alto volume da AI. Essas limitações destacam a necessidade de soluções avançadas de armazenamento desenvolvidas para lidar com os desafios exclusivos dos aplicativos de AI, como escalabilidade rápida, alta taxa de transferência, baixa latência e manuseio diversificado de dados.
Principais desafios de armazenamento na AI
As cargas de trabalho de AI impõem demandas únicas aos sistemas de armazenamento, e lidar com esses desafios requer recursos avançados nas seguintes áreas:
- Consolidação unificada de dados: Os silos de dados fragmentam informações valiosas, exigindo consolidação em uma plataforma unificada que suporta diversas cargas de trabalho de AI para processamento e treinamento contínuos.
- Desempenho e capacidade expansíveis: Uma plataforma de armazenamento robusta deve gerenciar diversos perfis de I/O e dimensionar de terabytes para exabytes, garantindo acesso de baixa latência e alta taxa de transferência. Ao permitir o dimensionamento não disruptivo, a plataforma permite que as cargas de trabalho de AI se expandam perfeitamente conforme as demandas de dados aumentam, mantendo operações tranquilas e ininterruptas.
- Flexibilidade de expansão horizontal e horizontal: Lidar com o acesso transacional de baixa latência para bancos de dados de vetores e cargas de trabalho de alta simultaneidade para treinamento e inferência requer uma plataforma que ofereça ambos os recursos.
- Confiabilidade e tempo de atividade contínuo: À medida que a AI se torna essencial para as empresas, 99,9999% de tempo de atividade é essencial. Uma plataforma de armazenamento deve dar suporte a upgrades não disruptivos e atualizações de hardware, garantindo operações contínuas sem tempo de inatividade visível para os usuários finais.
Otimização do armazenamento em todo o fluxo de AI
Soluções de armazenamento eficazes são essenciais em cada etapa do fluxo de AI, desde a curadoria de dados até o treinamento e a inferência, pois permitem que as cargas de trabalho de AI operem com eficiência e em grande escala. Os pipelines de AI exigem armazenamento que possa lidar perfeitamente com tarefas sensíveis à latência, expandir para atender às demandas de alta simultaneidade, dar suporte a diversos tipos de dados e manter o desempenho em ambientes distribuídos.
Figura 1: Os padrões de armazenamento para AI são variados e exigem uma plataforma criada para desempenho multidimensional.
No estágio de curadoria de dados, o gerenciamento de conjuntos de dados em escala de petabyte para exabyte começa com a ingestão, onde o armazenamento deve ser dimensionado sem problemas para lidar com volumes de dados massivos enquanto garante alta taxa de transferência. Aplicativos em tempo real, como direção autônoma, exigem armazenamento de baixa latência capaz de processar dados recebidos instantaneamente. Os módulos DirectFlash® (DFMs, DirectFlash® Modules) se sobressaem nesses cenários contornando as arquiteturas SSD tradicionais para acessar o flash NAND diretamente, oferecendo desempenho mais rápido e uniforme com latência significativamente reduzida. Em comparação com SSDs e SCM legados, os DFMs também oferecem maior eficiência energética, permitindo que as organizações atendam às demandas de cargas de trabalho de AI de grande escala enquanto otimizam o consumo de energia e mantêm o desempenho previsível em alta simultaneidade.
Durante a persistência, as soluções de armazenamento de dados devem suportar retenção de longo prazo e acessibilidade rápida para dados acessados com frequência. A etapa de processamento é essencial para preparar dados para treinamento, onde o armazenamento deve gerenciar uma variedade de tipos e tamanhos de dados com eficiência, lidando com dados estruturados e não estruturados em formatos como NFS, SMB e objeto.
Na fase de treinamento e inferência de AI, o treinamento de modelo gera demandas intensivas de leitura/gravação, exigindo arquiteturas de expansão horizontal para garantir o desempenho em vários nós. Sistemas eficientes de controle de versão e verificação são essenciais nesta etapa para evitar a perda de dados. Além da verificação, arquiteturas emergentes, como a geração aumentada de recuperação (RAG, Recovery-Augmented Generation) apresentam desafios únicos para sistemas de armazenamento. O RAG depende da recuperação eficiente de bases de conhecimento externas durante a inferência, exigindo armazenamento de baixa latência e alta taxa de transferência capaz de lidar com consultas simultâneas e paralelas. Isso coloca mais pressão no gerenciamento de metadados e na indexação escalável, exigindo arquiteturas avançadas de armazenamento para otimizar o desempenho sem gargalos.
Ao alinhar as soluções de armazenamento às necessidades específicas de cada estágio do pipeline, as organizações podem otimizar o desempenho da AI e manter a flexibilidade necessária para dar suporte às demandas de AI em evolução.
Conclusão
O armazenamento é a espinha dorsal da AI, com a crescente complexidade do modelo e a intensidade dos dados gerando demandas exponenciais na infraestrutura. As arquiteturas de armazenamento tradicionais não conseguem atender a essas necessidades, tornando essencial a adoção de soluções de armazenamento ágeis e de alto desempenho.
A relação simbiótica entre a AI e as plataformas de armazenamento significa avanços no armazenamento, não apenas suporte, mas também aceleração do progresso da AI. Para empresas que estão começando a explorar a AI, a flexibilidade é crucial: Eles precisam de armazenamento que possa ser dimensionado conforme suas necessidades de dados e computação aumentam, dar suporte a vários formatos (por exemplo, arquivo, objeto) e integrar-se facilmente às ferramentas existentes.
As organizações que investem em plataformas de armazenamento modernas se posicionam na vanguarda da inovação. Isso requer:
- Avaliação da infraestrutura: Identifique as limitações atuais e as áreas para melhoria imediata.
- Adoção de soluções escaláveis: Implemente plataformas que ofereçam flexibilidade, alto desempenho e crescimento contínuo.
- Planejamento para necessidades futuras: Fique à frente das tendências emergentes para garantir que a plataforma evolua com os desenvolvimentos de AI.
Ao priorizar as plataformas de armazenamento como um componente essencial da estratégia de AI, as organizações podem aproveitar novas oportunidades, impulsionar a inovação contínua e manter uma vantagem competitiva no futuro orientado por dados.
Quer saber mais?
Acesse a página de soluções de AI
Assista à gravação do webinar: “Considerações para uma infraestrutura acelerada de AI corporativa estratégica”
Faça download do whitepaper: “A plataforma da Pure Storage para AI”

A Game-changer for AI
Accelerate your AI initiatives with the Pure Storage platform.