Criação de uma plataforma de dados para AI: Desafios, oportunidades e desafios

À medida que a AI continua a expandir os limites do que é possível, estamos vivendo um momento empolgante. Mas para acompanhar o ritmo, as empresas precisam de uma plataforma de dados criada para AI, garantindo que estejam preparadas para as demandas atuais e bem posicionadas para o futuro.


Resumo

To fully capitalize on AI’s potential, enterprises need a platform that goes beyond sheer speed to deliver multi-dimensional performance, reliability, and scalability. The Pure Storage platform sets the industry standard, delivering consistent performance, unbeatable density, and cloud-like flexibility.

image_pdfimage_print

Criar uma plataforma de dados para AI é estimulante e desafiador. As demandas de dados estão aumentando, novos modelos estão surgindo constantemente e as arquiteturas de AI estão evoluindo a uma velocidade impressionante. Com o rápido aumento dos LLMs e a AI generativa, a inovação está acelerando ainda mais. É um momento empolgante, mas intenso, e embora ainda estejamos nos estágios iniciais da AI, as necessidades de hoje continuarão a evoluir conforme a tecnologia amadurece.

O mercado de plataforma de dados de AI hoje se assemelha aos primeiros dias do armazenamento flash, onde o desempenho bruto era tudo. Muitos novos participantes concentraram seus produtos como um “candidato radical”, priorizando a velocidade sobre os componentes de arquitetura e plataforma que permitem um crescimento sustentável. Agora, no entanto, estamos vendo arquiteturas de AI migrando de pilotos drag para carros de F1 com foco maníaco em desempenho uniforme em diversas cargas de trabalho e um tratamento preciso de demandas complexas com precisão e equilíbrio. 

Embora não haja uma fórmula única para o sucesso, uma coisa é clara: Assim como os carros F1 não são desenvolvidos para velocidade linear, mas dominam por meio da engenharia de precisão, as plataformas de dados de AI exigem inovação em toda a pilha de armazenamento. O sucesso aqui dependerá de uma abordagem profundamente inovadora e coprojetada em hardware e software, resultando em uma solução contínua, uniforme e confiável entregue “como serviço” ao mercado em geral.

Na Pure Storage, oferecemos suporte a centenas de clientes de AI em diversos estágios de suas jornadas de inovação, incluindo alguns dos maiores ambientes de AI existentes. Por meio da nossa colaboração com esses clientes, identificamos os requisitos essenciais que todos eles compartilham:

  • Flexibilidade e capacidade de evoluir conforme os requisitos mudam: A AI está evoluindo rapidamente, e a última coisa que você quer é investir em tecnologia que não possa crescer com sua empresa. Uma plataforma que não apenas acompanha a mudança, mas também oferece uma vantagem estratégica, é essencial. Embora o desempenho e a escalabilidade sejam essenciais, no ambiente acelerado de hoje, a flexibilidade se torna seu maior ativo, permitindo que sua equipe de AI se adapte a qualquer desafio à frente.
  • Maximize a utilização da GPU em diversas cargas de trabalho: As organizações gerenciam cargas de trabalho variadas, desde a ingestão sequencial de dados até tarefas de alta simultaneidade, todas exigindo gerenciamento dinâmico para manter as GPUs totalmente utilizadas. Essa capacidade deve se estender ao armazenamento de blocos, arquivos e objetos, tanto no local quanto na nuvem.
  • Desempenho escalável com consumo flexível: Os projetos de AI geralmente começam como pilotos e escalam para produção. As plataformas devem expandir de forma contínua e não disruptiva de terabytes para exabytes, com consumo de pagamento conforme o uso para operações tranquilas e econômicas.
  • SLAs de tempo de atividade garantidos e durabilidade de longo prazo: Seja experimentando ou executando inferência de produção completa, resiliência e tempo de atividade são essenciais. Resiliência comprovada e disponibilidade contínua para serviços críticos evitam tempo de inatividade, garantindo inovação e desenvolvimento ininterruptos.
  • Automação e simplicidade orientadas por AI: Gerenciar a complexidade em escala exige tempo e recursos, especialmente com escala indefinida e a necessidade de agilidade. A infraestrutura autônoma com desempenho de ajuste automático, upgrades baseados em políticas e reequilíbrio de capacidade reduz a sobrecarga operacional, remove a complexidade operacional desnecessária e libera as equipes de TI para se concentrarem na inovação.
  • Eficiência e sustentabilidade: O acesso à energia, ao espaço em rack e ao resfriamento em grande escala é desafiador e caro, tornando essencial equilibrar desempenho e densidade. Otimizar o gerenciamento flash para reduzir os requisitos de energia, refrigeração e espaço é essencial para dar suporte a operações sustentáveis e de alto desempenho.
  • Segurança e flexibilidade de rede: Seus dados críticos impulsionam treinamento, RAG e outros processos, exigindo segurança robusta e acesso contínuo à rede. Isso deve incluir criptografia completa, detecção de malware e recuperação rápida de violações, tudo por meio de protocolos Ethernet padrão.

A verdade por trás do Hype: Como evitar armadilhas comuns

Quando você olha além do exagero do marketing no mercado de armazenamento atual, muitas vezes encontra afirmações ousadas e soluções “milagrosas” que prometem ser a resposta definitiva para as necessidades de AI. Alguns até afirmam ser o “sistema operacional para AI”, a panaceia para tudo o que está mal! Infelizmente, todos nós aprendemos nas últimas décadas que “tudo esse brilho não é ouro” e a velocidade do recurso frequentemente falha em confiabilidade de longo prazo. A Violin Memory serve como uma história de advertência: Apesar de criarem o hardware mais rápido, elas não tinham a solução de armazenamento robusta necessária para o sucesso de longo prazo, o que acabou por deixar de causar um impacto duradouro. Infelizmente, os clientes ficaram com uma dívida arquitetônica dolorosa que levou anos para ser resolvida. 

A tecnologia flash impulsionou a mudança transformadora na última década, mas as ofertas revolucionárias alegadas de hoje, como arquiteturas híbridas de flash/disco rígido, falharam ao oferecer desempenho medíocre em geral, apesar dos baixos custos de aquisição. A memória de classe de armazenamento (SCM, Storage Class Memory), combinada com camadas híbridas QLC, também proporcionou pouca inovação verdadeira. Com a Optane efetivamente DOA e a “mágica” ilusória do desempenho desaparecendo, os fornecedores que se baseavam nessas tecnologias ficam com desafios arquitetônicos significativos e atualizações dolorosas para os clientes. Quando combinados com poucos avanços significativos no desempenho e na densidade de SSDs de commodity, alguns fornecedores estão se baseando fortemente em promessas de marketing, com a esperança de que a engenharia seja capaz de cumprir de alguma forma.

Embora o desempenho, especialmente para manter as GPUs totalmente utilizadas, seja essencial, ele é apenas parte da solução. Como a inteligência AI dá lugar à adoção prática entre empresas, nós da Pure Storage acreditamos que plataformas que suportam uma ampla gama de casos de uso com eficiência, confiabilidade e sustentabilidade se tornarão essenciais. O desempenho precisa ir além da velocidade, englobando recursos multidimensionais, como leituras e gravações simultâneas, expansão de metadados, resiliência e sustentabilidade para atender a demandas diversas e reais.

Com isso em mente, veja as opções atuais disponíveis e como avaliá-las. Você verá que todos esses sistemas estão aquém de um modelo real como serviço, sem garantias de desempenho para manter as GPUs totalmente utilizadas, 25% de capacidade de headroom e a garantia de tempo de atividade necessária para 99,9999% de confiabilidade. Eficiência e sustentabilidade? Eles também ficam fora da equação.

  • Sistemas de arquivos paralelos: Embora esses sistemas ofereçam alto desempenho, eles vêm com gerenciamento complexo, atualizações frequentes e falta de SLAs garantidos. Eles se sobressaem em casos de uso específicos, mas frequentemente falham quando escalados para ambientes corporativos, onde a carga de gerenciamento pode superar rapidamente seus benefícios de desempenho. Você realmente quer que sua equipe de AI altamente qualificada fique atolada pela manutenção? É possível manter esses sistemas em grande escala financeira e operacionalmente?
  • Arquiteturas híbridas desagregadas faça você mesmo: As arquiteturas híbridas desagregadas podem parecer promissoras, mas muitas vezes não conseguem entregar na prática. A memória de classe de armazenamento (SCM, Storage Class Memory), que já foi considerada revolucionária, provou ser cara e limitada em capacidade. A combinação do SCM com o flash QLC cria apenas uma ilusão temporária de velocidade. O desempenho cai conforme a capacidade aumenta e o flash envelhece, levando à inconsistência ao longo do tempo. As cargas de trabalho de AI exigem desempenho confiável e pronto para explosão que os sistemas de cache têm dificuldade em fornecer. A complexidade só cresce com abordagens de “traga seu próprio hardware”, distribuições personalizadas do Linux e complexidades de rede, tornando a experiência operacional potencialmente pesadela. Teste completamente esses sistemas “em grande escala” antes de comprar nas declarações de marketing. Ironicamente, muitos desses produtos agora estão removendo o SLM de seus designs e gravando diretamente no flash. Que conceito! Bem-vindo a 2016!
  • Expectativas e sonhos de hiperconvergência: Descarregar muitas tarefas não relacionadas a armazenamento para sistemas de armazenamento cria contenção de CPU, tornando o sonho de executar operações não relacionadas a armazenamento no hardware de armazenamento um sonho contínuo. Além disso, ele prende os clientes. A abordagem mais confiável é confiar em software dedicado para tarefas não relacionadas a armazenamento, garantindo desempenho uniforme e evitando a dependência de soluções reduzidas agrupadas por fornecedores de armazenamento.
  • Confiabilidade e escalabilidade: Adaptação e inovação rápidas exigem confiabilidade e escalabilidade. No entanto, o mercado parece estar retrocedendo. É claro que a utilização da GPU é crucial, mas muitas plataformas ainda não conseguem lidar com upgrades rápidos e não disruptivos de firmware sem tempo de inatividade. As expansões de capacidade frequentemente atingem o desempenho ou exigem tempo de inatividade. Pior ainda, adicionar nós de desempenho requer resharding de dados, levando a mais interrupções. Os clientes nos informam diariamente sobre o desempenho atinge 80%, ou tempo de inatividade absoluto, quando um único inversor, nó ou dispositivo de cache SLC falha. Parece que voltamos ao início dos anos 2000 quando se trata de experiência do usuário.

Isso nos leva à próxima pergunta lógica a ser feita: Por que a Pure Storage está mais bem posicionada para resolver os desafios da AI corporativa? Vamos nos aprofundar.

A plataforma da Pure Storage para AI: O futuro da infraestrutura de AI

A plataforma da Pure Storage oferece uma solução unificada e multidimensional desenvolvida com base em 15 anos de inovação incansável de software e tecnologia baseada em flash. Ele permite que as organizações executem perfeitamente todas as etapas do fluxo de AI, desde a curadoria de dados e treinamento de modelos até o atendimento e a inferência, com armazenamento de alto desempenho e ajuste autônomo, tudo com eficiência e simplicidade da Pure Storage em uma única plataforma avançada. Mais do que apenas armazenamento, ele foi desenvolvido para acelerar os resultados de AI no nível corporativo, oferecendo uma experiência integrada e semelhante à nuvem por meio de uma plataforma de dados integrada que oferece suporte a muitos padrões de acesso por muitos clientes nos mesmos dados de uma só vez (jogue o controle de versão de dados integrados e nós mesmos temos um truque). 

armazenamento como serviço

Uma plataforma de dados, não um array de armazenamento

Enquanto outros no setor de armazenamento de dados adoram falar sobre o desempenho, os recursos e a funcionalidade do array de armazenamento, nossos clientes nos dizem o tempo todo que o problema real que resolvemos para eles foi que eles não precisam mais se preocupar em gerenciar seu armazenamento. Nossa plataforma é diferente de algumas maneiras fundamentais.

Plataforma de dados para AI
  • Desempenho multidimensional em grande escala: As cargas de trabalho de AI geram diversos perfis I/O, tornando uma infraestrutura de armazenamento uniforme e multidimensional vital para desempenho e dados consolidados e escaláveis. Nossa abordagem “E, não OR” combina soluções de expansão horizontal para escalabilidade horizontal com arquiteturas de expansão horizontal necessárias para cargas de trabalho transacionais de baixa latência, como bancos de dados de vetores. O Unified FlashArray e o FlashBlade® consolidam o armazenamento de blocos, arquivos e objetos para garantir alta escalabilidade e desempenho. A tecnologia DirectFlash® elimina ineficiências de SSD, centralizando o gerenciamento de caminho de E/S para desempenho máximo, enquanto os módulos DirectFlash (DFMs, DirectFlash Modules) oferecem alta densidade (150 TB hoje, 300TB em breve) com resiliência de primeira linha (
armazenamento como serviço
  • Flexibilidade que evolui com você: Nossa solução de armazenamento como serviço Evergreen//One . é um serviço abrangente e de longo prazo desenvolvido em nossa arquitetura exclusiva Evergreen®, que oferece inovação contínua, upgrades contínuos e custos previsíveis. Com SLAs pioneiros do setor que abrangem desempenho, capacidade, eficiência e tempo de atividade, apoiados por tecnologia inigualável, a Pure Storage lida com energia, resfriamento e espaço em rack, para que você pague apenas pelo serviço, não pela manutenção do hardware. Os SLAs otimizados por AI garantem dimensionamento de taxa de transferência fácil para manter as GPUs totalmente utilizadas, e tudo é descrito em um contrato simples e de menos de cinco páginas, sem falhas nem surpresas.
Plataforma de dados para AI
  • Sem ajustes, sempre eficiente e de alto desempenho: Embora outros possam comercializar a simplicidade, nossa plataforma é verdadeiramente autônoma por design, oferecendo desempenho de ajuste automático e layouts de dados continuamente otimizados sem intervenção humana. Desenvolvido com base em nosso próprio sistema operacional desenvolvido especificamente, o Purity Operating Environment, e hardware DirectFlash, ele garante eficiência e sustentabilidade máximas, expandindo sem esforço com gerenciamento quase zero. Ele também oferece desempenho máximo sem a necessidade de projetos complexos de ciência de HPC ou as complicações de sistemas híbridos, suportando perfeitamente vários padrões de acesso de uma só vez.
  • Automação simples, gerenciamento do ciclo de vida e orquestração: Nossa AIOps integrada, a Pure1®, simplifica a automação, o gerenciamento do ciclo de vida e a orquestração, oferecendo visibilidade e gerenciamento em toda a empresa em uma única interface, com um copiloto de AI que elimina suposições. Defina políticas uma vez e gerencie conformidade, upgrades automatizados e monitoramento de segurança e sustentabilidade em tempo real. Um único plano de controle, o Pure Fusion (Pure Fusion) permite acesso instantâneo a recursos, permitindo que os administradores configurem serviços uma vez para que desenvolvedores e usuários corporativos possam acessá-los sem atrasos de TI. Isso reduz o tempo de espera de meses para segundos, permitindo que as equipes inovem e se concentrem no trabalho de alto impacto.
  • Nunca mais perca tempo de inatividade: O Evergreen é mais do que um conceito: é um modelo de inovação contínua com suporte da arquitetura exclusiva da Pure Storage. Quando entrei na Pure Storage vindo da EMC, rapidamente percebi que o coração dos arrays da Pure Storage é o Purity, não os controladores. A arquitetura sem estado da Pure Storage permite upgrades de hardware não disruptivos, eliminando a necessidade de migrações ou upgrades forklift. Depois de experimentar minha primeira troca contínua de hardware, sabia que isso era revolucionário. Com controladores stateless e simplicidade plug-and-play, o Evergreen permite upgrades fáceis de densidade e desempenho, mantendo a plataforma adaptável e moderna sem tempo de inatividade planejado.
  • Orquestração de contêineres e suporte otimizado para Kubernetes: Orquestrar um fluxo de AI requer coordenação contínua, com Kubernetes em sua essência. Nossa plataforma aproveita a Portworx®, uma solução de dados nativa da nuvem desenvolvida para Kubernetes e aplicativos em contêiner, em uma plataforma de armazenamento unificada, escalável e segura. Ele fornece armazenamento persistente para cargas de trabalho stateful, recuperação de desastres sem tempo de inatividade e portabilidade contínua de dados, capacitando as empresas a gerenciar aplicativos com uso intensivo de dados em ambientes híbridos e com vários tipos de nuvem com agilidade. Essa plataforma flexível se integra a qualquer solução habilitada para Kubernetes, desde o Kubeflow no Red Hat OpenShift até o Milvus no Rancher, permitindo que os clientes otimizem sua Kubernetes pilha de Kubernetes preferida.
  • A plataforma mais sustentável: A AI é um esforço que consome muita energia. Muitos inovadores de AI estão buscando maneiras de reduzir o consumo de energia para permitir que mais energia de GPU seja empilhada no datacenter. A Pure Storage tem um histórico comprovado de eficiência e sustentabilidade:
    • Eficiência inigualável, usando apenas 10% do poder dos sistemas legados de HDD
    • Reduz as necessidades de espaço no piso e rack em até 95%, reduzindo os custos de refrigeração em até 75%
    • Práticas avançadas de design e reciclagem reduzem o lixo eletrônico em três vezes, promovendo um futuro sustentável

Soluções validadas e arquiteturas de referência

A Pure Storage se concentra em fornecer armazenamento de alto nível, fornecendo arquiteturas de referência validadas e certificadas para o melhor desempenho e confiabilidade. Fazemos parcerias com líderes como Arista, Cisco, NVIDIA e Supermicro para flexibilidade e interoperabilidade contínua. Diferentemente das plataformas hiperconvergentes restritivas, a arquitetura aberta da Pure Storage oferece liberdade de escolha sem dependência de fornecedores, garantindo que nosso armazenamento evolua com as demandas de AI.

Essas soluções incluem:

O que vem a seguir para a plataforma da Pure Storage

Nossa plataforma define o padrão do setor em desempenho, confiabilidade, eficiência e sustentabilidade, mas nunca estamos satisfeitos em parar por aí. Inovamos continuamente para ultrapassar limites, permitindo que centenas de clientes de AI, desde implantações em pequena escala até algumas das maiores nuvens de GPU do mundo, obtenham resultados transformadores de AI. Notavelmente, nosso recente anúncio de parceria e investimento com a CoreWeave oferece suporte a clientes que operam na escala de dezenas de milhares de GPUs, além de clientes de hiperescala, como o SuperCluster de pesquisa de AI da Meta. À medida que a inovação da AI continua evoluindo, estamos comprometidos em continuar a criar soluções de última geração que redefinem o que é possível. Fique atento a atualizações empolgantes!

Conclusão: Libere a inovação em AI com a Pure Storage

As cargas de trabalho de AI precisam de mais do que velocidade; elas exigem uma plataforma resiliente, escalável e eficiente para todas as cargas de trabalho, especialmente conforme suas demandas de AI evoluem. A plataforma da Pure Storage oferece desempenho uniforme, densidade imbatível e tempo de inatividade zero por meio de nossa arquitetura Evergreen exclusiva, inovação de software e DirectFlash. Seja executando AI transacional ou pipelines massivos de alta simultaneidade, a Pure Storage garante o melhor desempenho sem sacrificar a escalabilidade. Com flexibilidade semelhante à da nuvem e um parceiro comprometido com o seu sucesso, a Pure Storage ajuda você a aproveitar totalmente o potencial da AI.

Não se atrapalhe. Deixe a Pure Storage sempre à frente.

Até a próxima vez… fico confuso, meus amigos! (É bom voltar!)