Creación de una plataforma de datos para la IA: Retos, oportunidades y sobreexpectación

A medida que la IA sigue ampliando los límites de lo que es posible, vivimos en un momento emocionante. Pero para seguir el ritmo, las empresas necesitan una plataforma de datos creada para la IA, que garantice que están preparadas para las demandas actuales y bien posicionadas para el futuro.


Resumen

To fully capitalize on AI’s potential, enterprises need a platform that goes beyond sheer speed to deliver multi-dimensional performance, reliability, and scalability. The Pure Storage platform sets the industry standard, delivering consistent performance, unbeatable density, and cloud-like flexibility.

image_pdfimage_print

La creación de una plataforma de datos para la IA es emocionante y desafiante. Las demandas de datos están aumentando, los nuevos modelos están emergiendo constantemente y las arquitecturas de IA están evolucionando a una velocidad vertiginosa. Con el rápido auge de los LLM y la IA generativa, la innovación se está acelerando aún más. Es un momento emocionante pero intenso y, aunque todavía estamos en las primeras fases de la IA, las necesidades actuales seguirán evolucionando a medida que la tecnología madure.

El mercado actual de plataformas de datos de IA se asemeja a los primeros días del almacenamiento flash, donde el rendimiento bruto lo era todo. Muchos nuevos participantes han centrado sus productos como «competidores de arrastre», priorizando la velocidad sobre los componentes arquitectónicos y de plataforma que permiten un crecimiento sostenible. Ahora, sin embargo, estamos viendo que las arquitecturas de IA pasan de los competidores de arrastre a los coches de F1, centrándose de manera maníaca en un rendimiento constante en diversas cargas de trabajo y en un manejo preciso de las demandas complejas con precisión y equilibrio. 

Si bien no hay una única fórmula para el éxito, hay una cosa clara: Al igual que los coches de F1 no están diseñados para la velocidad lineal, sino que dominan la ingeniería de precisión, las plataformas de datos de IA requieren innovación en toda la pila de almacenamiento. El éxito aquí dependerá de un enfoque profundamente innovador y codiseñado tanto en hardware como en software, lo que dará como resultado una solución fluida, coherente y fiable que se proporciona «como servicio» al mercado en general.

En Pure Storage, damos soporte a cientos de clientes de IA en diversas etapas de sus procesos de innovación, incluidos algunos de los entornos de IA más grandes que existen. Gracias a nuestra colaboración con estos clientes, hemos identificado requisitos esenciales que todos comparten:

  • La flexibilidad y la capacidad de evolucionar a medida que cambian los requisitos: La IA está evolucionando rápidamente y lo último que quiere es invertir en una tecnología que no pueda crecer con su empresa. Una plataforma que no solo se mantenga al día con el cambio, sino que también proporcione una ventaja estratégica es esencial. Si bien el rendimiento y la escalabilidad son fundamentales, en el entorno actual, que se acelera, la flexibilidad se convierte en su activo más importante, lo que permite que su equipo de IA se adapte a cualquier reto que se presente.
  • Maximice el uso de la GPU en diversas cargas de trabajo: Las organizaciones gestionan cargas de trabajo variadas, desde la introducción secuencial de datos hasta las tareas de alta concurrencia, todas las cuales requieren una gestión dinámica para mantener las GPU totalmente utilizadas. Esta capacidad debe extenderse a través del almacenamiento de bloques, archivos y objetos, tanto localmente como en la nube.
  • Rendimiento escalable con consumo flexible: Los proyectos de IA suelen empezar como pilotos y escalarse a producción. Las plataformas deben expandirse de manera fluida y no disruptiva de terabytes a exabytes, con un consumo de “pago por uso” para un funcionamiento fluido y rentable.
  • SLA de tiempo de actividad garantizado y durabilidad a largo plazo: Tanto si experimenta como si ejecuta toda la inferencia de producción, la resiliencia y el tiempo de actividad son esenciales. La resiliencia demostrada y la disponibilidad continua de los servicios críticos evitan los tiempos de inactividad, lo que garantiza una innovación y un desarrollo ininterrumpidos.
  • Automatización y simplicidad basadas en la IA: La gestión de la complejidad a escala exige tiempo y recursos, sobre todo con un escalamiento indefinido y la necesidad de agilidad. La infraestructura autónoma con rendimiento de autoajuste, actualizaciones basadas en políticas y reequilibrio de capacidad reduce los gastos generales operativos, elimina las complejidades operativas innecesarias y libera a los equipos informáticos para que se centren en la innovación.
  • Eficiencia y sostenibilidad: El acceso a la energía, el espacio en bastidor y la refrigeración a escala es difícil y caro, lo que hace que sea esencial equilibrar el rendimiento y la densidad. La optimización de la gestión del flash para reducir los requisitos energéticos, de refrigeración y de espacio es fundamental para soportar unas operaciones sostenibles y de alto rendimiento.
  • La seguridad y la flexibilidad de la red: Sus datos críticos impulsan la formación, el RAG y otros procesos, lo que requiere tanto una seguridad sólida como un acceso a la red perfecto. Esto debe incluir cifrado de extremo a extremo, detección de malware y recuperación rápida de las vulneraciones, todo ello mediante protocolos Ethernet estándar.

La verdad detrás de la sobreexpectación: Evitar los errores comunes

Si mira más allá de la publicidad publicitaria del mercado actual del almacenamiento, a menudo encontrará afirmaciones audaces y soluciones “milagrosas” que prometen ser la respuesta definitiva para las necesidades de la IA. Algunos incluso afirman ser el «sistema operativo para la IA», ¡la panacea para todo ese problema! Por desgracia, en las últimas décadas todos hemos aprendido que «todo lo que brilla no es oro» y que la velocidad de las características a menudo falla en la fiabilidad a largo plazo. La memoria de violín sirve como un cuento de advertencia: A pesar de crear el hardware más rápido, carecían de la solución de almacenamiento robusta que las empresas necesitaban para tener éxito a largo plazo y, en última instancia, no lograban tener un impacto duradero. Por desgracia, los clientes se quedaron con una deuda arquitectónica dolorosa, que tardó años en resolverse. 

La tecnología flash ha impulsado un cambio transformador en la última década, pero las ofertas revolucionarias que actualmente se afirman, como las arquitecturas híbridas de flash/disco duro, han fracasado al proporcionar un rendimiento mediocre en todos los ámbitos, a pesar de los bajos costes de adquisición. La memoria de clase de almacenamiento (SCM), combinada con la estratificación híbrida QLC, también ha proporcionado poca innovación real. Con Optane efectivamente DOA y la ilustre “mágica” de la pérdida de rendimiento, los proveedores que confían en estas tecnologías se quedan con importantes retos arquitectónicos y actualizaciones dolorosas para los clientes. Cuando se combinan con unos pocos avances significativos en el rendimiento y la densidad de la SSD básica, algunos proveedores se apoyan en gran medida en las promesas de marketing, con la esperanza de que la ingeniería pueda cumplir de alguna manera.

Si bien el rendimiento —especialmente para mantener las GPU totalmente utilizadas— es crucial, solo es parte de la solución. A medida que la publicidad de la IA dé paso a la adopción práctica en todas las empresas, en Pure Storage creemos que las plataformas que soportan una amplia gama de casos de uso con eficiencia, fiabilidad y sostenibilidad serán esenciales. El rendimiento tiene que ir más allá de la velocidad y abarcar capacidades multidimensionales como las lecturas y escrituras simultáneas, el escalamiento de metadatos, la resiliencia y la sostenibilidad para satisfacer las diversas demandas del mundo real.

Teniendo esto en cuenta, aquí tiene una visión directa de las opciones actuales disponibles y de cómo evaluarlas. Verá que todos estos sistemas no tienen un verdadero modelo como servicio, carecen de garantías de rendimiento para mantener las GPU totalmente utilizadas, un margen de capacidad del 25% y la garantía de tiempo de actividad necesaria para una fiabilidad del 99,9999%. ¿Eficiencia y sostenibilidad? Estos también quedan fuera de la ecuación.

  • Sistemas de archivos paralelos: Si bien estos sistemas ofrecen un alto rendimiento, incluyen una gestión compleja, actualizaciones frecuentes y carecen de acuerdos de nivel de servicio garantizados. Sobresalen en casos de uso específicos, pero a menudo flaquean cuando se escalan a entornos empresariales, donde la carga de gestión puede superar rápidamente sus beneficios de rendimiento. ¿Está seguro de que quiere que su equipo de IA altamente cualificado se quede atascado por el mantenimiento? ¿Es incluso económica y operativamente viable mantener estos sistemas a escala?
  • Arquitecturas híbridas desagregadas DIY: Las arquitecturas híbridas desagregadas pueden sonar prometedoras, pero a menudo no logran cumplirlas en la práctica. La memoria de clase de almacenamiento (SCM), que alguna vez fue considerada revolucionaria, ha demostrado ser costosa y su capacidad es limitada. El emparejamiento de SCM con flash QLC crea solo una ilusión temporal de velocidad —el rendimiento cae a medida que la capacidad se llena y el flash envejece, lo que provoca incoherencias con el tiempo. Las cargas de trabajo de IA requieren un rendimiento fiable y preparado para las ráfagas que los sistemas de caché tienen dificultades para proporcionar. La complejidad solo aumenta con los enfoques de «traiga su propio hardware», las distribuciones personalizadas de Linux y las complejidades de las redes, lo que hace que la experiencia operativa sea potencialmente pesadilla. Pruebe exhaustivamente estos sistemas “a escala” antes de entrar en las afirmaciones de marketing. Irónicamente, muchos de estos productos están eliminando SLM de sus diseños y escribiendo directamente en flash. ¡Qué concepto! ¡Bienvenido a 2016!
  • Las esperanzas y los sueños de la hiperconvergencia: La descarga de demasiadas tareas no relacionadas con el almacenamiento en los sistemas de almacenamiento crea una contención de CPU, lo que hace que el sueño de ejecutar operaciones no relacionadas con el almacenamiento en el hardware de almacenamiento sea un sueño. Además, atrapa a los clientes. El enfoque más fiable es confiar en un software dedicado para las tareas que no son de almacenamiento, garantizando un rendimiento constante y evitando la dependencia de las soluciones diluidas incluidas por los proveedores de almacenamiento.
  • Fiabilidad y escalabilidad: La rápida adaptación y la innovación exigen fiabilidad y escalabilidad. Sin embargo, el mercado parece que está retrocediendo. Por supuesto, el uso de la GPU es crucial, pero muchas plataformas siguen sin poder gestionar actualizaciones de firmware rápidas y no disruptivas sin tiempos de inactividad. Las ampliaciones de capacidad suelen afectar al rendimiento o requerir tiempos de inactividad. Y lo que es peor, añadir nodos de rendimiento requiere refragmentar los datos, lo que genera más interrupciones. Los clientes nos dicen a diario que el rendimiento llega al 80%, o un tiempo de inactividad absoluto, cuando falla un solo disco, nodo o dispositivo de caché SLC. Parece que volvemos a principios de la década de 2000, cuando se trata de la experiencia de usuario.

Eso nos lleva a la siguiente pregunta lógica que debemos hacer: ¿Por qué Pure Storage está mejor posicionado para resolver los retos de la IA empresarial? Vamos a profundizar.

La plataforma de Pure Storage para la IA: El futuro de la infraestructura de IA

La plataforma de Pure Storage proporciona una solución unificada y multidimensional, basada en 15 años de innovación incesante en software y tecnología flash. Permite que las organizaciones ejecuten sin problemas cada etapa del pipeline de IA, desde la selección de datos y la formación de modelos hasta el servicio y la inferencia, con un almacenamiento de alto rendimiento y ajustado de manera autónoma, todo ello con la eficiencia y la simplicidad de Pure Storage en una única plataforma potente. Más que un simple almacenamiento, se ha diseñado para acelerar los resultados de la IA a nivel empresarial, ofreciendo una experiencia fluida y similar a la de la nube, a través de una plataforma de datos integrada que admite muchos patrones de acceso de muchos clientes en los mismos datos, todo a la vez (se lanza el control de versiones de datos integrado y nos hacemos un truco). 

almacenamiento como servicio

Una plataforma de datos, no una cabina de almacenamiento

Si bien a otros en el sector del almacenamiento de datos les encanta hablar del rendimiento, las características y la funcionalidad de su cabina de almacenamiento, nuestros clientes nos dicen todo el tiempo que el problema real que hemos resuelto para ellos es que ya no tienen que preocuparse de gestionar su almacenamiento. Nuestra plataforma es diferente de varias maneras fundamentales.

Plataforma de datos para IA
  • Rendimiento multidimensional a escala: Las cargas de trabajo de IA generan diversos perfiles I/O, lo que hace que una infraestructura de almacenamiento coherente y multidimensional sea vital para los datos y el rendimiento escalables y consolidados. Nuestro enfoque “Y, no OR” combina soluciones escalables horizontalmente para la escalabilidad con arquitecturas escalables horizontalmente necesarias para las cargas de trabajo transaccionales de baja latencia, como las bases de datos vectoriales. FlashArray™ unificado y FlashBlade® consolidan el almacenamiento de bloques, archivos y objetos para lograr una gran escalabilidad y rendimiento. La tecnología DirectFlash® elimina las ineficiencias de las unidades de estado sólido, centralizando la gestión de las rutas de E/S para lograr el máximo rendimiento, mientras que los Módulos DirectFlash (DFM) ofrecen una alta densidad (150 TB actualmente, 300TB pronto) con una resiliencia de primer nivel (
almacenamiento como servicio
  • Flexibilidad que evoluciona con usted: Nuestra solución de almacenamiento como servicio Evergreen//One™ es un servicio completo y a largo plazo basado en nuestra arquitectura única Evergreen®, que proporciona innovación continua, actualizaciones fluidas y costes previsibles. Con unos acuerdos de nivel de servicio pioneros en el sector que cubren el rendimiento, la capacidad, la eficiencia y el tiempo de actividad —respaldados por una tecnología sin igual—, Pure Storage gestiona la energía, la refrigeración y el espacio en bastidor, por lo que solo paga por el servicio, no por el mantenimiento del hardware. Los acuerdos de nivel de servicio optimizados para la IA garantizan un fácil dimensionamiento del rendimiento para mantener las GPU plenamente utilizadas y todo se describe en un contrato directo de menos de cinco páginas —sin fluctuaciones, sin sorpresas—.
Plataforma de datos para IA
  • Sin ajustes y siempre eficiente y eficiente: Si bien otros pueden comercializar la simplicidad, nuestra plataforma es realmente autónoma por diseño, ya que ofrece un rendimiento de autoajuste y unas disposiciones de datos optimizadas de manera continua sin intervención humana. Basado en nuestro propio sistema operativo creado expresamente —el entorno operativo Purity— y en el hardware DirectFlash, garantiza la máxima eficiencia y sostenibilidad y se escala sin esfuerzo con una gestión casi nula. También proporciona el máximo rendimiento sin necesidad de complejos proyectos científicos de HPC o las complicaciones de los sistemas híbridos, lo que permite admitir sin problemas múltiples patrones de acceso a la vez.
  • Automatización, gestión del ciclo de vida y orquestación sencillas: Nuestra AIOps integrada —Pure1®— simplifica la automatización, la gestión del ciclo de vida y la orquestación al ofrecer visibilidad y gestión en toda la empresa en una única interfaz, con un copiloto de IA que acaba con las conjeturas. Establece políticas una vez y gestiona el cumplimiento normativo, las actualizaciones automatizadas y el seguimiento de la seguridad y la sostenibilidad en tiempo real. Un único plano de control —Pure Fusion™— permite el acceso instantáneo a los recursos, lo que permite que los administradores configuren los servicios una vez para que los desarrolladores y los usuarios empresariales puedan acceder a ellos sin retrasos en la TI. Esto reduce los tiempos de espera de meses a segundos, lo que permite que los equipos innoven y se centren en el trabajo de alto impacto.
  • Nunca vuelva a tener un tiempo de inactividad: Evergreen es más que un concepto: es un modelo de innovación continua impulsado por la arquitectura única de Pure Storage. Cuando me incorporé a Pure Storage desde EMC, rápidamente me di cuenta de que el corazón de las cabinas de Pure Storage es Purity, no los controladores. La arquitectura sin estado de Pure Storage permite realizar actualizaciones de hardware no disruptivas, lo que elimina la necesidad de realizar migraciones o actualizaciones a gran escala. Después de experimentar mi primer intercambio de hardware fluido, sabía que era revolucionario. Con controladores sin estado y simplicidad plug-and-play, Evergreen permite actualizaciones sencillas de densidad y rendimiento, lo que mantiene la plataforma adaptable y moderna sin tiempos de inactividad planificados.
  • Orquestación de contenedores y compatibilidad optimizada con Kubernetes: La orquestación de un pipeline de IA requiere una coordinación perfecta, con Kubernetes en su núcleo. Nuestra plataforma utiliza Portworx®, una solución de datos nativa de la nube diseñada para Kubernetes y aplicaciones contenedorizadas, en una plataforma de almacenamiento unificada, escalable y segura. Proporciona un almacenamiento persistente para las cargas de trabajo con estado, una recuperación de desastres sin interrupciones y una portabilidad de datos perfecta, lo que permite que las empresas gestionen con agilidad las aplicaciones con un uso intensivo de datos en entornos híbridos y multinube. Esta plataforma flexible se integra con cualquier solución habilitada para Kubernetes, desde Kubeflow en Red Hat OpenShift hasta Milvus en Rancher, lo que permite que los clientes optimicen su pila de Kubernetes preferida.
  • La plataforma más sostenible: La IA es un esfuerzo que consume mucha energía. Muchos innovadores de la IA buscan maneras de reducir el consumo energético para permitir que se apile más potencia de GPU en el centro de datos. Pure Storage tiene un historial demostrado de eficiencia y sostenibilidad:
    • Una eficiencia sin igual, que utiliza solo el 10% de la potencia de los sistemas de HDD tradicionales.
    • Reduce las necesidades de espacio en suelo y bastidor hasta un 95%, lo que reduce los costes de refrigeración hasta un 75%.
    • Las prácticas de diseño y reciclaje de vanguardia reducen los residuos electrónicos 3 veces, lo que hace avanzar un futuro sostenible.

Soluciones validadas y arquitecturas de referencia

Pure Storage se centra en proporcionar un almacenamiento de primer nivel, proporcionando arquitecturas de referencia validadas y certificadas para obtener el mejor rendimiento y fiabilidad. Colaboramos con líderes como Arista, Cisco, NVIDIA y Supermicro para lograr flexibilidad e interoperabilidad perfecta. A diferencia de las plataformas hiperconvergentes restrictivas, la arquitectura abierta de Pure Storage ofrece libertad de elección sin necesidad de que el proveedor se bloquee, lo que garantiza que nuestro almacenamiento evolucione con las demandas de la IA.

Estas soluciones incluyen:

Lo que viene para la plataforma de Pure Storage

Nuestra plataforma establece el estándar del sector en cuanto a rendimiento, fiabilidad, eficiencia y sostenibilidad, pero nunca nos conformamos con parar ahí. Innovamos continuamente para ampliar los límites, permitiendo que cientos de clientes de IA, desde implementaciones a pequeña escala hasta algunas de las nubes de GPU más grandes del mundo, logren unos resultados de IA transformadores. Cabe destacar que nuestro reciente anuncio de inversión y colaboración con CoreWeave ayuda a los clientes que operan a una escala de decenas de miles de GPU, junto con clientes de hiperescala como el SuperCluster de Investigación de IA de Meta. A medida que la innovación en IA sigue evolucionando, nos comprometemos a seguir desarrollando soluciones de última generación que redefinan lo que es posible. ¡Mantente al tanto de las emocionantes actualizaciones que tenemos por delante!

Conclusión: Dé rienda suelta a la innovación en IA con Pure Storage

Las cargas de trabajo de IA necesitan algo más que velocidad; exigen una plataforma resiliente, escalable y eficiente para todas las cargas de trabajo, especialmente a medida que sus demandas de IA evolucionan. La plataforma de Pure Storage proporciona un rendimiento constante, una densidad insuperable y cero tiempos de inactividad gracias a nuestra arquitectura única Evergreen, a la innovación del software y a DirectFlash. Tanto si se ejecuta IA transaccional como si se ejecutan pipelines masivos y de gran concurrencia, Pure Storage garantiza el máximo rendimiento sin sacrificar la escalabilidad. Con una flexibilidad similar a la de la nube y un socio comprometido con su éxito, Pure Storage le ayuda a aprovechar plenamente el potencial de la IA.

No se deje llevar por la publicidad: deje que Pure Storage le mantenga por delante de la curva.

Hasta la próxima… ¡manténganse brillantes, amigos míos! (¡Es bueno volver!)