Resumen
While AI is powering exciting breakthroughs, ensuring AI systems are ethical, reliable, and compliant poses a challenge. AI data governance is a framework of policies, processes, and practices designed to ensure that the data used for AI models is accurate, secure, ethical, and compliant with regulatory requirements.
¿Alguna vez escuchó la frase “recolección de basura”? Así es exactamente como funciona la AI en términos de los datos utilizados para entrenarla. Si ingresan datos defectuosos (es decir, inexactos o incompletos), saldrá la AI defectuosa. Si ingresan datos buenos (es decir, precisos y completos), saldrá una buena AI. Con AI “buena” nos referimos a lo justo y preciso.
El problema es la complejidad y la cantidad de datos utilizados para entrenar los modelos de AI y aprendizaje automático. Es mucho que administrar. De ahí la necesidad de la gobernanza de datos de AI, que es básicamente solo las formas, lo que significa políticas y procesos, en las que las organizaciones se aseguran de que los datos que alimentan en sus modelos de AI sean seguros, precisos, relevantes y exhaustivos.
Una buena gobernanza de datos de AI mejora el rendimiento del modelo, aumenta la confiabilidad, genera confianza y conduce a resultados éticos de AI que no están sesgados de ninguna manera. Todas las victorias importantes, ¿verdad?
Continúe leyendo para explorar todos los elementos esenciales de la gobernanza de datos de AI para los datos de entrenamiento, incluidos los siguientes:
- Los principios y objetivos clave de la gobernanza de datos de AI para los datos de capacitación
- Desafíos comunes en la gobernanza de datos de AI
- Mejores prácticas para establecer marcos de trabajo efectivos de gobierno de datos de AI
Componentes clave de la gobernanza de datos de AI
Probablemente no sea difícil imaginar lo que comprende la gobernanza de datos, pero definir y explorar estos términos podría ser útil.
Por supuesto, existe una “calidad de datos” general. Esto podría ser muy subjetivo, pero básicamente se reduce a la consistencia, integridad y corrección de los datos, lo que significa la eliminación de errores, duplicados e información irrelevante. La calidad también implica datos inapropiados. Como ejemplo, esto fue hace un tiempo, pero en 2016 el chatbot de AI de Microsoft, Tay, se convirtió en un desastre de relaciones públicas cuando comenzó a escupir respuestas racistas. ¿Por qué? Porque había aprendido sus valores y lenguaje de Twitter.
Una buena gobernanza de datos también prioriza el cumplimiento de las reglamentaciones de privacidad, como GDPR o CCPA. La auditoría está aquí para garantizar la anonimización y minimización de datos, el consentimiento del usuario y la transparencia sobre el uso de datos. Las multas del GDPR pueden haber disminuido, pero eso no significa que las organizaciones aún no deberían estar atentas.
La seguridad es otro aspecto importante de la gobernanza de datos de AI. Proteger los datos de capacitación confidenciales y de propiedad exclusiva contra el acceso o las violaciones no autorizados implica implementar mecanismos sólidos de encriptación y control de acceso, y monitorear las vulnerabilidades y el uso no autorizado de datos. Las empresas también deben garantizar el almacenamiento y la transmisión seguros de los conjuntos de datos de capacitación.
Desafíos de la gobernanza de datos de AI
Ciertas cosas comunes tienden a hacer que la gobernanza de datos de AI sea un desafío.
Todos hemos oído hablar de “sílos de datos”, por ejemplo. Los silos de datos dificultan la administración cohesiva de los datos de entrenamiento de AI, lo que provoca inconsistencias e ineficiencias. ¿Qué puede ayudar con los silos de datos? Implementar repositorios de datos centralizados o arquitecturas de data lake para consolidar conjuntos de datos. También puede usar herramientas y plataformas de integración de datos para optimizar el acceso y garantizar la consistencia.
La falta de estandarización es otro problema. Diversas fuentes de datos y formatos pueden dificultar la administración y la regulación de manera efectiva, lo que reduce la interoperabilidad y complica los flujos de trabajo de preprocesamiento y capacitación. A veces, es difícil saber de dónde provienen sus datos. La estandarización de formatos, etiquetado y metadatos puede ayudar mucho a facilitar esto. También puede desarrollar prácticas de documentación sólidas y mantener un registro de auditoría claro para todos los procesos de datos. Use herramientas que realicen un seguimiento del linaje de datos, las transformaciones y el uso durante todo el ciclo de vida de la AI.
Además, la gran cantidad y variedad de datos de entrenamiento necesarios para los modelos de AI y ML pueden ser asombrosos. Los datos no estructurados, por ejemplo, (p. ej., texto, imágenes, video) presentan su propio conjunto de problemas para el almacenamiento y el análisis. Invertir en infraestructura escalable, como plataformas basadas en la nube y almacenamiento de datos por niveles, puede ayudar con esto.
Conclusiones
Recuerde: entrada de basura, salida de basura. Garantizar que no esté alimentando la basura de sus modelos de AI es un esfuerzo de toda la empresa que requiere una colaboración cruzada masiva. No hace falta decirlo, pero su empresa debe tener políticas integrales que cubran la recopilación, el almacenamiento, el uso y la retención de datos.
Una gran parte de todo lo anterior es tener la infraestructura de datos adecuada para respaldar sus iniciativas de AI. La plataforma de Pure Storage ayuda a las organizaciones a maximizar el rendimiento y la eficiencia, unificar sus datos, simplificar la administración del almacenamiento de datos y resolver la imprevisibilidad del crecimiento de la AI. Pure Storage® FlashBlade® es una solución de almacenamiento certificada para NVIDIA DGX SuperPOD, y Pure Storage fue uno de los primeros proveedores de almacenamiento empresarial en trabajar con NVIDIA en soluciones de Infraestructura lista para la AI que expanden y aceleran la adopción de la AI.
Obtenga más información sobre cómo puede preparar y acelerar sus resultados de AI con Pure Storage.
Power AI Success
Learn how Pure Storage can help you accelerate your AI results.