概要
While AI is powering exciting breakthroughs, ensuring AI systems are ethical, reliable, and compliant poses a challenge. AI data governance is a framework of policies, processes, and practices designed to ensure that the data used for AI models is accurate, secure, ethical, and compliant with regulatory requirements.
聽說過“垃圾、垃圾”這個詞嗎? 就訓練資料而言,AI 的運作方式正是如此。如果不良(即不準確或不完整)資料進來,那麼壞 AI 就會出現。如果良好(即準確和完整)的資料進來,那麼就有了良好的 AI。AI 的意義 AI 是公平、精準。
問題在於訓練 AI 和機器學習模型時所使用的資料複雜度和數量。有很多事情要管理。因此,AI 資料治理的需求,基本上只是一種方式,也就是政策與流程,組織要確保提供給 AI 模型的資料安全、準確、相關且徹底。
良好的 AI 資料治理可改善模型效能、提高可靠性、建立信任,並帶來不偏頗的道德 AI 成果。所有重大勝利 對吧?
繼續閱讀,探索訓練資料所需的 AI 資料治理所有基本要素,包括:
- AI AI 資料治理對訓練資料的關鍵原則和目標
- AI 資料治理的常見挑戰
- 建立有效 AI 資料治理架構的最佳做法
AI 資料治理的關鍵要素
想像資料治理可能並不難,但定義和探索這些術語可能很有幫助。
當然還有一般的“資料品質”。這可能非常主觀,但基本上取決於資料一致性、完整性和正確性,這意味著可以消除錯誤、重複和不相關的資訊。品質也涉及不適當的資料。舉例來說,這時又有一段時間,但在 2016 年,Microsoft的 AI 聊天機器人 Tay 開始扼殺種族主義的回應,變成了公關災難。原因何在? 因為它從 Twitter 中學到了價值觀和語言。
良好的資料管理也優先遵循 GDPR 或 CCPA 等隱私權法規。稽核是用來確保資料匿名化與最小化、使用者同意,以及資料使用的透明度。GDPR 的罰款可能已經下滑,但這並不代表企業組織仍應該保持警覺。
安全是 AI 資料治理的另一個主要方面。保護敏感和專有的訓練資料,避免未經授權的存取或外洩,包括實施健全的加密和存取控制機制,並監控漏洞和未經授權的資料使用。公司也需要確保訓練資料集的安全儲存與傳輸。
AI 資料治理的挑戰
某些常見的事情往往會讓 AI 資料管理變得困難。
舉例來說,我們都聽說過“資料孤島”。資料孤島使難以統一管理 AI 訓練資料,導致不一致和效率低下。資料孤島有什麼幫助? 實施集中式資料儲存庫或資料湖泊架構,以整合資料集。您也可以使用資料整合工具和平台來簡化存取,並確保一致性。
缺乏標準化是另一個問題。多樣化的資料來源和格式可能使有效管理和管理變得困難,從而降低互通性,並使預處理和訓練工作流程變得複雜。有時很難得知您的資料來自何處。標準化格式、標籤和中繼資料,可大幅簡化。 您也可以開發健全的文件實務,並維持所有資料流程的清楚稽核線索。使用工具追蹤 AI 生命週期中的資料譜系、轉換和使用。
此外,AI 和 ML 模型所需的訓練資料量和種類也相當龐大。非結構化資料(例如文字、影像、影片)本身就呈現了儲存和分析的一組問題。投資雲端平台和分層資料儲存等可擴充基礎架構,有助於達成此目標。
結論
請記住:倒垃圾、倒垃圾。確保你不會為 AI 模型提供垃圾,是全公司需要大規模跨協作的工作。這種做法毫無疑問,但您的公司應該制定全面的政策,涵蓋資料收集、儲存、使用和保留。
以上所有項目中,有很大一部分是擁有合適的資料基礎架構,以支援您的 AI 計畫。Pure Storage 平台可協助組織將效能與效率最大化、整合資料、簡化資料儲存管理,並解決 AI 成長的不可預測性問題。Pure Storage® FlashBlade® 是 NVIDIA DGX SuperPOD 的認證儲存解決方案,Pure Storage 是首家與 NVIDIA 合作的企業級儲存供應商之一,提供經認證的 AI-Ready 基礎架構解決方案,以擴展並加速 AI 的採用。
深入了解如何運用 Pure Storage 來實現未來的 AI 成果並加速取得成果。
Power AI Success
Learn how Pure Storage can help you accelerate your AI results.