AI 資料治理指南 

在本 AI 資料治理指南中,我們深入探討了它是什麼、它的共同挑戰,以及組織可以利用的一些最佳實務來建立強大的資料治理實務。

Guide to AI Data Governance 

概要

While AI is powering exciting breakthroughs, ensuring AI systems are ethical, reliable, and compliant poses a challenge. AI data governance is a framework of policies, processes, and practices designed to ensure that the data used for AI models is accurate, secure, ethical, and compliant with regulatory requirements.

image_pdfimage_print

聽說過“垃圾、垃圾”這個詞嗎? 就訓練資料而言,AI 的運作方式正是如此。如果不良(即不準確或不完整)資料進來,那麼壞 AI 就會出現。如果良好(即準確和完整)的資料進來,那麼就有了良好的 AI。AI 的意義 AI 是公平、精準。 

問題在於訓練 AI 和機器學習模型時所使用的資料複雜度和數量。有很多事情要管理。因此,AI 資料治理的需求,基本上只是一種方式,也就是政策與流程,組織要確保提供給 AI 模型的資料安全、準確、相關且徹底。 

良好的 AI 資料治理可改善模型效能、提高可靠性、建立信任,並帶來不偏頗的道德 AI 成果。所有重大勝利 對吧? 

繼續閱讀,探索訓練資料所需的 AI 資料治理所有基本要素,包括:

  • AI AI 資料治理對訓練資料的關鍵原則和目標
  • AI 資料治理的常見挑戰
  • 建立有效 AI 資料治理架構的最佳做法

AI 資料治理的關鍵要素

想像資料治理可能並不難,但定義和探索這些術語可能很有幫助。 

當然還有一般的“資料品質”。這可能非常主觀,但基本上取決於資料一致性、完整性和正確性,這意味著可以消除錯誤、重複和不相關的資訊。品質也涉及不適當的資料。舉例來說,這時又有一段時間,但在 2016 年,Microsoft的 AI 聊天機器人 Tay 開始扼殺種族主義的回應,變成了公關災難。原因何在? 因為它從 Twitter 中學到了價值觀和語言。 

良好的資料管理也優先遵循 GDPR 或 CCPA 等隱私權法規。稽核是用來確保資料匿名化與最小化、使用者同意,以及資料使用的透明度。GDPR 的罰款可能已經下滑,但這並不代表企業組織仍應該保持警覺。 

安全是 AI 資料治理的另一個主要方面。保護敏感和專有的訓練資料,避免未經授權的存取或外洩,包括實施健全的加密和存取控制機制,並監控漏洞和未經授權的資料使用。公司也需要確保訓練資料集的安全儲存與傳輸。

AI 資料治理的挑戰

某些常見的事情往往會讓 AI 資料管理變得困難。 

舉例來說,我們都聽說過“資料孤島”。資料孤島使難以統一管理 AI 訓練資料,導致不一致和效率低下。資料孤島有什麼幫助? 實施集中式資料儲存庫或資料湖泊架構,以整合資料集。您也可以使用資料整合工具和平台來簡化存取,並確保一致性。

缺乏標準化是另一個問題。多樣化的資料來源和格式可能使有效管理和管理變得困難,從而降低互通性,並使預處理和訓練工作流程變得複雜。有時很難得知您的資料來自何處。標準化格式、標籤和中繼資料,可大幅簡化。  您也可以開發健全的文件實務,並維持所有資料流程的清楚稽核線索。使用工具追蹤 AI 生命週期中的資料譜系、轉換和使用。

此外,AI 和 ML 模型所需的訓練資料量和種類也相當龐大。非結構化資料(例如文字、影像、影片)本身就呈現了儲存和分析的一組問題。投資雲端平台和分層資料儲存等可擴充基礎架構,有助於達成此目標。 

結論

請記住:倒垃圾、倒垃圾。確保你不會為 AI 模型提供垃圾,是全公司需要大規模跨協作的工作。這種做法毫無疑問,但您的公司應該制定全面的政策,涵蓋資料收集、儲存、使用和保留。

以上所有項目中,有很大一部分是擁有合適的資料基礎架構,以支援您的 AI 計畫。Pure Storage 平台可協助組織將效能與效率最大化、整合資料、簡化資料儲存管理,並解決 AI 成長的不可預測性問題。Pure Storage® FlashBlade® NVIDIA DGX SuperPOD 的認證儲存解決方案,Pure Storage 是首家與 NVIDIA 合作的企業級儲存供應商之一,提供經認證的 AI-Ready 基礎架構解決方案,以擴展並加速 AI 的採用。 

深入了解如何運用 Pure Storage 來實現未來的 AI 成果並加速取得成果。