什麼是資料管控?
資料管控是一種方法,可確保資料處於適當的狀態,以支援業務計畫和營運。將資料管控與業務計畫保持一致有許多好處。
- 證明為資料管控計畫提供資金的合理性
- 激勵商業社群的參與
- 推動資料管控活動的優先順序
- 提升參與業務領域所需的資料整合等級
- 協助確定正確的營運模式,尤其是所需的集中化和去中心化等級。
什麼是分析管控?
分析管控既可管控用於分析應用程式的資料,也可以管控分析系統的使用情況。您的分析管控團隊可以建立管控機制,例如分析報告版本控制和文件。與往常一樣,追蹤法規要求,制定公司政策,並為更廣泛的組織提供防護機制。
為什麼資料管控很重要?
根據 Gartner 的研究,到 2025 年,80% 尋求擴展數位業務的組織都將會失敗,因為他們不採用現代化的資料與分析管控方法。因此,資料長將資料管控視為其資料計畫的首要考量也就不足為奇了。在 2023 年對 350 個資料長和資料長同級角色進行的調查中,MIT CDOIQ 發現 45% 的資料長將資料管控視為首要考量。這些資料領導者希望建置管控模型,讓他們在需要時將資料提供給適當的人員和應用程式,同時透過適當的控制措施確保資料安全無虞。
過去一直採用管控來鎖定孤島中的資料,目的是防止資料洩露或濫用。但是,資料孤島的結果是合法使用者必須有效處理障礙,以便在需要時存取資料。無意之間,資料驅動型創新就此被扼殺了。
您擁有兩個可以使管控成為創新推動者的槓桿:存取與控制。成功的關鍵在於,在存取與控制之間找到合適的平衡點,而每個組織的平衡點也不並一樣。當您執行過多控制時,資料會被鎖定在孤島中,且使用者無法在需要時存取資料。這不僅會扼殺創造力,而且還會導致影子 IT 系統的建立,其中這些系統會致使資料過時且不安全。另一方面,當您提供過多存取權限時,資料最終會出現在應用程式和資料存放區中,進而增加資料洩露風險。
建立適當的管控 – 平衡存取與控制 – 透過促進適當的資料探索、策劃、保護和共用,讓人們對資料的充滿信任和信心。此舉既鼓勵創新,同時又能保護資料。
什麼是機器學習 (ML) 管控?
ML 管控將許多相同的資料管控實務套用至 ML。資料品質和資料整合需要提供模型訓練和生產部署所需的資料 (特徵商店是其中一個重要的方面)。負責任的人工智慧 (AI) 尤其要注意使用敏感資料來建置模型。其他 ML 管控功能包括讓人們能夠參與模型建置、部署和監控;記錄模型訓練、版本控制、支援的使用案例,以及指導道德模型使用;並監控生產中的模型,以確保準確性、漂移、過度擬合和擬合不足。
生成式 AI 需要額外的資料管控功能,例如資料的品質和完整性,以支援基礎模型的採用,進而進行訓練和推論、管控生成式 AI 毒性與偏差,以及基礎模型 (FM) 操作:FMOp。
您可以使用相同的資料管控計畫來支援 AI/ML。資料準備是將資料轉換為 AI/ML 模型可用於訓練和生產推論的表單所必須的,但最高效的資料準備就是您不需要做任何準備。資料科學家花費過多時間來為每個使用案例準備資料 — 您的資料管控團隊可協助減輕這一無差別的繁重工作。此外,資料管控可監督既定特徵商店的建立,以便在 AI 和 ML 使用案例中使用。
最後,敏感資料需要受到適當保護,因此您的團隊可以降低敏感資料用於訓練基礎模型的風險。
就像一般分析一樣,您必須管控您建置或自訂的 AI/ML 模型的使用。理想情況下,這應該與分析管控密切關聯,因為該功能將知道如何支援各種業務領域。
資料管控面臨哪些主要難點?
資料管控最常見的策略挑戰是讓您的計畫與業務計畫保持一致,而不是直接提出資料管控的價值。例如,您可能會提出讓最終使用者更容易找到所需資料的價值,或者您可能會提出解決資料品質問題的價值。但是,這些都是自找麻煩的解決方案。如果您這樣做,您最終將與您應支援的業務計畫競爭資助與贊助。相反,位置資料管控可支援業務計畫。每個主要的業務計畫都需要資料。資料管控應確保資料處於正確的狀態,以支援業務計畫的成功。不要忽視有關資料管控如何支援這些計畫的報告和稽核實務。
資料管控的另一個常見策略挑戰是避免過於狹隘地套用資料管控。過於狹隘的定義可能使計畫與個別業務領域或使用案例保持一致,而不會從更廣泛的視野角度來查看業務領域。狹隘定義也可能意味著僅透過一個或兩個資料管控功能來定義資料管控。例如,擁有資料目錄並不構成資料管控計畫。
什麼是資料管控的風格?
您的資料管控方案應平衡集中化和去中心化 (包括自助服務)。在整個組織中,您將擁有集中式、聯合式和分散式管控的組合 — 同樣須根據業務需求而定。您應該盡可能多地賦予域團隊權限,同時保持跨域的一致性 (例如能夠將資料連結在一起)。
- 集中式資料管控:中央組織最終負責任務陳述、政策、工具選擇等。日常動作多次被推入業務線 (LOB)。
- 聯合式資料管控:聯合式資料管控可賦予個別業務單位或業務計畫權限,從而以最符合其需求的方式操作。透過聯合式資料管控,仍有一個較小的集中式團隊,他們專注於解決最常重複的問題,例如包括整個企業的資料品質工具。
- 自助式或分散式資料管控:每個 LOB 都能針對其特定專案執行所需事項。若其他專案中有適用使用的任何工具或流程,每個專案皆會予以使用。隨著資料網格 (本身已去中心化) 等主題的普及度越來越高,自助式資料管控也會增加。
由誰建置資料管控?
建立以業務為中心的資料管控計畫需要許多工作職能。
- 執行贊助商了解公司藍圖上的許多業務計畫,並可協助確定資料管控支援的優先順序。
- 資料管理員來自業務部門,每天都參與到專案的各種細節之中。這樣可幫助了解可能對目標業務計畫造成挑戰的資料問題。
- 數據擁有者制定有關資料的政策,包括誰應有權存取資料以及在什麼情況下,如何解析和套用法規與關鍵術語定義
- 資料工程師 (通常) 來自 IT 部門,他們提供的工具可以幫助確保資料安全,管理資料品質,整合來自不同來源的資料,以及尋找合適的資料。
如何完善您的資料管控團隊?
有效的資料管控計畫的關鍵在於,連接到已有挹注資金的業務計畫上。確保您的團隊了解支援這些計畫所需的資料域、來源和元素。
資料管控如何運作?
資料管控需要跨越各種功能的員工、流程和技術解決方案。
大規模策劃資料,以限制資料擴充。 大規模策劃資料意味著識別和管理最有價值的資料來源,包括資料庫、資料湖和資料倉儲,因此您可以限制重要資料資產的激增和轉換。策劃資料也意味著確保正確的資料準確、全新且沒有敏感資訊,以便使用者對資料驅動型決策和資料饋送應用程式充滿信心。
功能:資料品質管理、資料整合與主資料管理
結合情境探索並了解您的資料,以加速資料驅動型決策。 結合情境了解您的資料意味著,所有使用者都 可以探索及理解其資料的含義,以便他們可以放心地使用資料來推動商業價值。透過集中式資料目錄,可以輕鬆找到資料、請求存取,以及使用資料來做出業務決策。
功能:資料分析、資料譜系和資料目錄
充滿信心地保護及安全共用您的資料。保護您的資料意味著能夠在資料隱私權、安全和存取之間取得適當的平衡。利用適合商業和工程使用者的直覺式工具,管控跨組織界限的資料存取至關重要。
功能:資料生命週期、資料合規和資料安全
降低業務風險並改善法律合規。 降低風險意味著了解如何使用該資料以及由誰使用。 AWS 服務可協助您監控和稽核資料存取 (包括透過 ML 模型存取),以協助確保資料安全和法律合規。機器學習還需要稽核透明度,以確保負責任的使用和簡化報告。
功能:資料和 ML 的用量稽核
有哪些用於資料管控的 AWS 產品?
透過 AWS 上的端對端資料管控,組織可以控制其資料的所在位置、可存取資料的人員,以及在資料工作流程的每個步驟中可以執行動作。AWS 的資料管控可讓合適的人員和應用程式在需要時輕鬆安全地尋找、存取和共用正確的資料,進而協助組織加速資料導向型決策。您可以透過自動化資料整合和資料品質來策劃資料,以限制資料激增。您可以使用可提高資料素養的集中化目錄來探索和了解您的資料。您可以使用精準的許可來保護資料,從而讓您充滿信心地共用資料。您可以透過監控和稽核資料存取來降低風險並改善法律合規。
- Amazon DataZone – 使用內建管控功能,解鎖跨組織界限的資料
- AWS Glue – 發現、準備和整合任何規模的所有資料
- AWS Lake Formation – 在幾天內建置、管理和保護資料湖
- Amazon QuickSight 超大規模的統一商業智慧
- Amazon SageMaker – 建置、訓練和部署機器學習模型,用於具有全受管基礎架構、工具和工作流程的使用案例
- ML 管控網頁
- Amazon Bedrock – 使用基礎模型 (FM) 建置和擴展生成式 AI 應用程式
- Amazon Macie - 大規模探索及保護敏感資料
- Amazon Simple Storage Service (Amazon S3) 存取點 – 專為從任何位置擷取任何數量資料所建立的物件儲存服務
- AWS Data Exchange – 輕鬆尋找、訂閱及使用雲端中的第三方資料
- AWS Clean Rooms – 在幾分鐘之內建立無塵室,以在不共用原始資料的情況下與您的合作夥伴協作
立即建立免費帳戶,開始在 AWS 上進行資料管控。