什麼是資料網格?
資料網格是一種架構框架,可以透過分散式擁有權解決進階資料安全挑戰。組織擁有來自不同業務的多個資料來源,必須整合以用來分析。資料網格架構會有效結合不同的資料來源,透過集中管理資料共享和管控指導方針,將這些資料來源連結在一起。業務功能可以控制共享資料存取的方式、存取者的身分和以哪些格式存取。資料網格會增加架構的複雜性,但也會透過改善資料存取、安全性和可擴展性來提高效率。
資料網格解決了哪些挑戰?
雖然組織可存取日益增加的資料量,但他們必須對資料進行分類、篩選、處理和分析才能獲得實際收益。組織通常利用由工程師和科學家組成的中央團隊來管理資料。該團隊出於以下用途使用集中式資料平台:
- 從所有不同的業務部門 (或業務領域) 內嵌資料。
- 將資料轉換為一致、可信任且實用的格式。例如,團隊可確保系統中的所有日期都採用通用格式或彙總每日報告。
- 為資料取用者準備資料,例如為人類產生報告或為應用程式準備 XML 檔案。閱讀有關 XML 的內容 »
隨著資料量的增加,組織面臨越來越高的成本,以保持與過去相同的敏捷性。由於以下原因,整合型系統難以擴展。
孤立的資料團隊
中央資料團隊擁有的專業資料科學家和工程師,其業務和領域知識有限。然而,他們仍然必須在不清楚動機的情況下,為各種營運和分析需求提供資料。
對變更反應遲緩
資料工程師通常會實作管道來內嵌資料,並在將資料儲存在中央資料湖之前,透過若干步驟對其進行轉換。任何請求的變更都需要對整個管道進行修改。中央團隊在做出這些變更的同時,必須管理衝突性優先順序,而且具備的業務領域知識有限。
準確性降低
業務部門與資料取用者和中央資料團隊脫節。因此,他們缺乏提供有意義、正確和實用資料的動力。
資料網格有哪些優勢?
隨著時間的推移,資料平台架構可能會導致資料取用者感到沮喪、資料生產者脫節,以及資料管理團隊超載。資料網格架構嘗試賦予業務部門高度自治權,以及對其資料網域的擁有權來解決這些挑戰。下面列出了資料網格架構的優勢。
大眾化資料處理
資料網格將資料控制權轉移給領域專家,他們可在分散式治理框架內建立有意義的資料產品。此外,資料取用者還可請求對資料產品的存取權,並直接向資料擁有者尋求核准或變更。因此,每個人都可以更快地存取相關資料,而加速存取可改善業務敏捷性。
靈活性提升
集中式資料基礎設施更加複雜,並且需要協作來維護和修改。而資料網格則將中央系統的技術實作,在各業務領域重新組織。這樣便可消除中央資料管道,並減少系統的操作瓶頸和技術壓力。
符合經濟效益
分散式資料架構擺脫了批次處理,取而代之的是促進即時資料串流的採用。改善了對資源配置和儲存成本的可視性,從而優化預算並降低成本。
改善的資料探索
資料網格模型可防止圍繞中央工程團隊形成資料孤島。此外還可降低資料資產被鎖定在不同業務領域系統的風險。而中央資料管理框架可治理並記錄組織中可用的資料。例如,領域團隊會自動在中央登錄檔中註冊其資料。
增強的安全性與合規性
資料網格架構在網域內和網域間實作資料安全政策。他們提供資料共用程序的集中監控與稽核。例如,您可以對所有網域強制執行日誌和追蹤資料需求。您的稽核人員可觀察資料存取的用量和頻率。
資料網格的使用案例有哪些?
資料網格可支援所有類型的大數據使用案例。以下是我們給出的一些範例。
資料分析
多項業務功能可針對您的資料分析工作負載,佈建受信任、高品質的資料。您的團隊可使用這些資料,來建立定製的商業智慧儀表板,以展示專案績效、行銷結果和營運資料。資料科學家可加速機器學習專案,以獲得自動化的全部優勢。
客戶服務
資料網格為支援和行銷團隊提供全面的客戶檢視。例如,支援團隊可提取相關資料並減少平均處理時間,行銷團隊可確保他們在行銷活動中針對正確的客戶群。
監管報告
滿足監管目標所需的資料量、及時性和準確性,給監管機構和受監管公司都帶來了挑戰。各方都可以從資料網格技術的運用中受益。例如,組織可以將報告資料推送至由監管機構集中治理的資料網格中。
第三方資料
您可以將資料網格技術運用於需要第三方和公有資料集的使用案例。您還可以將外部資料視為單獨的網域並在網格中實作,以確保與內部資料集的一致性。
資料網格架構的原則是什麼?
您的組織必須實作以下四個原則,才能採用資料網格範式。
分散式網域驅動型架構
資料網格方法提出,資料管理責任圍繞業務職能或領域來組織。領域團隊負責收集、轉換和提供與其業務功能相關,或由其建立的資料。不同於網域資料從資料來源流向中央資料平台,特定團隊以易於使用的方式託管和提供其資料集。例如,零售商可能擁有一個滿載其服裝產品資料的服裝網域,以及一個包含站點訪客行為分析的網站行為網域。
資料即產品
為了成功實作資料網格,每個領域團隊都需要將產品思維運用於他們提供的資料集。他們必須將資料資產視為其產品,並將組織的其他業務和資料團隊視為其客戶。
為了獲得最佳使用者體驗,網域資料產品應具備以下基本品質。
可探索
每個資料產品都將在一個集中式資料型錄中註冊,方便進行探索。
可尋址
每個資料產品都應有一個不重複的地址,以協助資料取用者以程式設計方式存取。地址通常遵循組織內集中決定的命名標準。
可信任
資料產品定義可接受的服務水準目標,表示資料反映其記錄事件的實際情況。例如,訂單網域可在驗證客戶的地址和電話號碼後發佈資料。
自我描述
所有資料產品都具有描述良好的語法和語義,遵循組織確定的標準命名慣例。
自助式資料基礎設施
分散式資料架構要求每個網域都設定自己的資料管道來清除、篩選和載入自己的資料產品。資料網格引入自助式資料平台的概念,以避免重複工作。資料工程師開發技術,以便所有業務部門都能處理和存放其資料產品。因此,自助式基礎設施可支援責任劃分。資料工程團隊管理技術,而業務團隊則管理資料。
聯合資料治理
資料網格架構將安全性作為組織內的共同責任來實作。領導層決定您可以跨網域運用的全球標準和政策。同時,分散式資料架構允許在網域內,對標準和政策實作有很大程度的自主權。
您如何在組織中建置資料網格?
資料網格是一個新興概念,僅在後疫情階段才獲得關注。組織嘗試針對特定使用案例建置資料網格時,正在實驗不同的技術。然而,在整個組織範圍內採用企業資料網格的情況仍然很少見。沒有明確的資料網格實作路徑,但下面提供了一些建議。
分析現有的資料
在建置資料網格之前,必須對現有的資料進行分類,並確定相關業務領域。遵循某些協調規則,是網域間資料有效關聯的關鍵。例如,您需要為欄位類型格式、中繼資料欄位和資料產品地址慣例定義全球標準。
實作全球資料治理政策
聯合資料管控要求中央 IT 團隊確定資料網格的報告、身分驗證和合規性標準。您還可以定義資料產品擁有者在託管其資料集時,套用的精細存取控制。在資料生產者定義和衡量資料品質時,中央治理政策有助於指導其做出決策。
建置自助式資料平台
自助式資料平台應通用,這樣任何人都可以在上面建置新的網域資料產品。它還應隱藏底層技術的複雜性,並以自助方式提供基礎設施元件。以下是一些要納入的功能:
- 資料加密
- 資料產品結構描述
- 治理和存取控制
- 資料產品探索,例如型錄註冊或發佈
- 資料產品記錄和監控
- 快取以改善效能
您還可以建置自動化,例如組態和指令碼,以縮短建立資料產品的前置時間。
選擇合適的技術
現有的傳統儲存系統,如資料倉儲和資料湖,也可以為您的資料網格提供支援。只需將其使用從整合型系統,轉移至多個分散式資料儲存庫。資料網格還支援採用雲端平台和以雲端為中心的技術。雲端基礎設施降低了營運成本,以及建置資料網格所需的工作量。您必須選擇具有豐富資料管理服務的雲端服務供應商,來支援您的資料網格架構。您還需要考慮舊式系統的資料整合需求。
開始整個組織的文化轉變
如今,我們擁有利用多種資料產品,輕鬆建置資料網格所需的技術和工具。藉助 Amazon EMR 等工具,現在比以往任何時候都更容易實現批次處理和串流處理的統一。然而,將資料網格擴展至小型專案之外,需要從過去的集中式資料架構中進行範式轉變。它需要一種強調以下方面的新語言:
- 資料探索和使用優先於擷取和載入
- 即時資料處理優先於稍後大量批次處理
- 分散式資料產品擁有權優先於中央資料平台架構
目前,資料技術通常會推動架構決策。資料網格逆轉了這一流程,將網域資料產品置於中心位置,以便其推動技術決策。
資料網格與資料湖有何不同?
資料湖是一個儲存庫,您可以在其中存放所有結構化和非結構化資料,無須任何預先處理,而且規模不限。在集中式資料平台中,資料湖是存放所有可能來源資料的核心技術。
資料網格是一種以不同方式使用資料湖的資料管理範式。資料湖不再是整個架構的核心。取而代之的是,您可以將其用於實作資料產品,或作為自助式基礎設施的一部分。
資料網格與資料結構有何不同?
資料經緯是另一種現代架構,利用機器學習和自動化對各種雲端環境和資料管道進行端對端整合。您可以將其視為底層基礎設施之上的技術層,緊密地整合資料並將資料呈現給非技術使用者。例如,決策者使用資料結構,在一處即可檢視其所有資料,並在不同的資料集之間建立聯繫。
資料結構和資料網格都具有類似的目標,即統一、有效的資料管理。例如,假設您有一個中央資料湖,並使用 AWS 服務進行資料擷取。同時,您擁有用於資料轉換的舊式基礎設施。您的資料結構整合了兩種系統並呈現統一檢視,而無須變更現有管道。
資料結構因而採用技術,與您現有的基礎設施配合運作。另一方面,資料網格實作要求您變更底層基礎設施本身。您必須將資料管理的「推送並內嵌」模型,變更為跨業務領域的「送交並提取」模型。
AWS 如何為您的資料網格架構提供支援?
AWS 上的現代資料架構列出了多種服務,您可以使用這些服務在組織中實作資料網格和其他現代資料架構。您還可以在不影響效能的情況下,以低成本快速建置資料產品和資料網格基礎設施。
下面是您可以使用的一些 AWS 服務範例:
- 使用 AWS Lake Formation,透過標籤式存取控制大規模建置資料網格模式
- 使用 AWS Data Exchange,將第三方資料整合至您的資料網格
- 使用 AWS Glue,來共用、託管和編目資料產品
立即建立免費帳戶,開始在 AWS 上使用您的資料網格。