什麼是資料型錄?
資料型錄是組織整理和處理之所有資料的庫存清單。監管要求令組織承擔起從收集到使用期間隨時保障和保護其資料安全的義務。資料型錄會整理資料並進行分類,以支援管控和資料探索。它透過內容共享來提高營運效率,因為每個人都可以快速了解為什麼以及如何在組織中使用特定資料集。
資料型錄有哪些優勢?
作為一種組織工具,資料型錄可以簡化資料搜尋和識別資料的用途。接下來我們提供一些優勢。
快速發現資產
資料型錄簡化了識別資料的過程,有助於提高員工的工作效率。然後,可以使用描述性標籤搜尋資料,以快速發現相關資料,同時了解每個資料集的情境和用途。它提供有關資料來自何處、如何在系統中移動以及如何轉換的檢視。 資料分析師通常可以在不嚴重依賴 IT 的情況下進行分析,從而更快地取得洞察。
增強資料品質
資料型錄需要幾個欄位,當公司擷取新資料時,員工需要填寫這些欄位。當使用者存取型錄時,他們能夠閱讀資料的來源、轉換過程和編輯日期,這意味著他們可以更自信地與資訊互動。高度的完整性有助於降低資料管控的難度並提高資料品質。企業還可以自動產生此資料型錄中繼資料,從而更輕鬆地提供全面的資料型錄。
提升效率
資料型錄鼓勵命名、定義和指標的一致性,確保組織內不同團隊對資料的理解和使用保持一致。藉助所有資料資產的可見性,組織可以減少資料冗餘,確保工作不會重複,並且儲存成本降至最低。資料科學家體驗的工作效率提升也有助於降低總體成本。
增強安全性
隱私權法規要求組織知道個人資料的存放位置以及誰存取這些資料。資料型錄可以協助確保正確處理敏感性資料並適當授予存取權限。組織可以追蹤資料來自何處、誰存取資料以及如何使用資料,從而加強法規遵循措施。
資料型錄有哪些使用案例?
組織可以使用資料型錄來簡化其儲存和資料管理。以下是資料型錄的一些使用案例。
自助式分析
資料型錄詳細描述了包含哪些資料以及企業將其用於哪些方面。它還可讓企業區分許多相似的資料,並加快與擷取和使用資料有關的任何程序,尤其是在企業環境中。這種增強的透明度使使用者能夠快速確定他們正在查看的資料,並在一個位置發現所有必要的資訊。即使儲存了大量資料,您也可以為非技術資料使用者建立自助分析工作流程。
知識共享
協作是從資料中取得切實可行洞察的關鍵所在。資料型錄可讓使用者對資料集進行評論、評分和檢閱,從而促進協作環境。通過分享有關特定資料集的經驗和知識,使用者可以共同努力降低風險並加快整個組織的分析工作。
資料譜系分析
了解資料的來源以及資料如何遍歷各種系統對於解決資料問題、進行影響分析或滿足合規性標準至關重要。資料型錄提供了資料普系的可見性,可讓使用者清楚地了解資料從來源到最終目的地的旅程。企業可以建立內部分類文件,讓所有員工了解所有資料資產的正確名稱。在資料型錄中包含參考文件或資料表可以提高整個組織的資料一致性。
資料型錄包含哪些資訊?
資料型錄包含中繼資料,用於描述您的資料資產清單,並提供有關資料所含內容的更多資訊。中繼資料欄位可讓您快速搜尋資料並找到資產。資料型錄可以包含一系列中繼資料,例如以下範例。
企業中繼資料
企業中繼資料是與其為企業提供的價值有關的任何資訊。它可能包括有關企業中資料使用的資訊、監管合規性詳細資訊以及對其他使用者有用的業務情境。例如,它可能包含資料專案注釋,例如資料機密性層級、描述、位置、使用者、部門等。組織通常會定義他們需要的確切業務資料,並包括幾個相關欄位。
技術中繼資料
技術中繼資料描述資料集的整體結構。它描述了資料物件的結構,注釋它們的關係、連線、索引、列、欄和資料表形式。這些中繼資料還為資料專業人員提供有關資料必須經歷的過程 (例如轉換過程或分析過程) 的前後關聯。使用者迅速了解組織如何整理和顯示資訊。
操作中繼資料
操作中繼資料注釋資料的來源及其轉換、更新、基數和其他過程識別標記。使用操作中繼資料,您可以查看資料如何進入您的組織、經歷了哪些轉換以及其他目前狀態更新。使用操作中繼資料欄位,您可以查看使用者上次編輯資料的時間,以及誰有權編輯資料。
資料型錄的主要功能是什麼?
現代資料型錄平台使用各種關鍵功能來簡化其使用並提高效率。
自動化
自動化使企業能夠更輕鬆地管理其資料型錄。整合功能可讓型錄自動從各種來源提取中繼資料。新增新資料資產或更新現有資料資產時,型錄將保持最新狀態。隨著時間的推移,一些進階系統還利用機器學習來改進和完善其資料分類程序。儘管資料量不斷增加,但資料型錄中的自動化功能仍能不斷增強靈活性。
高效的搜尋選項
資料型錄搜尋功能不僅限於基本的關鍵字搜尋,還提供建議。它們還納入篩選條件,因此使用者可以依據各種標準查找資料。使用者體驗類似于現代搜尋引擎,提供相關、經過排名和可快速存取的結果。高效的資料擷取可以節省時間,同時鼓勵資料發現和探索。
通用詞彙表
通用詞彙表提供組織中的術語和指標的標準化定義。它確保所有中繼資料術語都有單一、清晰的定義。當使用者在型錄中遇到術語時,他們可以參考詞彙表了解其含義,從而確保對術語的理解和使用保持一致。這對於維護資料完整性和促進不同團隊之間的清晰溝通尤其重要。
資料管控和資料型錄有什麼區別?
資料管控是一種方法,可確保資料處於適當的狀態,以支援業務計畫和營運。建立正確的管控意味著平衡資料存取和控制,在鼓勵實驗的同時,讓人們對資料充滿信任和信心。資料管控提供了一個架構,人們在使用企業資料和技術時可以遵循該架構。對於確保資料的高品質和在監管限制下的適當使用,資料管控可發揮重要作用。
資料型錄是實作資料管控政策的技術。資料管控定義了資料用量政策,而資料型錄則強制執行這些政策。這些型錄使企業能夠更有效地追蹤其資料管控。
AWS 如何支援您的資料型錄要求?
AWS Glue 是一種無伺服器、可擴展的資料整合服務,可讓您更輕鬆地探索、準備、移動和整合來自多個來源的資料,以進行資料分析、機器學習 (ML) 和應用程式開發。AWS Glue Data Catalog 是集中化的資料儲存器,可存放所有資料資產的結構化和操作中繼資料。可以儲存給定資料集的資料表和實體位置,新增業務相關屬性,以及追蹤此資料如何隨時間變更。
Data Catalog 還與 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 整合。將資料表定義新增到 Data Catalog 後,您就可以在這些服務之間取得共同的資料檢視。
AWS Glue 提供多種方式將中繼資料填入 Data Catalog 中。例如,您可以:
- 設定 AWS Glue 爬蟲程式以掃描您擁有的各種資料存放區,自動推斷結構描述和分割結構,並將對應的資料表定義和統計資料填入 Data Catalog。
- 將網路爬蟲程式排定為定期執行,讓您的中繼資料永遠保持最新狀態並與基礎資料保持同步。
- 使用 AWS Glue 主控台或呼叫 API 來手動新增和更新資料表詳細資訊。
立即設定免費帳戶,開始在 AWS 上使用資料型錄。