資料倉儲、資料市集和資料湖之間的相似之處
今天的組織能夠存取日益增加的資料量。然而,他們必須對原始資料進行分類、處理、篩選和分析,才能獲得實際收益。同時,他們還必須遵循嚴格的資料保護和安全實務,以確保合規性。例如,以下是組織必須遵循的實務:
- 從應用程式、供應商、物聯網 (IoT) 感應器和其他第三方等不同的來源收集資料。
- 將資料處理成一致、可信任且實用的格式。例如,組織可處理資料,以確保系統中的所有日期都採用通用格式或彙總每日報告。
- 藉由為機器學習軟體格式化 XML 檔案,或為人類產生報告來準備資料。
組織使用各種工具和解決方案,來實現其資料分析結果。資料倉儲、資料市集和資料湖都是有助於存放資料的解決方案。
以雲端為基礎的資料倉儲、資料湖和資料市集的優勢
這三種儲存解決方案均可協助您提高資料的可用性、可靠性和安全性。以下是如何使用其的一些範例:
- 安全地存放您的業務資料以進行分析
- 根據需要存放無限量的資料
- 透過整合多個業務程序的資料來打破孤島
- 分析歷史資料或舊式資料庫
- 進行即時和批次資料分析
此外,這三種解決方案都極具成本效益,您只需為使用的儲存空間付費。您可以存放所有資料,對其進行模式和趨勢分析,並使用這些資訊來最佳化您的業務營運。
主要差異:資料倉儲與資料市集
資料倉儲是一種關聯式資料庫,用於存放交易系統和業務功能應用程式中的資料。倉儲中的所有資料均已結構化或預先在資料表中進行建模。資料結構和結構模式旨在最佳化快速 SQL 查詢。資料市集是同一技術的不同行銷術語。它也是關聯式資料庫,但實際使用與資料倉儲有很大區別。下面列出了主要區別點。
資料來源
資料倉儲具有多個來源,包括內部和外部。您可以隨時隨地擷取資料,將其轉換為結構化格式,然後將其載入您的倉儲。資料市集的資料來源較少,而且規模往往較小。
關注
資料倉儲通常會存放多個業務部門的資料。他們集中整合整個組織的資料,以進行綜合分析。資料市集專注於單一主題,本質上更加分散。他們經常篩選和彙總另一個現有資料倉儲中的資訊。
使用率
多個使用者和專案需要存放在資料倉儲中的資料。因此,倉儲通常具有更長的使用壽命,並且本質上更複雜。另一方面,資料市集可能以專案為中心,且用途有限。團隊更偏好從企業資料倉儲建立資料市集,並在使用案例完成後將其終止。
設計方法
資料科學家在設計資料倉儲時使用自上而下的方法。他們首先規劃整體架構,並解決出現的挑戰。然而,藉助資料市集,資料工程師已經知道值、資料類型和外部資料來源等詳細資訊。他們能夠從一開始就規劃實作,並採用自下而上的方法來設計資料市集。
特性 | 資料倉儲 | 資料市集 |
---|---|---|
範圍 | 集中,將多個主題領域整合在一起 |
分散,特定主題領域 |
使用者 | 整個組織 |
單一社群或部門 |
資料來源 |
眾多來源 |
單一或少數來源,或資料倉儲已收集的部分資料 |
大小 |
大型,可以是數百 GB 到 PB |
小型,通常最多數十 GB |
設計 | 從上到下 |
從下到上 |
資料詳細資訊 | 完整詳細的資料 |
可能有摘要資料 |
進一步了解有關資料倉儲的資訊 |
進一步了解有關資料市集的資訊 |
主要差異:資料倉儲與資料湖
資料倉儲和資料湖是兩種相關但根本不同的技術。資料倉儲存放結構化資料,而資料湖則是一個集中式儲存庫,可讓您存放任意規模的任何資料。相較於資料倉儲,資料湖可提供更多儲存選項,具有更複雜且不同的使用案例。下面列出了主要區別點。
資料來源
資料湖和資料倉儲都可以有無限的資料來源。然而,資料倉儲要求您在儲存資料之前設計結構描述。您只能將結構化資料載入系統。相反,資料湖沒有這樣的需求。其可存放非結構化和半結構化資料,例如 Web 伺服器日誌、點擊流、社交媒體和感應器資料。
預先處理
資料倉儲通常需要在儲存前進行預先處理。擷取、轉換、載入 (ETL) 工具用於預先清除、篩選和建置資料集。相比之下,資料湖則可保存任何資料。您可以靈活地選擇是否要執行預先處理。組織通常會使用擷取、載入、轉換 (ELT) 工具。他們先將資料載入資料湖,僅在需要時才進行轉換。
資料品質
資料倉儲往往更可靠,因為您可以預先執行處理。可以提前完成重複資料刪除、排序、彙總、驗證等多項功能,以確保資料的準確性。如果沒有提前進行檢查,重複或錯誤及未經驗證的資料可能最終會進入資料湖。
效能
資料倉儲旨在實現最快的查詢效能。業務使用者更偏好資料倉儲,這樣他們就能更有效地產生報告。相比之下,資料湖架構將儲存資料量和成本優先於效能。您能夠以更低的成本獲得更高的儲存資料量,並且仍然以合理的速度存取資料。
特性 | 資料倉儲 | 資料湖 |
---|---|---|
資料 | 來自交易處理系統、操作資料庫和企業營運應用程式的關聯式資料 |
所有資料,包括結構化、半結構化和非結構化資料 |
結構描述 | 通常在資料倉庫實作之前設計,但也可以在分析時寫入 (schema-on-write 或 schema-on-read) |
在分析時寫入 (schema-on-read) |
價格/效能 |
使用本機儲存獲得最快的查詢結果 |
使用低成本儲存以及運算和儲存分開,可加速取得查詢結果 |
資料品質 |
高度專業的資料,可做為事實根據 |
不一定專業的各種資料 (即原始資料) |
使用者 | 商業分析師、資料科學家和資料開發人員 |
商業分析師 (使用專業數據)、資料科學家、資料開發人員、資料工程師和資料架構師 |
分析 | 批次報告、BI 和視覺化 |
機器學習、探索性分析、資料發現、串流、營運分析、大數據和分析 |
進一步了解有關資料倉儲的資訊 | 進一步了解資料湖 |
何時使用資料湖、資料倉儲與資料市集?
多數大型組織在其儲存基礎設施中會結合使用資料湖、倉儲和資料市集。通常,所有資料都會內嵌至資料湖,然後載入不同的倉儲和市集,以用於各種使用案例。技術決策取決於如下所述各種因素。
靈活性
一般來說,資料湖能夠以更低的成本提供更大的靈活性。不同的團隊可使用其選擇的分析工具和框架,來存取相同的資料。您可以節省時間,因為無須定義資料結構、機構模式和轉換。
資料類型
如果您想要存放客戶和業務程序資料等關聯式資料,資料倉儲會是更好的選擇。如果您有大量關聯式資料,則您的團隊可能會考慮針對特定的業務需求建立一些資料市集。例如,會計部門可能會建立一個資料市集,來維護資產負債表並準備客戶帳戶報表,而行銷部門可能會建立另一個資料市集來最佳化廣告活動。
成本與資料量
資料倉儲可有效地處理數百 PB 的資料。資料湖以相對較低的成本容納更大的資料量,尤其是對於大量影像和影片。然而,並非每個組織都需要這種級別的規模。
AWS 如何協助滿足您的資料儲存需求?
AWS 提供最廣泛的分析服務選擇,可滿足您的所有資料分析需求。我們讓各種規模的產業和組織,能夠利用資料來重塑其業務。下面是如何使用 AWS 的一些範例:
- 使用 Amazon Redshift 來滿足您的資料倉儲和資料市集需求。在操作資料庫、資料湖、資料倉儲和數千個第三方資料集中,對複雜的擴展資料執行即時與預測性分析,以取得整合式洞察。您可以輕鬆地自動建立、訓練和部署機器學習模型。
- 使用 AWS Lake Formation,在幾天內即可建置、管理和保護資料湖。從您所有的資料來源快速匯入資料,然後在集中式資料目錄中加以說明及管理。
- 使用 Amazon S3,針對大數據分析、人工智慧、機器學習和高效能運算應用程式建置自訂資料湖。
立即建立免費帳戶,開始在 AWS 上進行資料儲存。