什麼是資料市集?

資料市集是一種資料儲存系統,其中包含組織業務單位的特定資訊。其包含該公司存放在較大儲存系統中的少部分資料和精選資料。公司使用資料市集,更高效地分析部門特定資訊。其提供主要利害關係人可用於快速做出明智決策的摘要資料。 

例如,公司可能會將各種來源的資料存放在其資料倉儲或資料湖,如供應商資訊、訂單、感應器資料、員工資訊和財務記錄。但是,該公司將與行銷部門相關的資訊 (如社交媒體評論和客戶記錄) 存放在資料市集中。

資料市集相較於其他類型的資料儲存系統如何?

公司使用多種不同類型的資料儲存系統,進行資料管理與分析。我們來看一些常見的資料儲存類型,以了解公司使用資料市集的關聯內容。

資料庫

資料庫是電腦系統用於存放、搜尋、擷取和分析資訊的有序儲存體。資料庫有多種類型,如關聯式資料庫。關聯式資料庫會將資訊存放在由資料列和資料欄組成的資料表中。不同資料表中的資料由稱為索引鍵的唯一識別符關聯。索引鍵是特定資料欄中的非重複值。

資料市集與資料庫

資料市集用作部門資料的前方元素。  您可以使用資料市集來擷取和分析資訊。同時,資料庫會收集、管理和存放資訊。然後,您可以使用工具來處理、格式化並將存放的資訊傳輸至資料市集。 

資料倉儲

資料倉儲是一個廣泛的資料庫系統,用於存放整個企業的資訊。它從各種來源 (如商業軟體和社交媒體摘要) 收集原始資訊,並將其處理為以表單格式存放的結構化資料。各企業可以將企業資料倉儲連線至商業智慧工具,以做出更明智的決策。 

資料市集與資料倉儲的比較

資料市集會共用許多資料倉儲的品質。其不同之處在於,資料倉儲包含有關各種主題的企業級資料。同時,資料市集存放與特定主題密切相關的資訊。例如,資料倉儲可能會存放行銷、人力資源、採購和客戶支援部門的資訊。不過,資料市集可能只會存放與單一部門相關的交易資料。建置資料市集的吸引力在於,管理其資料市集的部門可完全控制其資料的載入和管理。 

許多組織都使用資料共用等技術,將其資料市集發佈至中央資料倉儲。  這樣做,他們可透過分配擁有權和隔離工作負載來變得更加敏捷。  同樣,透過資料共用,部門資料市集可以取用從資料倉儲或其他資料市集共用的資料。

資料湖

資料湖是保存原始和非結構化資訊的資料儲存體。它不會將資訊存放在檔案和資料夾中。而是將未處理的資訊存放在大量儲存的平面階層中。資料湖會存放不同類型的原始資訊,包括文字文件、影像、視訊和音訊。 

資料分析師使用資料湖,從非結構化資料進行預測分析。例如,資料湖可能會存放來自社交媒體評論的文字,以供企業用於情緒分析。資料分析師可使用情緒分析,來偵測公司的負面意見趨勢。 

資料市集與資料湖

由於資料湖存放未處理的資料,某些資訊可能會重複或對公司沒有意義。同時,資料市集會存放滿足特定需求的已處理資料。資料湖可能是資料市集的來源。企業透過查看資料市集中的歷史資料來確定資料趨勢,但他們會使用資料湖來深入分析存放的資訊。 

OLAP

線上分析處理 (OLAP) 是一種以多個維度呈現資料的方法。例如,資料分析師使用 OLAP Cube,根據月份、城市和產品同時顯示銷售營收。OLAP 資料結構較寬,欄位以事實或維度分類,並導致資料重複。  這與傳統的關聯式資料庫形成鮮明對比,這些資料庫偏向狹窄的結構和少量資料重複。

資料市集與OLAP Cube

OLAP 是一種特定的資訊儲存策略,可將資料非標準化為寬型資料表。OLAP 簡化了多維資料的複雜呈現。某些資料市集可能使用 OLAP 來建構其資訊,但其他資料市集則使用傳統的標準化結構。業務分析師受益於 OLAP 結構,以從資料市集視覺化資訊。 

操作資料儲存

操作資料儲存 (ODS) 是充當資料來源與資料倉儲間中介的資訊儲存。資料分析師使用 ODS,來提供有關交易資料的近乎即時報告。ODS 支援簡單的查詢,並且僅提供限量資訊。例如,ODS 可能只會存放過去 12 小時的銷售記錄。 

資料市集與ODS 

資料市集從資料倉儲擷取主題導向資訊,但 ODS 會將資訊傳送至資料倉儲進行處理。資料市集提供可分析的歷史資訊,但 ODS 提供目前操作的更新檢視。例如,您可以使用資料市集來識別過去一季的銷售模式,但會從 ODS 接收每小時銷售數據更新。 

為什麼資料市集很重要?

這些都是公司可能會使用資料市集的一些很好的理由。 

更高效地擷取資料

透過使用資料市集,公司可以更高效地存取特定資訊。相較於資料倉儲,資料市集包含部門經常存取的相關和詳細資訊。因此,業務經理不需要搜尋整個資料倉儲,來產生效能報告或圖形。

精簡決策

公司可透過包含資料市集的資料倉儲建立資料的子集。然後,部門內的員工可以分析資料,並根據同一組資訊做出決策。 

更高效地控制資訊

資料市集可為員工提供高度精細的存取權限。這意味著公司可授權某個人,來檢視或擷取特定資料。它可協助公司改善資料管控,並強制執行資訊存取政策。例如,您可以使用資料市集,為員工提供可存取資料倉儲中特定資訊的使用者存取權。

彈性管理資料

資料市集越小,相較於資料倉儲,其包含的資料表也越少。這意味著資料工程師可以管理和變更資料市集中的資訊,而不會導致重大的資料庫變更。

資料市集如何運作?

資料市集將原始資訊轉換為特定業務部門的結構化、有意義的內容。若要執行此操作,資料工程師會設定資料市集,以便從資料倉儲或直接從外部資料來源接收資訊。 

在連線至資料倉儲時,資料市集會擷取與業務單位相關的資訊選取。通常,這些資訊包含摘要資料,並排除不必要或詳細的資料。 

ETL 

擷取、轉換和載入 (ETL) 是將各種資料來源的資訊整合,並傳輸至單一實體資料庫的程序。若資訊並非來自資料倉儲,資料市集則使用 ETL 從外部來源擷取資訊。該程序包括以下步驟。

  • 擷取:從各種來源收集原始資訊
  • 轉換:將資訊結構化為通用格式
  • 載入:將已處理的資料傳輸至資料庫

ETL 工具會複製外部來源的資訊,例如試算表、應用程式和文字文件。資料市集隨後以結構化形式處理、整理和存放資訊。 

分析

業務分析師使用軟體工具來擷取、分析和呈現資料市集中的資料。例如,他們會將存放在資料市集中的資訊用於商業智慧分析、報告儀表板,以及雲端應用程式。 

每個資料市集為少數使用者提供服務。例如,行銷經理和資深行銷人員可存取資料市集,因此,產生報告和圖表或執行預測分析所需的時間更少。

資料市集有哪些類型?

這些是不同類型的資料市集。 

相依資料市集

相依資料市集會用集中式資料倉儲的資訊子集來填入其儲存體。資料倉儲會從資料來源收集所有資訊。然後,資料市集查詢並擷取資料倉儲中的主題特定資訊。 

優點與缺點

大多數資料管理和管理工作都會在資料倉儲中執行。這意味著,業務分析師不需要在資料庫管理方面非常熟練,即可使用資料市集中的資訊。雖然相依資料市集讓擷取資訊變得更容易,但仍會呈現單一失敗點。如果資料倉儲失敗,所有連線的資料市集也會失敗。 

獨立資料市集

獨立的資料市集不依賴於中央資料倉儲或任何其他資料市集。每個資料市集會從其來源,而不是從資料倉儲收集資訊。獨立資料市集適合小型公司,但只有特定部門需要存取並分析資訊。

優點與缺點

公司可以相對輕鬆地設定獨立的資料市集。但管理這些資料市集可能很困難。這是因為,業務分析師需要在每個資料市集執行資料庫管理工作。使用資料共用等策略,在不同的資料市集之間共用資料非常簡單;部門可以讀取其他部門的資料,甚至可以使用自己的資料進行增強。  然而,必須制定強有力的資料編目策略,以確保每個部門都知道他們正在尋找的內容。 

混合式資料市集

混合式資料市集會從資料倉儲和外部來源收集資訊。這讓公司能夠靈活地測試獨立的資料來源,再將資料引導至資料倉儲。 

例如,假設您啟動新產品,並想要分析其初始銷售資料。資料市集使用直接來自電子商務軟體的銷售資訊,並從資料市集中擷取其他產品的銷售記錄。產品在商店中長期存在之後,您將交易詳細資訊傳送至資料倉儲。

什麼是資料市集的結構?

資料市集使用這些結構來存放和呈現資訊。 

星形

星形結構在其中心有一個事實資料表,並分支到多個維度資料表。這會產生星形連線。事實資料表是包含可用於分析用途摘要資料的資料表。同時,維度資料表會保存事實資料表中描述性資訊。每個維度資料表都會連結至具有外部索引鍵的事實資料表。外部索引鍵是唯一的識別符,如產品 ID 或供應商 ID。 

例如,銷售交易的事實資料表具有下列資料欄:

  • 銷售 ID
  • 產品 ID
  • 供應商 ID
  • 銷售金額

產品的維度資料表會存放下列資訊:

  • 產品 ID
  • 產品名稱
  • 產品成本

供應商維度資料表包含下列資料欄:

  • 供應商 ID
  • 供應商名稱
  • 城市

優勢

在星形結構中,維度資料表會非標準化,而不延伸至其他資料表。這表示維度資料表可能包含多餘的資料,但會改善搜尋和擷取速度。此外,存放維度資料需要的空間也更少。

業務分析師可以使用星級結構化資料市集,來簡化複雜的查詢。當他們搜尋特定的銷售記錄時,資料管理系統會透過事實資料表進行搜尋。當資料市集系統找到正確的記錄時,則會使用產品 ID 和供應商 ID 來查詢各個維度資料表中的資料。 

非標準化

非標準化結構會將所有相關資料存放在單一資料表中。其不具備事實資料表與維度資料表之間的複雜聯結。資料分析師使用非標準化資料市集,因為這會改善查詢速度。例如,搜尋銷售記錄會在如下所示單一非標準化資料表中進行:

  • 銷售 ID
  • 產品 
  • 產品名稱
  • 產品成本
  • 型號名稱
  • 重量 
  • 大小
  • 供應商 
  • 供應商名稱
  • 城市
  • 銷售金額

由於其單一資料表方法,非標準化資料市集適用於即時報告。但是,對資料市集非標準化會導致資料冗餘。例如,相同的產品名稱可能會出現在多個記錄中。這會導致額外的儲存空間和昂貴的實作成本。

實作資料市集的步驟有哪些? 

雲端資料工程師透過執行下列操作來設定資料市集:

  1. 啟動雲端原生資料平台。
  2. 使用業務資料填入資料市集。工程師們確保資料具有正確的格式,並與業務使用者相關。
  3. 設定資料市集,以便多個使用者可從中存取資料。例如,他們在資料市集中安裝報告儀表板。 
  4. 繼續監控、最佳化和解決資料市集執行時出現的問題。

如何在 AWS 上實作資料市集?

公司需要處理不斷增加的資料量,這會將傳統資料市集儲存延展至極限。安裝在內部部署伺服器上的資料市集難以擴展。雲端架構為資料市集提供更實惠、更具可擴展性且更易於管理的企業級整合。

Amazon Redshift 是一種資料倉儲解決方案,可用於在雲端實作資料市集。您可以在操作資料庫、資料湖、資料倉儲和數千個第三方資料集中,對複雜的擴展資料執行即時與預測性分析,以取得整合式洞察。您可以輕鬆地自動建立、訓練和部署機器學習 (ML) 模型。您還可以在 Amazon Redshift 上建立資料市集,並將其用於做出更明智的決策。 

Amazon Redshift 具有一些關鍵功能,使其成為您的資料市集的絕佳解決方案:

  • 使用 Amazon Redshift Serverless 時,系統會為您處理對叢集大小和規模的考量。 
  • 由於原生資料共用,資料市集中的資料可存取資料倉儲中的資料,也可以共用至資料倉儲。

立即建立 AWS 帳戶,開始使用資料市集。

AWS 資料市集後續步驟

查看額外的產品相關資源
檢視雲端中分析服務的免費優惠 
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
開始在主控台進行建置

開始在 AWS 管理主控台進行建置。

登入