什麼是資料管道?
資料管道是準備企業資料以便分析的一系列處理步驟。組織擁有的大量資料來自各種來源,例如應用程式、物聯網 (IoT) 裝置和其他數位管道。但是,原始資料沒有任何用處,必須將其移動、排序、篩選、重新格式化和分析來取得商業智慧。資料管道包含各種技術,可用來在資料中驗證、摘要和尋找模式來制訂資訊充足的業務決策。條理分明的資料管道會支援各種大數據專案,例如資料視覺化、探索性資料分析和機器學習任務。
資料管道哪些優勢?
資料管道可讓您整合不同來源的資料,並轉換這些資料以進行分析。其消除了資料孤島,讓您的資料分析更加可靠和準確。以下是資料管道的一些主要優勢。
提升資料品質
資料管道可清除和優化原始資料,提升其對最終使用者的實用性。他們在檢查輸入錯誤時,會標準化日期和電話號碼等欄位的格式。此外,他們還可消除冗餘,並確保整個組織的資料品質保持一致。
高效的資料處理
資料工程師在轉換和載入資料時,必須執行許多重複性任務。資料管道支援自動執行資料轉換任務,而讓他們能夠專注於尋找最佳業務洞察。資料管道還可協助資料工程師更快地處理一段時間後失去價值的原始資料。
全面的資料整合
資料管道可抽象化資料轉換功能,以整合不同來源的資料集。其可交叉檢查多個來源的相同資料的值,並修復不一致之處。例如,假設同一位客戶透過您的電子商務平台和您的數位服務進行購買。但是,他們在數位服務中拼錯自己的名字。管道可在傳送資料進行分析之前,修復這種不一致。
資料管道如何運作?
就像輸水管道將水從水庫輸送至水龍頭一樣,資料管道將資料從收集點輸送至儲存體。資料管道從來源擷取資料,做出變更,然後將其儲存在特定的目的地。我們將在下面解釋資料管道架構的關鍵元件。
資料來源
資料來源可以是應用程式、裝置,或是另一個資料庫。不同的來源可能會將資料推送至管道。管道還可以使用 API 呼叫、Webhook 或資料複寫程序來擷取資料點。您可以同步資料擷取以進行即時處理,也可以按排程的時間間隔從資料來源收集資料。
轉換
隨著原始資料流經管道,資料會發生變更,變得對商業智慧更有用。轉換是變更資料的操作,例如排序、重新格式化、重複資料刪除、確認和驗證。您的管道可篩選、彙總或處理資料,以滿足您的分析需求。
相依項
隨著變更按順序發生,可能存在特定的相依項,從而降低管道中移動資料的速度。有兩種主要的相依項:技術和業務。例如,如果管道必須等待中央佇列填滿才能繼續,這就是技術相依項。相反,如果管道必須暫停,直至另一個業務部門交叉驗證資料,這就是業務相依項。
目的地
資料管道的端點可以是資料倉儲、資料湖,或者其他商業智慧或資料分析應用程式。有時,目的地也稱為資料接收器。
資料管道有哪些類型?
資料管道主要有兩種類型,串流處理管道和批次處理管道。
串流處理管道
資料串流是指持續、增量的小型資料封包序列。它通常代表指定時段內發生的一系列事件。例如,資料串流可顯示包含過去一小時測量值的感應器資料。單一動作 (例如金融交易) 也可以稱為事件。串流管道可處理一系列事件,以進行即時分析。
串流資料要求低延遲和高容錯。即使某些資料封包遺失,或者以不同於預期的順序到達,您的資料管道也應能夠處理資料。
批次處理管道
批次處理資料管道以大量或批次來處理和存放資料。其適用於偶爾的大量任務,例如月度會計。
資料管道包含一系列循序命令,每個命令都在整個批次資料上執行。資料管道將一個命令的輸出,作為下一個命令的輸入。所有資料轉換完成後,管道將整個批次載入雲端資料倉儲或其他類似的資料存放區。
批次資料管道與串流資料管道間的區別
批次處理管道很少執行,且通常在非高峰時段執行。其在執行時需要短時間的高運算能力。相比之下,串流處理管道持續執行,但需要較低的運算能力。而是需要可靠、低延遲的網路連線。
資料管道與 ETL 管道有何不同?
擷取、轉換和載入 (ETL) 管道是一種特殊類型的資料管道。ETL 工具從多個來源擷取或複制原始資料,並將其存放在稱為臨時區域的暫存位置。他們轉換臨時區域中的資料,並將其載入資料湖或資料倉儲中。
並非所有資料管道都遵循 ETL 序列。有些可能會從來源中擷取資料,並在不進行轉換的情況下將其載入其他位置。其他資料管道則遵循擷取、載入和轉換 (ELT) 序列,其將非結構化資料直接擷取並載入資料湖。他們在將資訊移至雲端資料倉儲之後,才會執行變更。
AWS 如何支援您的資料管道需求?
AWS Data Pipeline 是一項網路服務,可協助您以指定的時間間隔可靠地處理和移動資料。您的資料可在不同的 AWS 運算和儲存服務與內部部署資料來源之間移動。您可以使用 Data Pipeline,定期在存放資料的位置存取資料、進行大規模轉換和處理,並將結果有效率地傳輸至其他 AWS 服務。憑藉這項服務,您能夠從即時資料分析和其他實用的資料管理功能中獲益。
以下是您可以使用 Data Pipeline 執行的一些操作:
- 輕鬆建立具有容錯、可重複和高可用性的複雜資料處理工作負載
- 確保資源可用性,並有效管理任務間的相依項
- 建立故障通知系統,或自動重試瞬態故障
- 移動並處理之前在內部部署資料孤島中鎖定的資料
立即建立免費帳戶,開始使用 AWS 上的資料管道。