什麼是資料清除?
資料清除是為機器學習 (ML) 和商業智慧 (BI) 應用程式準備原始資料的基本程序。原始資料可能包含大量錯誤,這可能會影響 ML 模型的準確性,並導致錯誤的預測和負面的商業影響。
資料清除的關鍵步驟包括修改和移除不正確和不完整的資料欄位,識別並移除重複資訊和不相關資料,以及修正格式、缺失值和拼寫錯誤。
為什麼資料清除很重要?
一間公司使用資料來推動決策時,使用相關、完整且準確的資料至關重要。然而,資料集通常包含必須在分析之前移除的錯誤。這些錯誤可能包括格式錯誤,例如錯誤寫入的日期和貨幣,以及其他可能對預測產生重大影響的計量單位。極端值是一個特別值得關注的問題,因為這些極端值總是會導致結果出現誤差。其他常見的資料錯誤包括資料點損毀、資訊缺失和拼寫錯誤。乾淨的資料有助於產生高度準確的 ML 模型。
乾淨和準確的資料對於訓練 ML 模型尤其重要,因為使用較差的訓練資料集可能會導致部署模型的錯誤預測。這是資料科學家花費大量時間為 ML 準備資料的主要原因。
如何驗證您的資料是否乾淨?
資料清除程序需要採取幾個步驟,來識別和修復問題條目。第一步是分析資料以識別錯誤。這可能涉及使用藉助規則、模式和條件約束來識別無效值的定性分析工具。下一步是移除或修正錯誤。
常見的資料清除步驟包括修復:
- 重複資料:刪除重複資訊
- 不相關資料:識別用於特定分析的關鍵欄位,並從分析中刪除不相關資料
- 極端值:極端值會顯著影響模型效能,因此需要識別極端值並確定適當的動作
- 缺失資料:標記並刪除或估算缺失的資料
- 結構錯誤:修正印刷錯誤和其他不一致,並使資料符合通用模式或約定
AWS 如何協助進行資料清除
Amazon SageMaker Data Wrangler 是 Amazon SageMaker 的一項功能,可讓您快速輕鬆地為 ML 準備資料。藉助 Amazon SageMaker Data Wrangler,您可以從單一視覺化介面完成資料準備工作流程的每個步驟,包括資料選擇、清除、探索、偏差偵測和視覺化。
借助 SageMaker Data Wrangler 的資料選取工具,您可以從各種資料來源中選取所需資料,然後一鍵匯入。匯入資料後,您可以使用資料品質和洞察報告,自動驗證資料品質並偵測異常狀況,如重複行和目標洩漏。SageMaker Data Wrangler 包含 300 多個內建資料轉換,因此您無需編寫任何程式碼,即可快速標準化、轉換和合併特徵。
若要開始使用 SageMaker Data Wrangler,請瀏覽教學。