什麼是資料準備?

資料準備是一種準備原始資料的程序,因此適用於進一步的處理與分析。關鍵步驟包括收集、清除原始資料並將其標記為適用於機器學習 (ML) 演算法的形式,然後是探索資料與並將其視覺化。資料準備可能會佔用 ML 專案所花時間的 80%。使用特定的資料準備工具對優化此程序來說相當重要。

ML 與資料準備之間有何聯繫?

資料以前所未有的方式流經組織,從智慧型手機到智慧城市的方方面面,既包含結構化資料,也包含非結構化資料 (影像、文件、地理空間資料等)。非結構化資料佔當今資料的 80%。ML 不僅可以分析結構化資料,還能探索非結構化資料中的模式。ML 是電腦學習解讀資料,並根據該資料做出決策和提供建議的程序。在學習程序中,以及後來用於做出預測時,不正確、有偏見或不完整的資料可能會導致不准確的預測。

為什麼資料準備對於 ML 很重要?

資料為 ML 提供推動力。利用這些資料重塑您的業務雖然極具挑戰性,但對於現在和未來保持相關性至關重要。這讓最具遠見卓識的人得以生存,讓那些能夠利用資料的人做出更好、更明智的決策,進而更快地對意外事件做出回應並發現新的機遇。這個重要但繁瑣的程序是建置準確的 ML 模型和分析的先決條件,也是 ML 專案中最耗時的部分。為了最大限度地減少時間投入,資料科學家可以使用多種工具,以各種方式助力資料準備自動化。

如何準備資料?

資料準備遵循一系列步驟,首先是收集正確的資料,接著是清除、標記,然後是驗證和視覺化。

收集資料

收集資料是組合 ML 所需全部資料的程序。資料收集可能很乏味,因為資料駐留在許多資料來源中,包括筆記型電腦、資料倉儲、雲端、應用程式內部和裝置。尋找各種可連線至不同資料來源的方式可能具有挑戰性。資料量呈指數級增長,因此,需要搜尋大量資料。此外,資料的格式和類型因來源而異。例如,影片資料和表格式資料很難一起使用。

清除資料

清除資料是糾正錯誤並填寫遺漏資料的一個步驟,以確保資料品質。清除資料後,您需要將其轉換為一致、可讀的格式。此程序可能包括變更日期和貨幣等欄位格式、修改命名慣例,以及更正值和計量單位以使其保持一致。

標籤資料

資料標記是識別原始資料 (影像、文字檔案、影片等) 並新增一或多個有意義與資訊性的標籤來提供內容的過程,讓 ML 模型可從中學習。例如,標籤會顯示相片中是否有鳥或汽車,指出一段錄音中會說出哪些字詞,或者 X 光片中是否發現異常情況。對於各種使用案例 (包含電腦視覺、自然語言處理和語音識別) 而言,必須提供資料標記。

驗證和視覺化

在對資料進行清除和標記後,ML 團隊通常會探索資料以確保其正確,並為 ML 做好準備。長條圖、散佈圖、箱線圖、折線圖和橫條圖等視覺化,都是確認資料正確的實用工具。此外,視覺化還有助於資料科學團隊完成探索性資料分析。此程序使用視覺化來探索模式、發現異常狀況、檢驗假設或檢查假設。探索性資料分析無需正式建模;而資料科學團隊可以使用視覺化來破譯資料。 

AWS 如何提供協助?

Amazon SageMaker 資料準備工具可協助組織從結構化和非結構化資料中獲得洞察。例如,您可以使用 Amazon SageMaker Data Wrangler,透過無程式碼視覺化介面,利用內建資料視覺化來簡化結構化資料準備。SageMaker Data Wrangler 包含 300 多個內建資料轉換,因此您無需編寫任何程式碼,即可快速標準化、轉換和合併特徵。如果您願意,還可以在 Python 或 Apache Spark 中使用自訂轉換。對於非結構化資料,您需要大量高品質的標記資料集。使用 Amazon SageMaker Ground Truth Plus,您可以建置高品質的 ML 訓練資料集,同時將資料標記成本降低多達 40%,而無需自行建置標記應用程式或管理標記人力。

對於喜歡在筆記本中準備資料的分析師或商業使用者,您只需點按幾下滑鼠,即可從 Amazon SageMaker Studio 筆記本中直觀地瀏覽、探索和連接到在 Amazon EMR 上執行的 Spark 資料處理環境。連接後,您可以互動式查詢、探索和視覺化資料,並使用您選擇的語言 (SQL、Python 或 Scala) 執行 Spark 任務,以建置全面的資料準備和 ML 工作流程。

AWS 上的後續步驟