什麼是特徵工程?
模型特徵是機器學習 (ML) 在訓練和推論期間用於預測的輸入。ML 模型精度有賴於特徵的精確集合與組合。例如,在推薦音樂播放清單的 ML 應用程式中,特徵可能納入了歌曲評分、先前聽過哪些歌曲以及聽歌時間。建立特徵可能需要大量的工程工作。特徵工程涉及從原始資料中擷取和轉換變數,例如價格清單、產品描述和銷量,以便您可以使用特徵進行訓練和預測。工程設計特徵所需的步驟包括資料擷取和清理,然後是特徵建立與儲存。
特徵工程有哪些挑戰?
特徵工程具有挑戰性,因為它涉及一系列資料分析、商業領域知識和一些直覺。建立特徵時,很容易立即就開始使用可用資料,但通常情況下,您首先應該透過與專家交談、腦力激盪和開展第三方研究等措施來考慮需要哪些資料。如果不進行此練習,您可能會錯過重要的預測變數。
資料擷取
收集資料是組合 ML 所需全部資料的程序。資料收集可能很乏味,因為資料駐留在許多資料來源中,包括筆記型電腦、資料倉儲、雲端、應用程式內部和裝置。尋找各種可連線至不同資料來源的方式可能具有挑戰性。資料量呈指數級增長,因此,需要搜尋大量資料。此外,資料的格式和類型因來源而異。例如,影片資料和表格式資料很難一起使用。
特徵建立
資料標記是識別原始資料 (影像、文字檔案、影片等) 並新增一或多個有意義與資訊性的標籤來提供內容的過程,讓 ML 模型可從中學習。例如,標籤會顯示相片中是否有鳥或汽車,指出一段錄音中會說出哪些字詞,或者 X 光片中是否發現異常情況。對於各種使用案例 (包含電腦視覺、自然語言處理和語音識別) 而言,必須提供資料標記。
特徵儲存
在對資料進行清除和標記後,ML 團隊通常會探索資料以確保其正確,並為 ML 做好準備。長條圖、散佈圖、箱線圖、折線圖和橫條圖等視覺化,都是確認資料正確的實用工具。此外,視覺化還有助於資料科學團隊完成探索性資料分析。此程序使用視覺化來探索模式、發現異常狀況、檢驗假設或檢查假設。探索性資料分析無需正式建模;而資料科學團隊可以使用視覺化來破譯資料。
AWS 如何在特徵工程方面提供協助?
借助 Amazon SageMaker Data Wrangler,您可以使用單一視覺介面來簡化特徵工程流程。借助 SageMaker Data Wrangler 的資料選取工具,您可以從各種資料來源中選取所需原始資料,然後一鍵匯入。SageMaker Data Wrangler 包含 300 多個內建資料轉換,因此您無需編寫任何程式碼,即可快速標準化、轉換和合併特徵。在準備資料後,您可以使用 Amazon SageMaker Pipelines 建置完全自動化的 ML 工作流程,並將其儲存在 Amazon SageMaker Feature Store 中以供重複使用。SageMaker 特徵存放區是專門建構的存放庫,您可在其中儲存並存取特徵,以更簡單的方式在團隊中命名、整理及重複使用這些特徵。SageMaker 特徵存放區在訓練和即時推論期間提供了統一的特徵存放區,無需編寫額外程式碼或建立手動流程來保持特徵的一致性。