Amazon SageMaker Feature Store

全受管機器學習特徵庫服務

存放、共用和管理用於訓練和推論的 ML 模型特徵庫,以促進跨 ML 應用程式的特徵重複使用

從任何資料來源擷取特徵,包括串流和批次,如應用程式日誌、服務日誌、點擊流、感應器,以及來自 AWS 或第三方資料來源的表格資料

將資料轉換為 ML 特徵,並建置支援 MLOps 實務且加快模型部署的特徵管道

Amazon SageMaker Feature Store 是全受管、專門打造的儲存庫,用於存放、共用及管理機器學習 (ML) 模型特徵。特徵是在訓練和推論期間使用的 ML 模型輸入。例如,在推薦音樂播放清單的應用程式中,特徵可能包括歌曲評分、收聽時長和聽眾人口統計資料。特徵被多個團隊重複使用,特徵品質對於確保高度準確的模型至關重要。此外,當用於批次離線訓練模型的特徵適用於即時推論時,很難保持兩個特徵存放區同步。SageMaker Feature Store 提供安全且統一的存放區,可在 ML 生命週期中大規模處理、標準化和使用特徵。

Amazon SageMaker Feature Store 概觀和示範 (21:54)

運作方式

運作方式:Amazon SageMaker Feature Store

主要特徵

特徵處理和擷取

您可以從各種來源,例如應用程式和服務日誌、點擊流、感應器,以及來自 Amazon Simple Storage Service (Amazon S3)、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks Delta Lake 的表格式資料,將資料擷取至 Amazon SageMaker Feature Store 中。使用特徵處理,您可以指定批次資料來源和特徵轉換函數 (例如,產品瀏覽次數或時段時間彙總),SageMaker Feature Store 會在擷取時將資料轉換為 ML 特徵。藉助 Amazon SageMaker Data Wrangler,您可以將特徵直接發佈至 Amazon SageMaker Feature Store。使用 Apache Spark 連接器,您只需單行程式碼即可批次擷取大量資料。

特徵儲存、編製型錄、搜尋和重複使用

Amazon SageMaker Feature Store 標記和索引特徵群組,以便透過 Amazon SageMaker Studio 的可視介面輕鬆探索。透過瀏覽特徵型錄,團隊可探索其能夠放心重複使用的現有特徵,並避免重複管道。Amazon SageMaker Feature Store 預設使用 AWS Glue 資料型錄,但如有需要,您可以使用不同的型錄。您還可以使用熟悉的 SQL 和 Amazon Athena,或者您選擇的其他查詢工具來查詢特徵。

特徵一致性

Amazon SageMaker Feature Store 支援用於訓練的離線儲存,以及用於即時推論的線上儲存。訓練和推論是極為不同的使用案例,每種情形的儲存要求都不同。在訓練期間,模型通常使用完整的資料集,可能需要數小時才能完成,而推論則需要在幾毫秒內完成,並且通常會使用資料的子集。當結合使用時,Amazon SageMaker Feature Store 可確保離線和線上資料集保持同步,這一點至關重要,因為如果出現分歧,則會對模型準確性產生負面影響。

譜系追蹤

為了有把握地啟用特徵重複使用,資料科學家需要了解特徵是如何建置的,以及哪些模型和端點正在使用它們。SageMaker Feature Store 可讓資料科學家透過 SageMaker Lineage 追蹤他們在 Amazon SageMaker Studio 中的特徵。SageMaker Lineage 可讓您追蹤排定的管道執行、視覺化上游歷程以追溯特徵的資料來源,以及檢視特徵處理程式碼。

時間移動

資料科學家可能需要使用過去特定時間的精確特徵值集來訓練模型,而不會有包含超過該時間的資料 (亦稱為特徵洩露) 風險,例如診斷前的患者醫療資料。Amazon SageMaker Feature Store Offline API 支援時間點查詢,以擷取每個特徵在相關歷史時間的狀態。 

ML 操作

特徵存放區是 MLOps 生命週期中的關鍵組成部分。他們管理資料集和特徵管道,加速資料科學任務,並消除多次建立相同特徵的重複工作。Amazon SageMaker Feature Store 可在整個 MLOps 生命週期作為獨立服務,或以整合方式與其他 SageMaker 服務配合使用。

安全與合規

為支援安全與合規需求,您可能需要對共用 ML 特徵的存取方式進行精細控制。這些需求通常超出資料表和資料欄級存取控制,而是單獨的資料列級存取控制。例如,您可能希望讓客戶代表僅查看銷售表中其帳戶的資料列,並屏蔽信用卡號等敏感資料前綴。Amazon SageMaker Feature Store 與 AWS Lake Formation 一起可用於實作精細存取控制,以保護特徵存放區資料,並根據角色授予存取權。

客戶

The Climate Corporation
「在 Climate,我們的信念是為世界的農民提供準確的資訊,以便作出資料驅動的決策,盡可能提高其從每一英畝土地中獲得的回報。為完成此一目標,我們投資機器學習工具等技術,利用稱為特徵的衡量實體來建置模型,例如種植者的土地產量。藉由 Amazon SageMaker 特徵存放區,我們可透過中央特徵存放區加速 ML 模型的開發,輕鬆存取並重複使用多個團隊的特徵。SageMaker 特徵存放區讓您可輕鬆利用線上商店即時存取特徵,或者利用離線商店依照時間表執行特徵,適合不同使用案例。藉由 SageMaker 特徵存放區,我們得以更快開發 ML 模型。」

Daniel McCaffrey,Climate 資料與分析副總

Intuit
「我們於 2017 年選擇在 AWS 上 建置新的 Intuit 機器學習平台,結合 Amazon SageMaker 強大的模型開發、訓練及受控特徵及 Intuit 自身的協同運作與特徵工程能力。我們因此大幅縮短了模型開發生命週期。過去需要六個月的時間,現在只需不到一週的時間,因此我們能夠以極快的速度把 AI 功能推廣到我們的 TurboTax、QuickBook 和 Mint 產品之中。在發佈 Amazon SageMaker 特徵存放區之前,我們密切配合 AWS,對於完全受管的特徵存放區帶來的前景感到興奮,從而使我們不再需要在整個組織中維護多個特徵存放區。我們的資料科學家將能利用中央存放區的現有特徵,跨團隊及模型推動特徵的標準化和重複使用。」

Mammad Zadeh,Intuit 資料平台工程副總

Experian
「在 Experian,我們相信我們有責任在其財務生活中協助消費者瞭解並使用信用,協助貸款人管理信用風險。隨著我們持續實施最佳實務來建置我們的財務模型,我們正在尋找解決方案加速生產利用機器學習的產品。Amazon SageMaker 特徵存放區為我們提供了一種安全的方式,儲存並在我們的 ML 應用程式中重複使用特徵。能夠跨多個帳戶針對即時和批次處理應用程式保持一致性是我們重要的業務要求。利用 Amazon SageMaker 特徵存放區的新功能,我們能夠協助客戶掌控其信用,在新經濟活動中降低成本。」

Geoff Dzhafarov,Experian 消費者服務企業架構長

DeNA
「在 DeNA,我們的使命是利用網際網路和 AI/ML 提供影響力和歡喜。提供價值型服務是我們的首要目標,我們希望確保我們的業務和服務已準備好實現該目標。我們希望在整個組織中探索並重複使用特徵,Amazon SageMaker Feature Store 可協助我們以一種簡單有效的方式,重複使用不同應用程式的特徵。Amazon SageMaker Feature Store 還可協助我們維護標準特徵的定義,在我們訓練模型並將其部署到生產過程時,透過一致的手法協助我們。藉由 Amazon SageMaker 的這些新功能,我們能夠更快訓練及部署 ML 模型,進而讓我們能夠透過最好的服務來滿足客戶需求。」

DeNA 總經理/AI 系統部門系統單位 Kenshin Yamada

Care.com
「一個供需平衡的強大照護產業不論是對於個別家庭,還是對整個國家的 GDP 成長,都至關重要。我們對於 Amazon SageMaker 特徵存放區感到興奮,因為我們相信它可透過一致的精測管資料集協助我們以更好的方式來擴展資料科學與開發團隊。借助 Amazon SageMaker 新發佈的功能,我們可以加快針對不同應用程式的 ML 模型開發和部署,透過更快的即時推薦協助我們的客戶做出更明智的決策。」

Care.com 資料科學經理 Clemens Tummeltshammer

3M
「借助 ML,3M 正在改進久經考驗的產品,如砂紙,並推動其他幾個領域的創新,包括醫療保健領域。當我們計劃將機器學習擴展到 3M 的更多領域時,我們看到資料和模型的數量正在迅速增長——每年都翻一番。我們對 SageMaker 的新功能充滿期待,因為這些功能能夠協助我們擴展。Amazon SageMaker Data Wrangler 使準備資料以進行模型訓練變得容易許多,而且透過利用 Amazon SageMaker Feature Store,我們再也不需要反复建立相同的模型特徵。最後,Amazon SageMaker Pipeline 將協助我們將資料準備、模型建置和模型部署整合到端到端工作流程中,實現自動化,從而讓我們加快模型的上市速度。我們的研究人員期待利用 3M 的新科學速度。」

3M 公司系統研究實驗室技術總監 David Frazee

資源

部落格

使用時間點查詢建置準確的 ML 訓練資料集

部落格

自動化特徵工程管道

部落格

跨帳戶和團隊啟用特徵重複使用

部落格

了解 Amazon SageMaker Feature Store 的主要功能

部落格

Amazon SageMaker Feature Store 中的串流擷取

部落格

存放、探索和共用 ML 特徵

部落格

Amazon SageMaker Feature Store 中的串流擷取

部落格

存放、探索和共用 ML 特徵

影片

Amazon SageMaker Feature Store 深入探討 (21:54)

最新消息

  • 日期 (最新到最舊)
找不到結果
1