トレーニングおよび推論用の機械学習モデル特徴量を保存、共有、管理し、機械学習アプリケーション間での特徴量の再利用を促進する
アプリケーションログ、サービスログ、クリックストリーム、センサー、AWS やサードパーティーのデータソースからの表形式データなど、ストリーミングやバッチを含むあらゆるデータソースから特徴量を取り込む
データを機械学習の特微量に変換し、MLOps の実践をサポートする特微量パイプラインを構築し、モデルデプロイまでの時間を短縮します
Amazon SageMaker Feature Store は、機械学習 (ML) モデルの特微量を保存、共有、管理するためのフルマネージド型の専用リポジトリです。特徴量は、トレーニングと推論で使用される機械学習モデルの入力です。例えば、音楽プレイリストを推奨するアプリケーションでは、特徴量には、曲の評価、曲を聴いている時間、リスナーの属性が含まれる場合があります。特徴量は複数のチームによって繰り返し使用されるため、精度の高いモデルを実現するためには特徴量の品質が重要です。また、オフラインでバッチ的にモデルをトレーニングするために使用した特微量をリアルタイム推論に利用する場合、2 つの特徴量ストアを同期させることは困難です。SageMaker Feature Store は、機械学習ライフサイクル全体でにわたって特徴量を大規模に処理、標準化、使用するための安全で統一されたストアを提供します。
仕組み
主な特徴
特徴量の処理と取り込み
アプリケーションやサービスのログ、クリックストリーム、センサーなどのさまざまなソースからのデータ、および Amazon Simple Storage Service (Amazon S3)、Amazon Redshift、AWS Lake Formation、Snowflake、Databricks Delta Lake からの表形式データを SageMaker Feature Store に取り込むことが可能です。特徴量の処理を使用すると、バッチデータソースと特徴量変換関数 (製品ビュー数やタイムウィンドウ集計など) を指定でき、SageMaker Feature Store は取り込み時のデータを機械学習の特微量に変換します。Amazon SageMaker Data Wrangler を使用すると、SageMaker Feature Store に直接特徴量を公開することができます。Apache Spark コネクタを使用すると、1 行のコードで大量のデータをバッチ取り込みできます。
特徴量の保存、カタログ、検索、再利用
SageMaker Feature Store のタグとインデックス特徴量グループを使って、Amazon SageMaker Studio のビジュアルインターフェイスから簡単に見つけることができます。特徴量カタログを閲覧することで、チームは自信を持って再利用できる既存の特徴量を発見し、パイプラインの重複を回避することができます。SageMaker Feature Store は、デフォルトで AWS Glue Data Catalog を使用しますが、必要に応じて別のカタログを使用することも可能です。また、Amazon Athena やその他のお好みのクエリツールで使い慣れた SQL を使用して特徴量をクエリすることも可能です。
特徴量の一貫性
SageMaker Feature Store は、トレーニング用のオフラインストレージとリアルタイム推論用のオンラインストレージをサポートしています。トレーニングと推論は非常に異なるユースケースであるため、ストレージ要件はそれぞれ異なります。トレーニングにおいて、モデルは完全なデータセットを使用し、コンプリートするのに何時間もかかる一方で、推論はミリ秒単位で行う必要があり、通常はデータのサブセットを使用します。SageMaker Feature Store を併用することで、オフラインとオンラインのデータセットが同期された状態に保たれます。両者が乖離するとモデルの精度に悪影響を及ぼす可能性があるため、これは非常に重要なことです。
リネージトラッキング
特微量を安心して再利用するためには、データサイエンティストは特微量の構築方法と、どのモデルやエンドポイントで特微量が使用されているかを知る必要があります。SageMaker Feature Store を使用すると、データサイエンティストは SageMaker Lineage を使用して Amazon SageMaker Studio 内の特微量を追跡できます。SageMaker Lineageを使用すると、スケジュールされたパイプライン実行を追跡し、アップストリームリネージを視覚化して、特徴量をデータソースまで追跡したり、特徴量の処理コードを表示したりでき、これらはすべて 1 つの環境で行えます。
タイムトラベル
データサイエンティストは、診断前の患者の医療データなど、過去の特定時間を超えるデータ (特徴量リーケージとも呼ばれる) を含むリスクなしに、過去の特定時間の特徴量値の正確なセットでモデルをトレーニングする必要がある場合があります。SageMaker Feature Store Offline API は、ポイントインタイムクエリをサポートしており、対象となる過去の時間における各特微量の状態を取得することができます。
機械学習の運用
特徴量ストアは、MLOps のライフサイクルにおける重要なコンポーネントです。データセットと特徴量パイプラインを管理し、データサイエンス作業を高速化し、同じ特微量を何度も作成するような重複作業を排除します。SageMaker Feature Store は、スタンドアロンサービスとして使用することも、他の SageMaker サービスと共に MLOps のライフサイクル全体で統合的に使用することも可能です。
セキュリティとコンプライアンス
セキュリティとコンプライアンスのニーズをサポートするために、共有された機械学習特徴量にアクセスする方法を細かく制御する必要がある場合があります。このようなニーズは、テーブルや列レベルのアクセス制御だけでなく、個々の行レベルのアクセス制御にまで及ぶことがよくあります。例えば、アカウント担当者に自分のアカウントだけの売上テーブルの行を表示させ、クレジットカード番号のような機密データのプレフィックスをマスクしたい場合があります。SageMaker Feature Store と AWS Lake Formation を併用することで、特微量ストアのデータを保護し、ロールに応じたアクセスを許可するためのきめ細かいアクセス制御を実装することができます。
お客様
「Climate では、世界中の農家に正確な情報を提供して、データ主導の意思決定を行えば、1 エーカーあたりの収益を最大化できると信じています。これを実現するために、機械学習ツールなどのテクノロジーに投資して、栽培者の収穫量など、特徴量と呼ばれる測定可能なエンティティを使用してモデルを構築しました。Amazon SageMaker Feature Store を使用すれば、複数のチームが特徴量に簡単にアクセスして、再利用できる一元的な特徴量ストアを備えた ML モデルの開発を加速できます。SageMaker Feature Store を使用すると、オンラインストアを使用してリアルタイムで特徴量にアクセスしたり、さまざまなユースケースでオフラインストアを使用してスケジュール通りに特徴量を実行したりできます。SageMaker Feature Store を使用すれば、ML モデルをより迅速に開発できます」
Daniel McCaffrey、気候変動データおよび分析部門のバイスプレジデント、Climate
「私たちは、2017 年に AWS で Intuit の新しい機械学習プラットフォームを構築しました。これは、モデルの開発、トレーニング、ホスティングに関する Amazon SageMaker の強力な機能と、オーケストレーションおよび特徴量エンジニアリングにおける Intuit 独自の機能を組み合わせたものです。その結果、モデル開発のライフサイクルを大幅に短縮しました。以前は丸 6 か月かかっていたものが、今では 1 週間もかからないうちに、AI 機能を TurboTax、QuickBooks、および Mint 製品に取り組むようになり、作業を大幅に高速化しました。当社では Amazon SageMaker Feature Store のリリースに向けて AWS と緊密に協力してきました。フルマネージドの特徴量ストアが期待どおりになれば、組織全体で複数の特徴量リポジトリを維持する必要がなくなります。当社のデータサイエンティストは、中央ストアの既存の特徴量を使用して、チームやモデル全体で特徴量の標準化と再利用の両方を推進できるようになります」
Mammad Zadeh、Intuit データプラットフォームエンジニアリング部門バイスプレジデント
「Experian は、消費者が金融生活において信用を理解して利用できるようにし、貸し手が信用リスクを管理できるよう支援することが私たちの責任であると信じています。財務モデルを構築するためのベストプラクティスを引き続き実装する際に、機械学習を活用する製品の生産を加速するソリューションを検討しています。Amazon SageMaker Feature Store は、ML アプリケーションの特徴量を保存して再利用するための安全な方法を提供します。複数のアカウントにわたってリアルタイムアプリケーションとバッチアプリケーションの両方の一貫性を保つ特徴量は、当社のビジネスにおける重要な要件です。Amazon SageMaker Feature Store の新機能を使用することで、お客様が信用を管理し、ニューエコノミーのコストを削減できるようになります」
Geoff Dzhafarov、チーフエンタープライズアーキテクト、Experian Consumer Services
「DeNA は、インターネットと AI/ML を使用してインパクトと喜びを提供することを使命としています。価値に基づくサービスを提供することが私たちの主な目標であり、その目標を達成するためのビジネスとサービスを確保したいと考えています。私たちは、組織全体で特微量を発見し、再利用したいと考えています。Amazon SageMaker Feature Store は、さまざまなアプリケーションで特微量を再利用するための簡単で効率的な方法で私たちを支援してくれます。Amazon SageMaker Feature Store は、特徴量の標準的な定義を保守する場合にも役に立ちますし、モデルをトレーニングして本番環境にデプロイする際の一貫した方法論を支援します。Amazon SageMaker のこれらの新機能により、ML モデルのトレーニングとデプロイをより迅速に行うことができるため、最高のサービスでお客様に喜んでいただけます」
山田憲晋氏、AI システム部部長、DeNA
「個別家計から国内総生産におよぶまでの経済成長には、供給と需要が一致する強力な医療産業が不可欠です。Amazon SageMaker Feature Store は、一貫したキュレーション済みのデータセットを使用することで、データサイエンスおよび開発チーム全体でより適切に拡張を行えると確信しています。新たに発表された Amazon SageMaker の機能により、さまざまなアプリケーションに向けた ML モデルの開発とデプロイを加速し、リアルタイムの推奨を迅速に行うことで、お客様が多くの情報に基づいた意思決定を行えるように支援します」
Clemens Tummeltshammer、データサイエンスマネージャー、Care.com
「3M は ML を使用して、サンドペーパーなどの実証済みの製品を改善し、ヘルスケアを含む他のいくつかの分野でイノベーションを推進しています。当社では、3M のより多くの領域に機械学習をスケールすることを計画しているため、データとモデルの量は急速に増加し、毎年 2 倍になっています。SageMaker の新機能はスケールに役立つため、当社にメリットをもたらしてくれるものであると確信しています。Amazon SageMaker Data Wrangler を使用すると、モデルトレーニング用のデータの準備がはるかに簡単になり、Amazon SageMaker Feature Store を使用すると、同じモデル特徴量を何度も作成する必要がなくなります。最後に、Amazon SageMaker Pipelines は、データの準備、モデルの構築、およびモデルのデプロイをエンドツーエンドのワークフローに自動化するのに役立つため、モデルの市場投入までの時間を短縮できます。当社の研究者たちは、3M の科学の新たなスピードを活用することを楽しみにしています」
David Frazee 氏、テクニカルディレクター、3M Corporate Systems Research Lab