MLOps 用 Amazon SageMaker

高性能の本番 ML モデルを迅速かつ大規模に提供

Amazon SageMaker MLOps を利用すべき理由

Amazon SageMaker は、機械学習オペレーション (MLOps) 専用のツールを提供し、ML ライフサイクル全体でプロセスを自動化および標準化するのに役立ちます。SageMaker MLOps ツールを使用すると、ML モデルを大規模に簡単にトレーニング、テスト、トラブルシューティング、デプロイ、および管理して、本番環境でモデルのパフォーマンスを維持しながら、データサイエンティストと ML エンジニアの生産性を高めることができます。

仕組み

SageMaker MLOps の利点

効率的なモデルのワークフロー

モデル開発を加速するための反復可能なトレーニングワークフローを作成

一元的な ML ガバナンス

モデルの再現性とガバナンスのために ML アーティファクトを一元的にカタログ化

ML CI/CD の統合

ML ワークフローを CI/CD パイプラインと統合して、運用開始までの時間を短縮

継続的な品質のモニタリング

品質を維持するために、本番環境でデータとモデルを継続的に監視

機械学習開発を加速させる

標準化されたデータサイエンス環境をプロビジョニング

ML 開発環境を標準化すると、新しいプロジェクトの立ち上げ、プロジェクト間でのデータサイエンティストのローテーション、ML のベストプラクティスの実装が容易になるため、データサイエンティストの生産性が向上し、最終的にはイノベーションのペースが向上します。Amazon SageMaker Projects は、十分にテストされた最新のツールとライブラリ、ソース管理リポジトリ、ボイラープレートコード、および CI/CD パイプラインを使用して、標準化されたデータサイエンティスト環境を迅速にプロビジョニングするためのテンプレートを提供します。

SageMaker プロジェクトで MLOps を自動化するためのデベロッパーガイドを読む

SageMaker MLOps - 標準化された ML 環境をプロビジョニングする

ML の実験中に MLflow を使用して共同作業を行う

ML モデル構築は反復的なプロセスです。何百ものモデルをトレーニングして、最適なモデル精度を実現するために最適なアルゴリズム、アーキテクチャ、パラメータを見つける必要があります。MLflow を使用すると、トレーニングのイテレーション全体の入力と出力を追跡できるため、試験の再現性が向上し、データサイエンティスト間のコラボレーションが促進されます。フルマネージドの MLflow 機能を使用すると、各チームの MLflow 追跡サーバーを作成できるため、ML 実験中にコラボレーションを効率的に行えます。

Amazon SageMaker と MLflow を併用すると、機械学習ライフサイクルをエンドツーエンドで管理し、モデルトレーニングと実験の追跡を効率的に行い、さまざまなフレームワークや環境での再現性を高められます。進行中のトレーニングジョブを視覚化し、同僚と実験を共有し、実験から直接モデルを登録できる単一のインターフェイスとなります。

MLflow による機械学習の実験を管理する

デモを見る

生成 AI モデルのカスタマイズワークフローを自動化

Amazon SageMaker Pipelines を利用すると、データ処理、モデルトレーニング、微調整、評価、およびデプロイのエンドツーエンドの ML ワークフローを自動化できます。Pipelines ビジュアルエディタで数回クリックするだけで、独自のモデルを構築したり、SageMaker Jumpstart から基盤モデルをカスタマイズしたりできます。定期的に、または特定のイベント (S3 の新しいトレーニングデータなど) がトリガーされたときに自動的に実行するように、SageMaker Pipelines を設定できます。

Amazon SageMaker Pipelines の詳細

稼働中のモデルを容易にデプロイ、管理

トラブルシューティングのためにモデルをすばやく再現

多くの場合、モデルの動作をトラブルシューティングし、根本原因を特定するために、実稼働環境でのモデルの再現が必要になります。これを支援するため、Amazon SageMaker はワークフローのすべてのステップをログに記録し、トレーニングデータ、構成設定、モデルパラメータ、学習勾配などのモデルアーティファクトの監査証跡を作成します。系統追跡を使用すると、モデルを再作成して潜在的な問題をデバッグできます。

Amazon SageMaker ML Lineage Tracking の詳細

モデルのバージョンを一元的に追跡および管理

ML アプリケーションの構築には、モデル、データパイプライン、トレーニングパイプライン、および検証テストの開発が含まれます。Amazon SageMaker Model Registry を使用すると、モデルのバージョン、ユースケースのグループ化などのメタデータ、モデルのパフォーマンスメトリクスベースラインを中央リポジトリで追跡でき、ビジネス要件に基づいてデプロイに適したモデルを容易に選択することができます。さらに、SageMaker Model Registry は、監査とコンプライアンスのための承認ワークフローを自動的に記録することができます。

モデルレジストリを使用したモデルの登録とデプロイの詳細

デモを見る

コードで ML インフラストラクチャを定義

一般に「infrastructure-as-code」と呼ばれる、宣言型構成ファイルによるインフラストラクチャのオーケストレーションは、ML インフラストラクチャをプロビジョニングし、CI/CD パイプラインまたはデプロイツールで指定されたとおりにソリューションアーキテクチャを実装するための一般的なアプローチです。Amazon SageMaker Projects を使用すると、事前に構築されたテンプレートファイルを使用して「infrastructure-as-code」を作成できます。

SageMaker プロジェクトを使用した MLOps の自動化の詳細

統合とデプロイ (CI/CD) ワークフローを自動化

ML 開発ワークフローは、統合およびデプロイのワークフローと統合して、本番アプリケーション用の新しいモデルを迅速に提供する必要があります。Amazon SageMaker Projects は、開発環境と本番環境の間のパリティの維持、ソースとバージョンの管理、A/B テスト、エンドツーエンドの自動化など、CI/CD プラクティスを ML にもたらします。その結果、モデルが承認されるとすぐに実稼働に移行でき、俊敏性が向上します。

さらに、Amazon SageMaker は、エンドポイントの可用性を維持し、デプロイのリスクを最小限に抑えるのに役立つ組み込みのセーフガードも提供します。SageMaker は、ブルー/グリーンデプロイなどのデプロイのベストプラクティスのセットアップとオーケストレーションを処理して可用性を最大化し、それらを自動ロールバックメカニズムなどのエンドポイント更新メカニズムと統合して、問題を早期に自動的に特定し、本番環境に大きな影響を与える前に是正措置を講じることを支援します。

SageMaker プロジェクトで CI/CD を使用したエンドツーエンドの ML ソリューションを作成する

モデルを継続的に再トレーニングして予測品質を維持

モデルが本番環境に入ると、オンコールのデータサイエンティストが問題をトラブルシューティングして再トレーニングをトリガーできるように、アラートを構成してパフォーマンスを監視する必要があります。Amazon SageMaker Model Monitor は、モデルのドリフトとコンセプトのドリフトをリアルタイムで検出し、アラートを送信することで品質を維持するのに役立ちます。これにより、すぐにアクションを実行できます。SageMaker Model Monitor は、予測の総数と比較して正しい予測の数を測定する精度など、モデルのパフォーマンス特性を常に監視しているため、異常に対処できます。SageMaker Model Monitor は SageMaker Clarify と統合されており、潜在的なバイアスの可視性を向上させます。

詳細