概要
Amazon SageMaker Canvas は、企業がコードを記述することなく、ビジュアルインターフェイスを使用して高精度の ML モデルを構築、トレーニング、デプロイできるようにするノーコード機械学習サービスです。SageMaker Canvas は、CV および NLP ユースケースのために、すぐに使用できる基盤モデルと事前トレーニング済みモデルへのアクセスを提供します。さらに、50 を超えるデータソースからデータをインポートして、組み込みの変換または自然言語を使用してデータを準備し、カスタムモデルを構築し、ML ライフサイクルを完了することができます。
SageMaker Canvas は従量制料金モデルに従っており、請求額は、1) SageMaker Canvas ワークスペースインスタンスの実行期間、2) データ処理、3) カスタムモデルトレーニング、4) モデル予測、および 5) すぐに使用できるモデルの使用という 5 つの主要な要素によって決まります。この柔軟な料金モデルにより、お客様は消費したリソースについての料金のみを支払うことができます。さらに、使用されていないときに SageMaker Canvas ワークスペースインスタンスの自動シャットダウンをスケジュールすることで、コストをさらに最適化できます。
SageMaker Canvas の料金体系
1.ワークスペースインスタンス (セッション-時間)
ワークスペースインスタンスは、SageMaker Canvas にログインしているユーザー専用です。SageMaker Canvas を使用した時間数またはログインしていた時間数に基づいてお支払いいただきます。この時間は、ユーザーが SageMaker Canvas アプリケーションを起動したときに開始され、ユーザーが SageMaker Canvas インターフェイスからログアウトするか、または管理者が AWS マネジメントコンソールから SageMaker Canvas アプリケーションを終了したときのいずれかに終了します。SageMaker Canvas からログアウトすると、ワークスペースインスタンスの料金が停止します。
ワークスペースインスタンス (セッション-時間) の料金
1.9 USD/時間
2.データ処理料金
SageMaker Canvas は、表形式、時系列、構造化テキスト、画像データの処理をサポートしており、ワークスペースインスタンスで最大 5 GB のデータ処理を追加料金なしで提供します。5 GB を超えるデータセットの場合、SageMaker Canvas の Data Wrangler 機能は、表形式、時系列、構造化テキストデータの効率的なデータ準備を可能にする自動スケーリングテクノロジーである Amazon EMR Serverless を活用します。5 GB を超えるデータセットで作業する場合、または EMR Serverless を使用することを明示的に選択する場合は、ワーカーの実行開始から終了まで、EMR Serverless ワーカーによって消費された合計 vCPU、メモリ、およびストレージリソースに基づいて課金されます。料金は最も近い秒に切り上げて計算され、最低料金は 1 分です。料金はリージョンとインスタンスタイプによって異なります。詳細については、Amazon EMR Serverless の料金ページをご覧ください。あるいは、SageMaker Processing を利用して、あらゆるデータサイズでデータ処理ジョブを実行することもできます。ML コンピューティングインスタンス、処理されたデータ、および使用されたストレージに基づいて適用される料金については、SageMaker の料金ページをご覧ください。EMR Serverless または SageMaker Processing のいずれかを利用してデータセット全体で Data Wrangler フローを実行する場合の正確な処理料金は、データサイズと、選択した変換の種類によって異なります。これらは、コンピューティング要件に大きく影響する可能性があります。以下の表は、EMR Serverless を利用してデータセットをインポートおよびサンプリングするのにかかるおおよその時間に基づいて推定される料金を示しています。データをエクスポートするのにかかる実際の時間と料金は、データセットの正確なサイズと、適用される変換の種類によって異なります。
インポートおよびサンプリングするデータサイズ (ランダムまたは階層化) | 見積もり料金 |
5 GB 未満 | 0 USD |
5~100 GB | 0.09 USD -1.5 USD |
100~500 GB | 2 USD~3.8 USD |
500 GB~1 TB | 4 USD~12 USD |
3.カスタムモデルトレーニングの料金
SageMaker Canvas は、表形式データ (リグレッションおよび分類)、時系列予測、画像およびテキスト分類 (コンピュータビジョンおよび自然言語処理)、大規模言語モデルのファインチューニングなど、さまざまなタスクのために自動モデル構築 (AutoML) をサポートしています。準備されたデータを検証し、必要に応じて効率的なデータ準備のために Amazon EMR Serverless を活用するとともに、カスタムモデルの探索とトレーニングのために SageMaker Autopilot をトリガーして、結果、モデルスコア、特徴量の重要性、およびインサイトを視覚化するモデルリーダーボードを生成します。
3.1 表形式および時系列モデル
SageMaker Canvas は、数値予測 (リグレッション)、二項分類、マルチクラス分類、時系列予測など、表形式モデルのために幅広い機械学習タスクをサポートしています。
最大 5 GB の表形式データセットと最大 30 GB の時系列データセットの場合、Canvas は SageMaker トレーニングインスタンスを活用します。Amazon SageMaker でのモデルトレーニングに使用されたインスタンス時間に基づいて課金されます。Canvas は、データセットのサイズ、パフォーマンス、および可用性に基づいて、ml.m5.12xlarge、ml.c5.18xlarge、ml.m5.4xlarge などの適切なインスタンスタイプを自動的に選択します。詳細については、SageMaker インスタンスの料金ページをご覧ください。
5 GB を超える表形式データセットと 30 GB を超える時系列データセットの場合、SageMaker Canvas は Amazon EMR Serverless を利用して、データを効率的にダウンサンプリングおよび準備します。その後、モデルトレーニングのために SageMaker インスタンスを活用します。データ処理ステップでは、EMR Serverless の料金モデルに基づいて課金されます (「2.データ処理料金」に記載されています)。また、モデルトレーニングフェーズでは、Amazon SageMaker インスタンスの料金に基づいて課金されます。
次の表は、データセットのサイズと、使用された SageMaker および EMR Serverless インスタンス時間に基づいて、標準ビルドのトレーニングコストの見積もりを示しています。これらの数値は概算であり、実際の時間と費用は異なる場合がありますのでご留意ください。
データサイズ | EMR Serverless の料金の見積もり | SageMaker トレーニングインスタンスの料金の見積もり | 見積もり料金の合計 |
100 MB 未満 | 0 | 2.3 USD~9.2 USD | 2.3 USD~9.2 USD |
100 MB - 1 GB | 0 | 9.2 USD~13.8 USD | 9.2 USD~13.8 USD |
1~5 GB | 0 | 13.8 USD~18.8 USD | 13.8 USD~18.8 USD |
5~100 GB | 221 USD~276 USD | 18.8 USD~27.5 USD | 240 USD~303.5 USD |
100~500 GB | 276 USD~387 USD | 18.8 USD~27.5 USD | 295 USD~415 USD |
500 GB~1 TB | 387 USD~497 USD | 18.8 USD~27.5 USD | 406 USD~525 USD |
3.2 CV および NLP モデル
SageMaker Canvas は、カスタム NLP および CV モデルのために、2 つのカテゴリ予測と 3 つ以上のカテゴリ予測 (二項およびマルチクラスのテキスト分類と画像分類) をサポートしています。カスタム NLP モデルと CV モデルのトレーニングの料金は、モデルのトレーニングにかかる時間に基づきます。SageMaker トレーニングインスタンスはモデルトレーニングサービスのレンダリングに使用され、SageMaker から直接課金されます。SageMaker Canvas で使用したインスタンスに基づき、トレーニング料金は、トレーニング時間の 1 時間あたり 2.03 USD から 4.89 USD の範囲になります。料金の詳細については、「SageMaker の料金」をご覧ください。
次の表は、640 x 480 ピクセルの画像解像度に基づくカスタム CV モデルトレーニングの見積もり料金を示しています。見積もりは、ml.g4dn.12xlarge の SageMaker インスタンスの料金の 4.89 USD/時間を使用しています。
画像の数 | 見積もり料金 |
100 | 1.62 USD |
250 | 1.63 USD |
500 | 1.65 USD |
1,000 | 1.68 USD |
5,000 | 1.97 USD |
10,000 | 2.33 USD |
50,000 | 5.19 USD |
次の表は、セルあたり平均 240 文字の Unicode 文字に基づく、カスタム NLP モデルトレーニングの見積もり料金を示しています。見積もりは、ml.g4dn.12xlarge の SageMaker インスタンスの料金の 4.89 USD/時間を使用しています。
セルの数 | 見積もり料金 |
100 | 3.01 USD |
500 | 3.11 USD |
1,000 | 3.24 USD |
5,000 | 4.22 USD |
10,000 | 9.98 USD |
50,000 | 15.25 USD |
注: トレーニングの時間と料金は、CV の画像解像度、NLP のシーケンスあたりの文字数、カテゴリの数など、さまざまな要因に基づいて異なる場合があります。
3.3 基盤モデルのファインチューニング
SageMaker Canvas は、特定のユースケースがあり、独自のデータに基づいてモデル応答をカスタマイズしたい場合に、基盤モデル (FM) のファインチューニングをサポートします。Canvas は、SageMaker トレーニングインスタンスを使用して FM をファインチューニングします。Amazon SageMaker でのモデルのファインチューニングに使用されたインスタンス時間に基づいて課金されます。Canvas は、ml.g5.8xlarge、ml.g5.24xlarge、ml.g5.48xlarge などの適切なインスタンスタイプを自動的に選択します。このインスタンスの選択は、それらのリージョンでのインスタンスの可用性に基づいています。詳細については、Amazon SageMaker インスタンスの料金ページをご覧ください。
4.モデル予測料金
SageMaker Canvas では、トレーニング済みのモデルをデプロイして予測を行うために、リアルタイムまたはバッチ推論を実行できます。モデル予測の料金は、推論の種類とデータセットのサイズによって異なります。
リアルタイム推論:
Canvas モデルをリアルタイム推論用にデプロイすると、モデルがホストされた特定の Amazon SageMaker インスタンスタイプの使用量に応じて課金されます。リアルタイム推論の料金は、「Amazon SageMaker Pricing for Hosting: Real-Time Inference」に基づいており、インスタンスの種類と使用期間によって異なります。
バッチ推論:
バッチ予測の場合、料金はモデルの種類とデータセットのサイズによって異なります。データタイプ間のバッチ変換の料金設定の詳細については、以下をご覧ください。
4.1 表形式モデル
最大 5 GB のデータセットに対する数値予測、二項分類、およびマルチクラス分類のカスタム表形式モデルを使用したバッチ予測は、SageMaker Canvas アプリケーション内において、追加料金なしで実行されます。
表形式のデータセットが 5 GB を超える場合、バッチ予測プロセスでは、データ処理に Amazon EMR Serverless が、予測の生成に Amazon SageMaker Batch Transform が活用されます。この場合、データ処理ステップについては EMR Serverless 料金モデルに基づいて、予測生成については SageMaker Batch Tranform 料金に基づいて課金されます。
データサイズ | EMR Serverless の料金の見積もり | SageMaker Batch Tranform インスタンスの料金の見積もり | 見積もり料金の合計 |
0~5 GB | 0 | 0 | 0 USD |
5~100 GB | 13.9 USD~42.3 USD | 14 USD~34 USD | 27.9 USD~76.3 USD |
100~500 GB | 42.3 USD~90.3 USD | 34 USD~91 USD | 76.3 USD~181.3 USD |
500 GB~1 TB | 90.3 USD~181 USD | 91 USD~182 USD | 181.3 USD~363 USD |
4.2 時系列予測モデル
時系列予測モデルでは、単一予測またはバッチ予測のいずれかを生成でき、お客様は。時系列予測を使用した予測では、Amazon SageMaker 非同期推論、Amazon SageMaker バッチ変換、またはその両方に料金が適用されます。
単一予測には、最低 2 時間の SageMaker 非同期推論の料金が適用されます。リージョンによって異なりますが、料金範囲は 1 時間あたり0.408 USD から 0.533 USD です。アイドル状態が 2 時間続くと、課金は自動的に停止します。
バッチ予測の場合、予測の生成にかかる時間に基づいて SageMaker バッチ変換の料金が適用されます。以下の表は、データで観察された時系列の数に基づく推定料金です。
データサイズ | EMR Serverless の料金の見積もり | SageMaker Batch Tranform インスタンスの料金の見積もり | 見積もり料金の合計 |
0~5 GB | 0.5 USD~0.8 USD | 0.75 USD~1.13 USD | 1.25 USD~2.03 USD |
5~100 GB | 0.8 USD~18 USD | 1.13 USD~27 USD | 2.03 USD~45 USD |
100~500 GB | 18 USD~81 USD | 27 USD~137 USD | 45 USD~218 USD |
500 GB~1 TB | 81 USD~160 USD | 137 USD~261 USD | 218 USD~421 USD |
SageMaker の料金の詳細については、「SageMaker の料金」をご覧ください。
4.3 CV および NLP モデル
カスタム CV および NLP モデルの予測料金は、予測の生成にかかる時間に基づきます。SageMaker インスタンスの料金は、予測生成時間の 1 時間あたり 0.408 USD で、モデル予測のレンダリングに使用されます。SageMaker から直接課金されます。料金の詳細については、「SageMaker の料金」をご覧ください。
例えば、解像度が 640 x 480 の 1,000 枚の画像についての予測を生成する場合の見積もり料金は 0.03 USD です。同様に、シーケンスあたり 520 文字の Unicode 文字で構成される 1,000 シーケンスについての予測を生成する場合の見積もり料金は 0.01 USD です。
5.すぐに使用できるモデルの料金
SageMaker Canvas は、Amazon Bedrock および Amazon SageMaker JumpStart の幅広い基盤モデル、および CV および NLP ユースケース向けの Amazon Rekognition、Amazon Comprehend、Amazon Textract の事前トレーニング済みモデルへのアクセスを提供します。
Amazon Bedrock の基盤モデル (FM) を使用したコンテンツの生成、抽出、および要約については、入力トークンと出力トークンの量に基づいて課金されます。詳細については、「Amazon Bedrock の料金」をご覧ください。SageMaker JumpStart の FM は SageMaker インスタンスにデプロイされ、選択したインスタンスタイプの実行期間について課金されます。詳細については、「Amazon SageMaker Pricing for Hosting: Real-Time Inference」をご覧ください。
Amazon Rekognition を利用した、画像内の物体の検出とテキスト検出のリクエストについては、データセット内の画像の数に基づいて課金されます。具体的な料金の詳細については、Amazon Rekognition の料金ページをご覧ください。
Amazon Comprehend を利用した、感情分析、エンティティ抽出、言語検出、個人情報検出のリクエストは 100 文字単位で測定され、データセットのユニット数に従って課金されます。料金の詳細については、「Amazon Comprehend の料金」をご覧ください。
Amazon Textract を利用した、費用分析、ドキュメント分析、および ID ドキュメント分析のリクエストは 1,000 ページ単位で測定され、データセット内のユニット数に基づいて課金されます。料金に関する詳細については、Amazon Textract の料金ページをご覧ください。
Canvas の無料利用枠
Amazon SageMaker Canvas は、2 か月間の無料利用枠を提供します。無料利用枠には、SageMaker Canvas アプリケーションの使用のために、最大 160 時間/月のワークスペースインスタンス (セッション-時間) の使用が含まれています。
すぐに使用できる NLP、CV、および基盤モデルは、Amazon Rekognition、Amazon Comprehend、Amazon Textract、Bedrock によってレンダリングされます。各サービスの無料利用枠の期間と適用範囲は異なります。詳細については、それぞれの AWS のサービスの料金ページ (Amazon Rekognition、Amazon Comprehend、Amazon Textract、Amazon Bedrock) をご覧ください。
料金の例
例 1:
例えば、4 名のアナリストで構成されるチームが SageMaker Canvas を試したいとします。そのうちの1人が、50 MB の入力データセットを使用して、荷物の時間通りの配達を予測する数値予測モデルを構築したとします。SageMaker Canvas は、モデルのトレーニングに 2.9 インスタンス時間の ml.m5.12xlarge タイプを使用しました。このプロセスを通じて、チームでは、各ユーザーごとに 1 週間あたり 10 時間、SageMaker Canvas にログインしています。その時間は、データの探索、データセットの準備、予測の生成に費やされ、各ユーザーごとに 1 か月あたり 40 時間、合計 160 時間の使用となります。月末に発行される請求書は、次のように計算されます。
最大 160 時間/月の無料利用枠でのワークスペースインスタンス (セッション-時間) の料金: 0.00 USD
モデルトレーニングの料金: 2.765 USD/時間 x 2.9 = 7.69 USD (50 MB の入力データセット)
合計: 7.69 USD
例 2:
例えば、無料利用枠を消費した後、チームで SageMaker Canvas のご利用を続けたとします。150 MB の入力日付セットを使用して数値予測モデルを作成します。SageMaker Canvas は、モデルのトレーニングに 10 インスタンス時間の ml.c5.18xlarge インスタンスタイプを使用しました。このプロセスを通じて、チームは SageMaker Canvas にログインし、1 か月に 40 時間を SageMaker Canvas で費やし、データの探索、データセットの結合、予測の実行を行いました。月末に発行される請求書は、次のように計算されます。
ワークスペースインスタンス (セッション-時間) の料金: 1.9 USD x 40 = 76 USD
モデルトレーニングの料金: 3.672 USD/時間 x 11 = 36.72 USD
合計: 112.72 USD
例 3:
無料利用枠を消費した後、画像で製造上の欠陥を検出するカスタム CV 分類モデルを構築し、1,000 枚の画像から構成されるトレーニングデータセットを使用するとします。トレーニング時間は約 21 分で、プライスポイントは 4.89 USD/時間です。このプロセス中、SageMaker Canvas で 4 時間を費やして、トレーニングデータセット内の画像にラベルを付けたり、説明可能性のヒートマップを表示したり、モデルの精度を把握したりします。その後、0.408 USD/時間のプライスポイントで約 12 分かかる予測を実行します。請求額は次のように計算されます。
ワークスペースインスタンス (セッション-時間) の料金: 1.9 USD*4 = 7.60 USD
モデルトレーニングの料金: 4.89 USD/時間 x 21 分 x 1/60 = 1.68 USD
予測: 0.408 USD/時間 x 12 分 x 1/60 = 0.08 USD
合計: 9.36 USD
例 4:
無料利用枠を消費した後、レビューにおけるユーザーの感情を理解するためのカスタム NLP モデルを構築し、6,700 件のレビュー (1 件のレビューあたり平均 120 文字) のトレーニングデータセットを使用し、そのモデルを使用して 1,000 件のレビューに対する予測を生成するとします。トレーニング時間は約 31 分で、プライスポイントは 3.825 USD/時間です。予測を生成する時間は 4.1 分で、プライスポイントは 0.408 USD/時間です。このプロセス中、SageMaker Canvas で 2 時間を費やして、トレーニングデータセット内のレビューにラベルを付けたり、予測結果を表示したりします。請求額は次のように計算されます。
ワークスペースインスタンス (セッション-時間) の料金: 1.9 USD*2 = 3.80 USD
モデルトレーニングの料金: 3.825 USD/時間 x 31 分 x 1/60 = 1.98 USD
予測: 0.408 USD/時間 x 4.1 分 x 1/60 = 0.03 USD
合計: 5.81 USD
例 5:
無料利用枠を消費した後、50 件の ID ドキュメントから情報を抽出したいとします。このプロセス中、SageMaker Canvas で 1.5 時間を費やして、ドキュメントをインポートしたり、結果を表示したりします。請求額は次のように計算されます。
ワークスペースインスタンス (セッション-時間) の料金: 1.9 USD*1.5 = 2.85 USD
すぐに使用できるモデル料金 (Amazon Textract の料金に基づく): 米国西部 (オレゴン) リージョンにおける最初の 100,000 ページについて、ページあたりの料金は 0.025 USD/ページです。料金は 0.025 USD x 50 = 1.25 USD です
合計: 4.10 USD
例 6:
無料利用枠を利用した後、製品需要を予測するためのカスタムの時系列予測モデルを構築したとします。あなたは世界中の50店舗で1,000点の商品を販売している衣料品会社を経営しており、今後12週間の製品需要を予測しています。過去1年間の週次売上と、価格とマーケティング支出という2つの追加属性に関する情報を含む200 MB のデータセットを使用しました。SageMaker Canvas は ml.m5.12xlarge インスタンスタイプの SageMaker トレーニングインスタンスを 3 時間使用してモデルをトレーニングします。モデルが構築されたら、30 分間かけて単一予測による「what-if」分析を行います。この分析では、SageMaker Canvas が 2 時間のアイドル状態になると、SageMaker Canvas が自動的に停止する ml.c5.2xlarge インスタンスで SageMaker 非同期推論を使用します。その後、12 週間の予測期間のバッチ予測を生成します。これには、ml.m5.12xlarge インスタンスで 3 時間の SageMaker バッチ変換が必要です。このプロセス全体を通して、チームは SageMaker Canvas にログインし、その月の間に10時間かけてデータの探索、データセットの結合、予測の実行を行います。月末に発行される請求書は、次のように計算されます。
ワークスペースインスタンス (セッション-時間) の料金: 1.90 USD x 10 = 19 USD
モデルトレーニングの料金: 2.765 USD/時間 x 3時間 = 8.30 USD
単一予測: 0.408 USD x (30 分の使用 + 2 時間のアイドル時間) = 1.02 USD
バッチ予測: 2.765 USD/時間 x 3 時間 = 8.30 USD
合計 = 36.62 USD
例 7
無料利用枠を使い切った後、500 GB の大規模なデータセットを使用して顧客離れを予測するカスタム表形式分類モデルを構築したいとします。データセットには顧客の人口統計学的情報、使用パターン、サブスクリプションの詳細が含まれており、まず Data Wrangler を利用してデータを準備します。ランダムまたは層化抽出法を使用して Data Wrangler でデータセットをインポートする際、SageMaker Canvas は、インタラクティブにデータフローを構築するのに役立つよう、Amazon EMR Serverless を活用して大規模なデータセットをインポートおよびダウンサンプリングします。サンプルがインポートされると、データを視覚化して理解し、データフローにいくつかの変換ステップを追加できます。(AutoML を使用して) モデルビルドをトリガーする準備ができたら、[モデルを作成] をクリックできます。Data Wrangler から SageMaker Canvas モデルビルドフェーズにエクスポートする時点で、データフローはデータセット全体で実行され、EMR Serverless を利用して、フローに追加した変換が適用されます。データ変換とデータのサイズによって、EMR Serveless の実行時間と割り当てられるコンピューティングの量が決まります。その後、処理されたデータセット全体が SageMaker Canvas データセットに保存されます。また、指定したモデル名が「ドラフト」状態で作成され、これを設定してビルド (クイックまたは標準) をトリガーできます。このプロセスでは、データセットをダウンサンプリングし、EMR Serverless の SageMaker Autopilot で必要な追加のデータ準備ステップを実行します。ダウンサンプリングと追加のデータ準備が完了すると、モデルの探索が開始されます。このプロセスは SageMaker インスタンスを使用し、モデルトレーニングに使用されたインスタンス時間に基づいて料金が発生します。正確なインスタンス時間は、データセット内の列の数と列の種類によって異なります。モデルが構築されると、モデルメトリクスを評価し、モデルを比較して、テストデータセットでバッチ予測を生成できます (テスト用のデータセットの 10% が 50 GB であると想定)。バッチ予測プロセスでは、EMR Serverless を利用してデータを小さなバッチに分割してから、SageMaker Batch Transform を利用して予測を生成します。最後に、エンドツーエンドのモデル構築プロセス全体で、チームはおそらく SageMaker Canvas で合計 20 時間を費やし、データの調査、モデルリーダーボードの確認、特徴量の重要性とモデルの説明可能性の分析を行います。月末の請求額は次のように計算されますが、実際の料金は Data Wrangler フローで追加した変換、データセットの特性 (サイズ、列数、列タイプなど) に基づいて異なる場合があることに留意してください。
ワークスペースインスタンス (セッション-時間) の料金: 1.90 USD x 20 = 38 USD
データのインポートとサンプリングの料金: (EMR Serverless) = 3.8 USD
データ処理料金 (EMR Serverless): 時間とコストは選択した変換によって異なります
モデルトレーニングの料金 (ダウンサンプリングのために EMR Serverless、トレーニングのために SageMaker インスタンス): 406 USD
バッチ予測料金 (チャンクのために EMR Serverless、予測のために SageMaker インスタンス): 38 USD
合計: 485.8 USD (選択した変換によって異なるデータ処理料金は考慮していません)