Amazon Elastic Compute Cloud (Amazon EC2) Inf2 インスタンスは、深層学習 (DL) 推論専用に構築されています。大規模言語モデル (LLM) やビジョントランスフォーマーなどの生成系人工知能 (AI) モデル向けに、Amazon EC2 で最小のコストで高いパフォーマンスを実現します。Inf2 インスタンスを使用して、テキストの要約、コード生成、ビデオと画像の生成、音声認識、パーソナライズ、不正検出などの推論アプリケーションを実行できます。
Inf2 インスタンスは、第 2 世代の AWS Inferentia チップである AWS Inferentia2 を搭載しています。Inf1 インスタンスと比較し、Inf2 インスタンスは、最大 3 倍のコンピューティングパフォーマンス、最大 4 倍のアクセラレーターメモリ、最大 4 倍のスループット、10 分の 1 以下の低レイテンシーのパフォーマンス向上を実現します。Inf2 インスタンスは Inferentia チップ間の超高速接続を備えた、スケールアウト分散推論をサポートする、Amazon EC2 で最初の推論最適化インスタンスです。Inf2 インスタンス上の複数のチップにわたって、数千億のパラメータを持つモデルを効率的かつコスト効率よくデプロイできるようになりました。
AWS Neuron SDK は、デベロッパーが AWS Inferentia チップのモデルをデプロイし、AWS Trainium チップでそれらをトレーニングするのに役立ちます。PyTorch や TensorFlow などのフレームワークとネイティブに統合されているため、既存のワークフローやアプリケーションコードを引き続き使用し、Inf2 インスタンスを実行することができます。
メリット
100 億以上のパラメーター、および生成系 AI モデルを大規模にデプロイ
Inf2 インスタンスは、Amazon EC2 で初めて大規模な分散推論をサポートした推論最適化インスタンスです。チップ間の超高速接続を使用して、Inf2 インスタンス上の複数の Inferentia チップに数千億のパラメータを持つモデルを効率的にデプロイできるようになりました。
推論コストを大幅に削減しながらパフォーマンスを向上
Inf2 インスタンスは、DL デプロイ向けの Amazon EC2 で、最低コストで優れたパフォーマンスを提供するように設計されています。これらは、Amazon EC2 Inf1 インスタンスよりも最大 4 倍のスループットと 10 分の 1 以下の低レイテンシーを提供します。 Inf2 インスタンスは、他の同等の Amazon EC2 インスタンスに比べて、料金パフォーマンスが最大 40% 向上します。
既存の ML フレームワークとライブラリを使用
AWS Neuron SDK を使用して、Inf2 インスタンスのパフォーマンスを最大限に引き出します。Neuron を使用すると、PyTorch や TensorFlow などの既存のフレームワークを使用して、Hugging Face などの一般的なリポジトリにあるモデルのパフォーマンスをすぐに最適化できます。Neuron は、TorchServe や TensorFlow Serving などのサービングツールとのランタイムインテグレーションをサポートしています。また、組み込みのプロファイルや Neuron-Top などのデバッグツールでパフォーマンスを最適化したり、TensorBoard などの一般的な視覚化ツールに統合したりするのにも役立ちます。
エネルギー効率の高いソリューションで持続可能性の目標を達成
Inf2 インスタンスは、他の同等の Amazon EC2 インスタンスに比べて、ワットあたりのパフォーマンスが最大 50% 向上します。これらのインスタンスと基盤となる Inferentia2 チップは、高度なシリコンプロセスとハードウェアとソフトウェアの最適化を使用して、DL モデルを大規模に実行する際に高いエネルギー効率を実現します。 Inf2 インスタンスは、超大規模モデルをデプロイする際に、持続可能性の目標を達成するのに役立ちます。
特徴
AWS Inferentia2 で最大 2.3 ペタフロップス
Inf2 インスタンスは、合理化された集団通信のために超高速の NeuronLink に接続された最大 12 個の AWS Inferentia2 チップを搭載しています。これらは、最大 2.3 ペタフロップスのコンピューティング、および、Inf1 インスタンスよりも最大 4 倍のスループットと 10 分の1以下の低レイテンシーを提供します。
最大 384 GB の高帯域幅アクセラレーターメモリ
大規模な DL モデルに対応するため、Inf2 インスタンスは最大 384 GB の共有アクセラレーターメモリ (各 Inferentia2 チップで 32 GB HBM、第 1 世代の Inferentia の 4 倍) と総メモリ帯域幅が 9.8 TB/s (第 1 世代の Inferentia の 10 倍) を備えています。
NeuronLink 相互接続
Inferentia2 チップ間の高速通信のために、Inf2 インスタンスは、192 GB/ 秒の NeuronLink 超高速ノンブロッキング相互接続をサポートしています。Inf2 は、この相互接続を提供する唯一の推論最適化インスタンスです。この機能はより高価なトレーニングインスタンスでのみ利用できます。単一のチップに収まらない超大型モデルの場合、データは NeuronLink を使用してチップ間を直接流れ、CPU を完全にバイパスします。NeuronLink により、Inf2 はより高速な分散推論をサポートし、スループットとレイテンシーを向上させます。
自動キャストによる新しいデータタイプに最適化
Inferentia2 は FP32、TF32、BF16、FP16、UINT8、および新しく設定可能な FP8 (CFP8) データタイプをサポートしています。AWS Neuron は、精度とパフォーマンスを最適化しながら、高精度の FP32 および FP16 モデルを取得して、低精度のデータタイプに自動キャストします。自動キャスティングにより、精度の低い再トレーニングが不要になり、より小さなデータタイプでより高性能な推論が可能になるため、市場投入までの時間が短縮されます。
最先端の DL 最適化
速いペースの DL イノベーションをサポートするために、Inf2 インスタンスは、絶えず進化する DL モデルをデプロイするための柔軟性と拡張性を実現するいくつかのイノベーションを備えています。Inf2 インスタンスは、ハードウェアの最適化と動的入力シェイプのソフトウェアサポートを備えています。将来的に新しい演算子をサポートできるようにするため、C++ のカスタム演算子をサポートしています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式と比較し高いパフォーマンスと精度を実現します。
製品の詳細
インスタンスサイズ | Inferentia2 チップ | アクセラレーター メモリ (GB) |
vCPU | メモリ (GiB) |
ローカル ストレージ |
チップ間 相互接続 |
ネットワーク 帯域幅 (Gbps) |
EBS 帯域幅 (Gbps) |
オンデマンドの料金 | 1 年契約リザーブドインスタンス | 3 年契約リザーブドインスタンス |
inf2.xlarge | 1 | 32 | 4 | 16 | EBS のみ | 該当なし | 最大 15 | 最大 10 | 0.76 USD | 0.45 USD | 0.30 USD |
inf2.8xlarge | 1 | 32 | 32 | 128 | EBS のみ | 該当なし | 最大 25 | 10 | 1.97 USD | 1.81 USD | 0.79 USD |
inf2.24xlarge | 6 | 192 | 96 | 384 | EBS のみ | はい | 50 | 30 | 6.49 USD | 3.89 USD | 2.60 USD |
inf2.48xlarge | 12 | 384 | 192 | 768 | EBS のみ | はい | 100 | 60 | 12.98 USD | 7.79 USD | 5.19 USD |
お客様の声
「Leonardo 氏のチームは、生成 AI を活用して、クリエイティブな専門家や愛好家が比類のない品質、スピード、スタイルの一貫性を備えたビジュアルアセットを制作できるようにしています。AWS Inf2 の価格対パフォーマンス AWS Inf2 を利用することで、パフォーマンスを犠牲にすることなくコストを 80% 削減でき、お客様に提供できる価値提案を根本的に変え、最も高度な機能をより手頃な価格で利用できるようになりました。また、当社の成長と規模拡大に伴ってますます重要になる補助 AI サービスのコストと容量の可用性に関する懸念も緩和されます。生成 AI の可能性を広げ続け、ユーザーの創造性と表現力の新時代を実現する上で、これは私たちにとって重要な実現技術です。」
ピート・ワーナー、人工知能責任者、Leonardo.ai 氏
「Runway では、当社の AI Magic Tools スイートにより、ユーザーはこれまでにない方法でコンテンツを生成および編集できます。私たちは常に、AI を活用したコンテンツ制作で可能なことの限界を押し広げています。そして AI モデルが複雑になるにつれて、これらのモデルを大規模に実行するための基盤となるインフラストラクチャのコストが高くなる可能性があります。AWS Inferentia を搭載した Amazon EC2 Inf2 インスタンスとのコラボレーションにより、同等の GPU ベースのインスタンスよりも最大 2 倍のスループットで一部のモデルを実行できるようになりました。この高性能で低コストな推論により、より多くの機能を導入し、より複雑なモデルをデプロイし、最終的に Runway を使用する何百万人ものクリエイターにより良い体験を提供できるようになりました」
Runway、共同創設者兼 CEO、Cristóbal Valenzuela 氏
Qualtrics は、エクスペリエンス管理ソフトウェアを設計および開発しています。
「Qualtrics では、お客様、従業員、ブランド、製品のエクスペリエンスギャップを解消する技術を構築することに重点を置いています。そのために、複雑なマルチタスク、マルチモーダル DL モデルを開発して、テキスト分類、シーケンスのタグ付け、談話分析、キーフレーズ抽出、トピック抽出、クラスタリング、エンドツーエンドの会話理解などの新機能をリリースしています。これらの複雑なモデルをより多くのアプリケーションで活用するにつれ、非構造化データの量は増加し、お客様に最高のエクスペリエンスを提供するためには、Inf2 インスタンスなど、これらの要求に対応できる、より性能の高い推論最適化ソリューションが必要です。新しい Inf2 インスタンスは、レイテンシーを劇的に削減しながら、より高いスループットを達成できるだけでなく、分散推論や拡張された動的入力形状サポートといった機能も導入しており、より大規模で、より複雑なモデルへのデプロイニーズを満たすためのスケーリングに役立つため、とても楽しみです」
Aaron Colak 氏、コア機械学習部門責任者、Qualtrics
Finch Computing は、政府、金融サービス、データインテグレーターのクライアント向けに人工知能アプリケーションを提供する自然言語テクノロジー企業です。
「リアルタイムの自然言語処理に対するお客様のニーズに応えるため、大規模な本番環境のワークロードにスケールする最先端の DL モデルを開発しています。グローバルなデータフィードを処理するために、低レイテンシーのトランザクションを提供し、高いスループットを達成する必要があります。私たちはすでに多くの本番ワークロードを Inf1 インスタンスに移行し、GPU に比べて 80% のコスト削減を達成しました。現在、私たちは、書かれたテキストからより深く、よりインサイトに満ちた意味を導き出す、より大規模で複雑なモデルを開発しています。多くのお客様がこれらのインサイトにリアルタイムでアクセスする必要があります。そして Inf2 インスタンスのパフォーマンスは、Inf1 インスタンスよりも低いレイテンシーと高いスループットを実現するのに役立ちます。Inf2 のパフォーマンス向上と、動的入力サイズのサポートなどの Inf2 の新機能により、私たちはコスト効率を改善し、リアルタイムのカスタマーエクスペリエンスを向上させ、お客様がデータから新しいインサイトを得られるよう支援しています」
Franz Weckesser 氏、チーフアーキテクト、Finch Computing
株式会社マネーフォワードは、オープンでフェアな金融プラットフォームを企業や個人に提供しています。このプラットフォームの一部として、マネーフォワードのグループ企業である株式会社 HiTTO は、カスタマイズされた自然言語処理 (NLP) モデルを使用して企業顧客の多様なニーズに対応する AI チャットボットサービスを提供しています。
「Amazon EC2 Inf1 インスタンスで大規模な AI チャットボットサービスを開始し、同等の GPU ベースのインスタンスと比較して推論レイテンシーを 97% 削減するとともに、コストを削減しました。Amazon EC2 Inf2 インスタンスでの最初のテスト結果で、さらなるパフォーマンスの向上を確認できたことは非常に喜ばしいことです。同じカスタム NLP モデルを使用して、AWS Inf1 と比較して、Inf2 はさらにレイテンシーを 10 倍削減することができました。数十億を超える大規模なパラメーターモデルに移行するにあたり、Inf2 はお客様に優れたエンドツーエンドのユーザーエクスペリエンスを提供し続けることができるという自信を与えてくれます」
株式会社マネーフォワード、CTO、中出匠哉氏
「Fileread.ai では、質問をするのと同じくらい簡単にドキュメントを操作できるソリューションを構築しています。これにより、ユーザーはすべてのドキュメントから探しているものを見つけて、適切な情報をより早く得ることができます。新しい Inf2 EC2 インスタンスに切り替えてから、NLP の推論能力が大幅に向上しました。コスト削減をするだけで、品質を犠牲にすることなくリソースをより効率的に割り当てることができるため、画期的なことでした。推論のレイテンシーが 33% 削減し、スループットが 50% 向上しました。このより速い転向の実現により、お客様に喜ばれています。当社のチームは、古い G5 インスタンスと比較して Inf2 のスピードとパフォーマンスに圧倒されました。これが将来の NLP モデルのデプロイであることは明らかです」
Fileread、CEO、Daniel Hu 氏
「八楽の使命は、人々が言葉の壁を越えてコミュニケーションをとるのに役立つインフラを構築することです。当社の主力製品であるヤラクゼンを使用すると、プロの翻訳者からモノリンガルの個人まで、誰でも自信を持ってテキストや文書を翻訳し、ポストエディットすることができます。このプロセスをサポートするために、翻訳、バイテキストの単語の整列、文章の分割、言語モデリングなど、様々なタスクをカバーする、深層学習モデルに基づいたさまざまな高度なツールを提供しています。Inf1 インスタンスを使用することで、GPU ベースのインスタンスと比較して、推論コストを 50% 以上削減しながら、増え続ける需要を満たすためにサービスをスピードアップすることが可能になりました。現在、次世代の大規模モデルの開発に移行しています。そのためには、低レイテンシーを維持しながら需要を満たすことのできる、Inf2 インスタンスの拡張機能が必要です。Inf2 を使用すると、同様のスループットを維持しながらモデルを 10 倍にスケールアップでき、さらに高いレベルの品質をお客様に提供できるようになります」
八楽、NLP 責任者、Giovanni Giacomo 氏
AWS パートナーの声
「Hugging Face のミッションは、世界中の ML 開発者が実世界の問題を解決できるよう、優れた ML を一般に普及させることです。そのための鍵は、最新かつ最高のモデルを、クラウド内の最高の ML チップで可能な限り高速かつ効率的に実行できるようにすることです。私たちは Inferentia2 が、生成 AI モデルを大規模に展開するための新しい標準方法になる可能性があることに、非常に興奮しています。Inf1 では、従来の GPU ベースのインスタンスと比較し、最大 70% のコスト削減を実現し、Inf2 では、BERT のようなトランスフォーマーのレイテンシーが Inferentia1 と比較して最大 8 倍低くなりました。Inferentia2 により、我々のコミュニティは、このパフォーマンスを 100B 以上のパラメーター規模の LLM や、最新の拡散モデルやコンピュータビジョンモデルにも容易にスケーリングできるようになります」
「PyTorch は、ML 開発者の研究用プロトタイピングから本番環境へのデプロイまでのプロセスを加速しています。私たちは AWS チームと協力して、新しい AWS Inferentia2 搭載の Amazon EC2 Inf2 インスタンスにネイティブ PyTorch サポートを提供してきました。コミュニティで大規模な生成 AI モデルのデプロイを検討するメンバーが増えるにつれ、AWS チームと提携して、チップ間の高速 NeuronLink 接続により Inf2 インスタンスの分散推論を最適化できることを嬉しく思います。Inf2 により、PyTorch を使用する開発者は超大型 LLM やビジョントランスフォーマーモデルを簡単にデプロイできるようになりました。さらに、Inf2 インスタンスは、効率的なデータタイプ、動的形状、カスタム演算子、ハードウェアに最適化された確率的丸めなど、PyTorch 開発者に他の革新的な機能をもたらし、PyTorch コミュニティでの幅広い採用に適しています」
「Weights & Biases (W&B) は、機械学習エンジニアやデータサイエンティストがより良いモデルをより早く構築するための開発者ツールを提供しています。W&B プラットフォームは、基盤となるコンピューティングインフラストラクチャの利用を含め、モデルのパフォーマンスを向上させるためのさまざまなインサイトを ML 実務者に提供します。当社は、AWS チームと協力して、Amazon Trainium と Inferentia2 のサポートをシステムメトリックスダッシュボードに追加しました。これにより、モデルの実験やトレーニングで非常に必要とされる貴重なデータが提供されました。これにより、機械学習の実務者はモデルを最適化して AWS の専用ハードウェアを最大限に活用し、モデルをより迅速かつ低コストでトレーニングできます」
Weights & Biases、製品部門バイスプレジデント、Phil Gurbacki 氏
「OctoML は、DL モデルを高性能ハードウェアで実行するようにパッケージ化することで、開発者がコストを削減し、スケーラブルな AI アプリケーションを構築するのに役立ちます。当社は過去数年間、最高のソフトウェアおよびハードウェアソリューションに関する専門知識を構築し、それらをプラットフォームに統合してきました。当社のチップ設計者およびシステムハッカーとしてのルーツが、AWS Trainium と Inferentia をさらにエキサイティングなものにしています。これらのチップは、クラウド上の AI イノベーションの未来を牽引する重要な要素であると考えています。Inf2 インスタンスの一般公開は、次世代 AI アプリケーションの重要な構成要素として人気の LLM が出現していることから、タイムリーなものとなっています。これらのインスタンスを当社のプラットフォームで利用できるようにすることで、デベロッパーがその高いパフォーマンスとコスト削減のメリットを簡単に活用できるようになることをうれしく思います」
OctoML、CTO 兼共同創設者、Jared Roesch 氏
「LLM、そしてさらに広くエンタープライズレベルの生成系 AI アプリケーションにおける歴史的な課題は、高性能 DL モデルのトレーニングと実行に関連するコストです。AWS Trainium と合わせて、AWS Inferentia2 は、お客様が高性能なトレーニングを必要とする場合に生じる経済的な妥協を排除します。今では、トレーニングと推論のメリットを求めているお客様が、より少ない費用でより良い結果を達成できるようになりました。Trainium と Inferentia は、今日の大企業が抱える最も厳しい DL 要件にも対応できるようにスケールを加速します。大規模な AI ワークロードを実行している Nextira の多くのお客様は、これらの新しいチップセットの恩恵を直接受け、コスト削減とパフォーマンスの効率を高め、市場での成果をより早く得られるようになるでしょう」
Nextira、創設者兼 CEO、Jason Cutrer 氏
Amazon EC2 Inf2 インスタンスを使用した Amazon のサービス
Amazon CodeWhisperer は、統合開発環境 (IDE) で単一行コードまたは完全関数コードの推奨をリアルタイムで生成する AI コーディングコンパニオンで、ソフトウェアをすばやく構築するのに役立ちます。
「CodeWhisperer では、生成系 AI モデルを使用してコードを推奨することで、ソフトウェア開発者の生産性を向上させています。非常に効果的なコード推奨を開発するために、DL ネットワークを数十億のパラメーターにスケーリングしました。お客様は、入力中にリアルタイムで推奨されるコードを必要としています。そのため、応答の低レイテンシー化が不可欠です。大規模な生成系 AI モデルでは、ほんの一瞬で応答時間を達成するために高性能なコンピューティングが必要です。Inf2 では、大規模な入出力シーケンス用に最適化された GPU インスタンスのトレーニングで CodeWhisperer を実行するのと同じレイテンシーを実現しています。そのため、Inf2 インスタンスは、開発者に最高のエクスペリエンスを提供しながら、コストと電力を節約するのに役立っています」
Amazon CodeWhisperer、ゼネラルマネージャー、Doug Seven
Amazon の商品検索エンジンは、何十億もの商品をインデックス化し、毎日何十億ものお客様のクエリに対応しており、世界で最も利用されているサービスの 1 つです。
「Inf2 の一般公開にとても興奮しています。Inf2 の優れたパフォーマンスと、数十億のパラメーターを持つ大規模なモデルを処理する能力が相まって、当社のサービスに最適な選択肢となり、モデルの複雑さと精度の点で新しい可能性を切り開くことができます。Inf2 によって実現される大幅なスピードアップとコスト効率により、Amazon Search のサービスインフラストラクチャに統合することで、お客様からの高まる需要に応えることができます。Inf2 を使った生成系 LLM を使って、新しいショッピングエクスペリエンスを強化するつもりです」
Amazon Search、VP、Trishul Chilimbi
開始方法
Amazon SageMaker の使用
Amazon SageMaker を使用すると、Inf2 インスタンスにモデルをより簡単にデプロイでき、ML モデルをデプロイするコストを大幅に削減し、インフラストラクチャを管理することなくパフォーマンスを向上させることができます。SageMaker はフルマネージドサービスであり、MLOps ツールと統合されています。そのため、モデルのデプロイをスケーリングし、本番環境でモデルをより効果的に管理し、運用上の負担を軽減できます。
AWS Deep Learning AMI の使用
AWS Deep Learning AMI (DLAMI) では、機械学習の専門家と研究者がクラウド上であらゆる規模の深層学習を加速させるためのインフラストラクチャとツールを提供しています。AWS Neuron ドライバーは DLAMI であらかじめ設定されており、DL モデルを Inf2 インスタンスに最適にデプロイできます。
AWS 深層学習コンテナを使用する
フルマネージド Kubernetes サービスである Amazon Elastic Kubernetes Service (Amazon EKS) と、フルマネージドコンテナオーケストレーションサービスである Amazon Elastic Container Service (Amazon ECS) で Inf2 インスタンスをデプロイできるようになりました。Neuron は、AWS 深層学習コンテナにあらかじめインストールされた状態でも利用できます。Inf2 インスタンスでのコンテナ実行の詳細については、Neuron コンテナのチュートリアルを参照してください。
AWS アカウントにサインアップする
AWS 無料利用枠をすぐに利用できます。
10 分間のチュートリアルで学ぶ
簡単なチュートリアルで学びましょう。
コンソールで構築を開始する
お客様の AWS でのプロジェクトを開始するのに役立つステップバイステップガイドを使って構築を開始しましょう。