AWS Inferentia

Amazon EC2 で、深層学習と生成 AI 推論について最低コストで高パフォーマンスを実現

AWS Neuron を利用して、AWS Inferentia チップの使用を開始する

Inferentia を利用すべき理由

AWS Inferentia チップは、深層学習 (DL) および生成 AI 推論アプリケーション向けに、Amazon EC2 で最低コストで高パフォーマンスを実現するために AWS によって設計されています。

第 1 世代の AWS Inferentia チップは、Amazon Elastic Compute Cloud (Amazon EC2) Inf1 インスタンスを強化し、同等の Amazon EC2 インスタンスと比較して、スループットが最大 2.3 倍になるとともに、推論あたりのコストが最大 70% 削減されます。Finch AI、Sprinklr、Money Forward、Amazon Alexa など多くのお客様が Inf1 インスタンスを採用しており、そのパフォーマンスとコスト面でのメリットを実感しています。

AWS Inferentia2 チップは、Inferentia と比較して、最大 4 倍のスループットと最大 10 倍の低レイテンシーを実現します。Inferentia2 ベースの Amazon EC2 Inf2 インスタンスは、大規模言語モデル (LLM) や Latent Diffusion Model など、複雑化の一途をたどるモデルを大規模にデプロイするように最適化されています。Inf2 インスタンスはチップ間の超高速接続を備えた、スケールアウト分散推論をサポートする、Amazon EC2 で最初の推論最適化インスタンスです。Leonardo.ai、Deutsche Telekom、Qualtrics などの多くのお客様が、自社の DL および生成 AI アプリケーションのために Inf2 インスタンスを採用しています。

AWS Neuron SDK は、デベロッパーが AWS Inferentia チップのモデルをデプロイし、AWS Trainium チップでそれらをトレーニングするのに役立ちます。 PyTorch や TensorFlow などの一般的なフレームワークとネイティブに統合するため、既存のコードやワークフローを引き続き使用し、Inferentia チップで実行することができます。

AWS Inferentia の利点

高スループットと低レイテンシーを実現するために最適化済み

第 1 世代の Inferentia チップにはそれぞれ 4 つの第 1 世代 NeuronCore が搭載されており、各 EC2 Inf1 インスタンスには最大 16 個の Inferentia チップが搭載されています。各 Inferentia2 チップには 2 つの第 2 世代 NeuronCore が搭載されており、各 EC2 Inf2 インスタンスには最大 12 個の Inferentia2 チップが搭載されています。各 Inferentia2 チップは、最大 190 テラ浮動小数点演算毎秒 (TFLOPS) の FP16 パフォーマンスをサポートしています。第 1 世代の Inferentia は、チップごとに 8 GB の DDR4 メモリを搭載しており、大容量のオンチップメモリも搭載されています。Inferentia2 では、チップあたり 32 GB の HBM を搭載し、Inferentia に比べて総メモリ量を 4 倍、メモリ帯域幅を 10 倍に拡大しています。

機械学習フレームワークのネイティブサポート

AWS Neuron SDK は、PyTorch や TensorFlow などの一般的な機械学習フレームワークとネイティブに統合されています。AWS Neuron を使用すると、これらのフレームワークを使用して DL モデルを両方の AWS Inferentia チップに最適にデプロイできます。Neuron は、コードの変更を最小限に抑え、ベンダー固有のソリューションと連携するように設計されています。 Neuron は、自然言語処理 (NLP)/理解、言語翻訳、テキスト要約、動画と画像の生成、音声認識、パーソナライゼーション、不正検出などのための推論アプリケーションを Inferentia チップで実行するのに役立ちます。

自動キャストによる幅広いデータ型

第 1 世代の Inferentia は、FP16、BF16、INT8 のデータ型をサポートしています。Inferentia2 では、FP32、TF32、および新しい設定可能な FP8 (cFP8) データ型の追加サポートが新たに提供され、デベロッパーはパフォーマンスと精度を最適化するための柔軟性を高められるようになりました。AWS Neuron は、高精度な FP32 モデルを、精度とパフォーマンスを最適化しながら、低精度なデータ型に自動的にキャストします。オートキャストは、低精度の再トレーニングの必要性を排除することで、市場投入までの時間を短縮します。

最先端の DL 機能

Inferentia2 は、動的な入力サイズと C++ で書かれたカスタム演算子のためのハードウェア最適化を追加しています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式と比較し高いパフォーマンスと精度を実現します。

持続可能性を考慮した構築

Inf2 インスタンスは、同等の Amazon EC2 インスタンスに比べて、1 ワット当たり最大 50% のパフォーマンス向上を実現します。これらとその基盤である Inferentia2 チップが、DL モデルを大規模に実行するために構築されたものだからです。Inf2 インスタンスは、超大規模モデルをデプロイする際に、持続可能性の目標を達成するのに役立ちます。

動画

Amazon の生成 AI インフラストラクチャの舞台裏を見る

AWS Inferentia2 を搭載した Amazon EC2 Inf2 インスタンスの概要

AWS のお客様 4 社が AWS Inferentia を利用して機械学習のコストを削減し、イノベーションを推進した方法

リソース

AWS Inferentia と AWS Trainium を用いた、Amazon SageMaker JumpStart によるコスト最適化された Llama 2 モデルのファインチューニングとデプロイ

ブログを読む

Fine-tune Llama 2 using QLoRA and Deploy it on Amazon SageMaker with AWS Inferentia2

ブログを読む

AWS Inferentia2 で Stable Diffusion のパフォーマンスを最大化し、推論コストを削減する

ブログを読む

Amazon SageMaker 上で AWS Inferentia2 と AWS Trainium を使って、低コストで高性能な生成 AI 推論を実現

ブログを読む

ByteDance が AWS Inferentia の利用により、推論におけるレイテンシーの削減とスループットの向上とともに、最大で 60% のコスト削減を実現

ブログを読む

Amazon Search が AWS Inferentia で ML 推論コストを 85% 削減した方法

ブログを読む

Additional resources

AWS Neuron を使用し、TensorFlow、PyTorch、または MXNet 内から AWS Inferentia の使用を開始する

詳細はこちら

Additional resources

AWS Neuron の機能のロードマップ

詳細はこちら

Additional resources

これらの簡単なチュートリアルを使用して、AWS Inferentia で推論を開始しましょう

詳細はこちら

AWS Inferentia の使用を開始する

コンソールで構築を開始する

サインイン

推論サンプル/チュートリアル (Inf2/Trn1)

詳細はこちら