Inferentia を利用すべき理由
AWS Inferentia アクセラレーターは、深層学習 (DL) および生成 AI 推論アプリケーション向けに、Amazon EC2 で最低コストで高パフォーマンスを実現するために AWS によって設計されています。
第 1 世代の AWS Inferentia アクセラレーターは、Amazon Elastic Compute Cloud (Amazon EC2) Inf1 インスタンスを強化し、同等の Amazon EC2 インスタンスと比較して、スループットが最大 2.3 倍になるとともに、推論あたりのコストが最大 70% 削減されます。Finch AI、Sprinklr、Money Forward、Amazon Alexa など多くのお客様が Inf1 インスタンスを採用しており、そのパフォーマンスとコスト面でのメリットを実感しています。
AWS Inferentia2 アクセラレーターは、Inferentia と比較して、最大 4 倍のスループットと最大 10 倍の低レイテンシーを実現します。Inferentia2 ベースの Amazon EC2 Inf2 インスタンスは、大規模言語モデル (LLM) や Latent Diffusion Model など、複雑化の一途をたどるモデルを大規模にデプロイするように最適化されています。Inf2 インスタンスはアクセラレーター間の超高速接続を備えた、スケールアウト分散推論をサポートする、Amazon EC2 で最初の推論最適化インスタンスです。Leonardo.ai、Deutsche Telekom、Qualtrics などの多くのお客様が、自社の DL および生成 AI アプリケーションのために Inf2 インスタンスを採用しています。
AWS Neuron SDK は、デベロッパーが AWS Inferentia アクセラレーターでモデルをデプロイする (および AWS Trainium アクセラレーターでそれらのモデルをトレーニングする) のに役立ちます。 PyTorch や TensorFlow などの一般的なフレームワークとネイティブに統合するため、既存のコードやワークフローを引き続き使用し、Inferentia アクセラレーターで実行することができます。