Amazon EC2 Trn1 インスタンス

生成系 AI モデルのハイパフォーマンスで費用対効果の高いトレーニング

Amazon EC2 Trn1 インスタンスを使用すべき理由

AWS Trainium チップを搭載した Amazon Elastic Compute Cloud (EC2) Trn1 インスタンスは、大規模言語モデル (LLM) や潜在的 diffusion モデルなどの生成 AI モデルのハイパフォーマンス深層学習 (DL) トレーニング専用に構築されています。Trn1 インスタンスは、他の同等の Amazon EC2 のインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減します。 Trn1 インスタンスを使用して、テキストの要約、コード生成、質問への回答、画像や動画の生成、レコメンデーション、不正検出などの幅広いアプリケーションにわたって 100 億以上のパラメーター DL および生成 AI モデルをトレーニングできます。

AWS Neuron SDK は、デベロッパーが AWS Trainium でモデルをトレーニングする (および AWS Inferentia チップにモデルをデプロイする) のを支援する SDK です。PyTorch や TensorFlow などのフレームワークとネイティブに統合されるため、既存のコードやワークフローを引き続き使用して Trn1 インスタンスでモデルをトレーニングできます。機械学習 (ML) フレームワークやライブラリ、モデルアーキテクチャ、ハードウェア最適化など、現在の Neuron のサポートについては、Neuron ドキュメントをご覧ください。

AWS Trainium を搭載した Amazon EC2 Trn1 インスタンスの紹介

利点

Trn1 インスタンスは、ハイパフォーマンスな DL 専用に構築されており、トレーニング時間を数か月から数週間、あるいは数日に短縮します。トレーニング時間を短縮することで、より迅速な反復学習、より革新的なモデルの構築、そして生産性の向上が可能になります。 Trn1n インスタンスは、ネットワーク帯域幅の増加によるメリットがあるモデルでは、Trn1 インスタンスよりもトレーニングまでの時間が最大 20% 短縮されます。

Trn1 インスタンスは、高性能でありながら、他の同等の Amazon EC2 のインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減することができます。

AWS Neuron SDK を使用して、Trn1 インスタンスのパフォーマンスを最大限に引き出すことができます。Neuron では、PyTorch や TensorFlow などの一般的な ML フレームワークを使用することができ、既存のコードとワークフローを引き続き使用して Trn1 インスタンスでモデルをトレーニングできます。Trn1 インスタンスをすぐに使い始めるには、Neuron のドキュメントにある人気のあるモデル例をご覧ください。

Trn1 インスタンスは、最大 800 Gbps の第二世代 Elastic Fabric Adapter (EFAv2) ネットワーク帯域幅をサポートしています。Trn1n インスタンスは最大 1600 Gbps の EFAv2 ネットワーク帯域幅をサポートし、ネットワーク集約型モデルのパフォーマンスをさらに高めます。両方のインスタンスは EC2 UltraClusters にデプロイされ、最大 30,000 個の Trainium チップをスケールアップすることが可能で、ノンブロッキングのペタビット級ネットワークで相互接続され、6 エクサフロップスのコンピューティングパフォーマンスを提供します。

特徴

Trn1 インスタンスは、DL トレーニングを加速し、最大 3 ペタフロップスの FP16/BF16 コンピューティングパワーを実現するために特別に設計された、最大 16 個の AWS Trainium チップを搭載しています。各チップには 2 つの第 2 世代 NeuronCore が搭載されています。

データとモデルの効率的な並列処理をサポートするために、各 Trn1 インスタンスには 512 GB の共有アクセラレータメモリ (HBM) があり、総メモリ帯域幅は 9.8 TB/秒です。

エキスパートミックス (MoE) や生成系トレーニング済みトランスフォーマー (GPT) などのネットワーク集約型モデルのトレーニングをサポートするために、各 Trn1n インスタンスは最大 1600 Gbps の EFAv2 ネットワーク帯域幅を提供します。各 Trn1 インスタンスは、最大 800 Gbps の EFAv2 帯域幅をサポートしています。 EFAv2 は、第 1 世代の EFA に比べて集団通信のパフォーマンスが最大 50% 向上し、分散型トレーニングをスピードアップします。また、これらのインスタンスは、最大 80 Gbps の Amazon Elastic Block Store (EBS) 帯域幅と、最大 8 TB のローカル NVMe ソリッドステートドライブ (SSD) ストレージをサポートし、大規模データセットへの高速ワークロードアクセスを可能にします。

Trainium チップ間の高速接続と効率的な集団通信のため、Trn1 インスタンスは最大 768 GB/秒の NeuronLink をサポートしています。これは高速でノンブロッキングな相互接続です。

精度の目標を達成しながら高いパフォーマンスを実現するために、Trn1 インスタンスは FP32、TF32、BF16、FP16、UINT8、および新しい設定可能な FP8 (CFP8) データタイプに最適化されています。速いペースの DL イノベーションと生成系 AI をサポートするために、Trn1 インスタンスには、絶えず進化する DL モデルをトレーニングするための柔軟性と拡張性を実現するいくつかのイノベーションが導入されています。Trn1 インスタンスには、ハードウェアの最適化と動的入力シェイプのソフトウェアサポートがあります。将来的に新しい演算子をサポートできるようにするため、C++ のカスタム演算子をサポートしています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式と比較し高いパフォーマンスと精度を実現します。

お客様とパートナーの声

お客様とパートナーが Amazon EC2 Trn1 インスタンスを使用してビジネス目標を達成した例をいくつかご紹介します。

  • Databricks

    コムキャスト、コンデナストをはじめ、フォーチュン 500 企業の 50% 以上を含む世界中の 10,000 を超える組織が、データ、分析、AI の統合に Databricks を活用しています。

    何千ものお客様が AWS に Databricks を実装しており、MosaicML を使用してさまざまなユースケースの基礎モデルに事前トレーニングとファインチューニングを施し、提供できるようになりました。AWS Trainium は、Mosaic MPT モデルのトレーニングに必要なスケールと高いパフォーマンスを低コストで提供してくれます。次世代の Mosaic MPT モデルをトレーニングする中で、Trainium2 はモデルをさらに高速に構築できるようにし、これまでにない規模とパフォーマンスをお客様に提供できるようになり、お客様が独自の生成 AI アプリケーションをより迅速に市場に投入できるようになります。

    データブリックス生成 AI 担当副社長、Naveen Rao 氏
  • Stockmark Co., Ltd

    ストックマークは、「価値創造の仕組みを再発明し、人間性を高める」という使命のもと、最先端の自然言語処理技術を提供することで、多くの企業が革新的なビジネスを創造し、構築できるよう支援しています。

    AWS Trainium チップを搭載した Amazon EC2 Trn1 インスタンスの 16 ノードを使用して、Stockmark-13b を開発してリリースしました。Stockmark-13b は、日本の 2200 億トークンのコーパスでゼロから事前にトレーニングされた、130 億のパラメータを持つ大規模な言語モデルです。コーパスには、2023 年 9 月までの最新のビジネスドメインテキストが含まれています。このモデルは、JGLUE (日本語一般言語理解評価) ベンチマークで、他の同等のモデルと比較して最高の JSQuAD スコア(0.813)を達成しました。Hugging Face Hub で入手でき、MIT ライセンスがあれば商用利用も可能です。Trn1 インスタンスにより、同等の GPU インスタンスと比較してトレーニングコストを 20% 削減できました。

    ストックマーク株式会社 CTO、有馬耕介氏
  • RICOH

    RICOH は、企業間の情報の流れを管理および最適化するように設計されたワークプレイスソリューションとデジタルトランスフォーメーションサービスを提供しています。

    Trn1 インスタンスへの移行は非常に簡単で、13B パラメータモデルのトレーニングはわずか 8 日で完了することができました。この成功を踏まえて、Trainium での 70B パラメータモデルの開発とトレーニングを楽しみにしています。また、これらのインスタンスにより、モデルのトレーニングをより迅速かつ費用対効果の高い方法で行うことができる可能性に期待しています。

    RICOH デジタル技術開発センター所長、梅津良昭
  • HeliXon

    HeliXon では、タンパク質ベースの治療薬に対する次世代 AI ソリューションを構築しています。私たちは、タンパク質の機能と相互作用を解読し、大規模なゲノムデータセットを照会してターゲットを特定し、抗体や細胞治療などの治療法を設計する科学者を支援する AI ツールを開発することを目指しています。現在、私たちは FSDP のような学習分散ライブラリを使用して、多数の GPU ベースのサーバーでモデルトレーニングを並列化していますが、それでも 1 つのモデルをトレーニングするのに数週間かかっています。AWS で利用可能な最高のネットワーク帯域幅 (800 Gbps) を特徴とする Amazon EC2 Trn1 インスタンスを活用して、分散トレーニングジョブのパフォーマンスを向上させ、モデルトレーニング時間を短縮すると共に、トレーニングコストを削減できることに興奮しています。

    Helixon、CEO、Jian Peng 氏
  • Money Forward, Inc.

    マネーフォワード社は、オープンでフェアな金融プラットフォームで、企業や個人にサービスを提供しています。

    Amazon EC2 Inf1 インスタンスで大規模な AI チャットボットサービスを開始し、同等の GPU ベースのインスタンスと比較して推論レイテンシーを 97% 低減するとともに、コストを削減できました。カスタマイズされた NLP モデルを定期的に微調整し続けるため、モデルトレーニングの時間とコストを削減することも重要です。Inf1 インスタンスでの推論ワークロードの移行に成功した経験と、AWS Trainium ベースの Amazon EC2 Trn1 インスタンスでの初期作業に基づいて、私たちは Trn1 インスタンスがエンドツーエンドの機械学習パフォーマンスとコストを改善する上でさらなる価値を提供することを期待しています。

    株式会社マネーフォワード、CTO、中出匠哉氏
  • Magic

    Magic は、世界をより生産的にするために、同僚のように感じられる AI を開発する統合製品および研究会社です。

    大規模な自己回帰 Transformer ベースモデルのトレーニングは、私たちの仕事の不可欠な要素です。AWS Trainium 搭載の Trn1 インスタンスは、これらのワークロードに特化して設計されており、無限に近いスケーラビリティ、高速なノード間ネットワーク、16 ビットおよび 8 ビットデータ型への高度なサポートを提供します。Trn1 インスタンスにより、大規模なモデルをより速く、より低コストでトレーニングできるようになります。Trainium の BF16 確率的な丸め処理のネイティブサポートは、私たちに特に大きな興奮を与えます。数値的精度とフル精度との区別なく、パフォーマンスを向上させます。

    Magic、共同創業者兼 CEO、Eric Steinberger 氏
  • Cactus Communications

    CACTUS は、研究者や組織向けに、研究の資金調達、公開、通信、発見の方法を改善する、一連の製品とソリューションを提供しています。

    Cactus Labs では、自然言語処理、ランキングとレコメンデーション、会話型 AI、大規模言語モデル、コンピュータビジョン、AR/VR、および XAI に焦点を当てた研究で、AI のパワーを利用しています。機械学習モデルの高速なトレーニングを可能にし、研究者がインフラストラクチャコストを管理しながら、より多くの実験を行えるようにするという私たちの探求に沿って、AWS Trainium を評価できたことを嬉しく思っています。XLA 最適化、マルチワーカーデータ並列トレーニング、グラフキャッシュなどの AWS Trainium のすぐに使える機能は、トレーニング時間を短縮し、より速く、より安く、より多くの実験を行うために非常に役立っています。

    Cactus Communications、CTO および新製品責任者、Nishchay Shah 氏
  • Watashiha

    わたしはは、ユーモアを取り入れて、質問に対してその場で面白い答えを出す、革新的でインタラクティブな AI チャットボットサービス「OGIRI AI」を提供しています。

    私たちは、大規模言語モデルを使ってユーモアを取り入れ、AI サービスで適切な言葉を使って会話をはずませる体験をお客様に提供しています。そのためには、これらのモデルを頻繁に事前トレーニングして微調整する必要があります。私たちはテンソルとデータの並列処理を活用し、EC2 Trn1.32xlarge インスタンスで GPT ベースの日本語モデルを事前にトレーニングしました。トレーニングは 28 日以内に完了し、以前の GPU ベースのインフラストラクチャよりもコストは 33% 削減しました。モデルは急速に複雑化していくので、Trn1 の 2 倍のネットワーク帯域幅を持つ Trn1n インスタンスが大規模なモデルのトレーニングをスピードアップしてできるようになることを期待しています。

    株式会社わたしは、最高技術責任者、Yohei Kobashi 氏
  • PyTorch

    PyTorch では、機械学習を研究のプロトタイピングから顧客向けの生産準備へと加速させています。私たちは、AWS チームと広範囲なコラボレーションを行い、深層学習モデルのトレーニング専用に構築された新しい AWS Trainium 搭載の Amazon EC2 Trn1 インスタンスに PyTorch のネイティブサポートを提供しています。PyTorch モデルを構築するデベロッパーは、最小限のコード変更で Trn1 インスタンスでのトレーニングを開始することができます。さらに、OpenXLA コミュニティと協力し、GPU ベースのインスタンスから Trn1 インスタンスへのモデル移行を容易にする PyTorch 分散ライブラリを実現しました。より効率的なデータ型、ダイナミックシェイプ、カスタム演算子、ハードウェア最適化型の確率的な丸め処理、イーガーデバッグモードなど、Trn1 インスタンスが PyTorch コミュニティにもたらす革新に興奮しています。これらのことから、Trn1 は PyTorch のデベロッパーが広く採用するのに適しており、今後、トレーニング性能をさらに最適化するために PyTorch に共同で貢献することを期待しています。

    PyTorch、応用 AI、エンジニアリングマネージャー、Geeta Chauhan 氏
  • Hugging Face

    Hugging Face のミッションは、世界中の ML デベロッパーが実世界の問題を解決できるよう、優れた ML を民主化することです。そのための鍵は、最新かつ最高のモデルを、クラウド内の最高の ML チップで可能な限り高速かつ効率的に実行できるようにすることです。私たちは Inferentia2 が、生成 AI モデルを大規模に展開するための新しい標準方法になる可能性があることに、非常に興奮しています。Inf1 では、従来の GPU ベースのインスタンスよりも最大 70% のコスト削減を実現し、Inf2 では、BERT のようなトランスフォーマーのレイテンシーが Inferentia1 と比較して最大 8 倍低くなりました。Inferentia2 により、私たちのコミュニティは、このパフォーマンスを 100B 以上のパラメータ規模の LLM や、最新の拡散モデルやコンピュータビジョンモデルにも容易にスケールできるようになるでしょう。

  • Amazon

    私たちは、顧客のショッピング体験を向上させるため、マルチモーダル (テキスト + 画像)、多言語、マルチロケールかつ、複数のタスクで事前トレーニング済みの、複数のエンティティ (製品、クエリ、ブランド、レビューなど) にまたがる大規模言語モデル (LLM) をトレーニングしています。Trn1 インスタンスは、他の加速機械学習ソリューションと比較して最高のパフォーマンス/ワットを提供することで、LLM をトレーニングするためのより持続可能な方法を提供し、低コストで高いパフォーマンスを実現します。今後は、新しい設定可能な FP8 データタイプや、ハードウェア加速型の確率的な丸め処理などを検討し、トレーニング効率と開発速度をさらに高めていく予定です。

    Amazon Search、VP、Trishul Chilimbi

開始方法

Amazon SageMaker を使用すれば、Trn1 インスタンスで簡単にモデルをトレーニングすることができます。インフラストラクチャを管理することなく、機械学習モデルのトレーニングとチューニングにかかる時間とコストを大幅に削減します。SageMaker を使用すると、内蔵のツールを使用して、トレーニング実験の管理と追跡、最適なハイパーパラメータの自動選択、トレーニングジョブのデバッグ、およびシステムリソースの使用のモニタリングを行うことができます。

AWS Deep Learning AMI (DLAMI) では、深層学習 (DL) の専門家と研究者にあらゆる規模の AWS での DL を加速させるためのインフラストラクチャとツールを提供しています。AWS Neuron ドライバーは、DLAMI にあらかじめ設定されており、Trn1 インスタンスで DL モデルを最適にトレーニングすることができます。

フルマネージド Kubernetes サービスである Amazon Elastic Kubernetes Service (EKS) と、フルマネージドコンテナオーケストレーションサービスである Amazon Elastic Container Service (ECS) で Trn1 インスタンスをデプロイできるようになりました。また、Neuron は AWS Deep Learning Containers に事前インストールされており、使用可能です。Trn1 インスタンスでのコンテナ実行の詳細については、Neuron コンテナチュートリアルを参照してください。

製品の詳細

インスタンスサイズ Trainium チップ
アクセラレーター
メモリ
(GB)
vCPU インスタンス
メモリ
(GiB)
ローカル
NVMe
ストレージ
(TB)
ネットワーク
帯域幅
(Gbps)
EFA と
RDMA
サポート
EBS
帯域幅
(Gbps)
オンデマンド
時間あたりの料金
1 年
リザーブド
インスタンス
有効
毎時*
3 年
リザーブド
インスタンス
有効
毎時*
trn1.2xlarge 1 32 8 32 0.5 最大 12.5 最大 20 1.34 USD 0.79 USD 0.4744 USD
trn1.32xlarge 16 512 128 512 8 800 80 21.50 USD 12.60 USD 7.59 USD

trn1n.32xlarge

16 512 128 512 8 1600 はい 80 24.78 USD 14.52 USD 8.59 USD