NVIDIA H100 Tensor Core GPU を搭載した Amazon Elastic Compute Cloud (Amazon EC2) P5 インスタンス、および NVIDIA H200 Tensor Core GPU を搭載した P5e インスタンスは、深層学習 (DL) およびハイパフォーマンスコンピューティング (HPC) アプリケーションのために Amazon EC2 で極めて高いパフォーマンスを発揮します。これらは、前世代の GPU ベースの EC2 インスタンスと比較してソリューション開発までの時間を最大で 4 分の 1 に短縮し、ML モデルのトレーニングコストを最大 40% 削減するのに役立ちます。これらのインスタンスは、より速いペースでソリューションをイテレーションし、より迅速に市場に投入するのに役立ちます。P5 および P5e インスタンスは、極めて要求の厳しい生成人工知能 (AI) アプリケーションを強化する、ますます複雑化する大規模言語モデル (LLM) や拡散モデルのトレーニングやデプロイに使用できます。これらのアプリケーションには、質問応答、コード生成、動画と画像の生成、および音声認識が含まれます。また、これらのインスタンスを使用して、医薬品開発、耐震解析、天気予報、財務モデリングなどの要求の厳しい HPC アプリケーションを大規模にデプロイすることもできます。
これらのパフォーマンス改善とコスト削減を実現するため、P5 および P5e インスタンスは、前世代の GPU ベースインスタンスと比較して、2 倍の CPU パフォーマンス、2 倍のシステムメモリ、および 4 倍のローカルストレージで NVIDIA H100 および H200 Tensor Core GPU を補完します。第 2 世代の Elastic Fabric Adapter (EFAv2) を使用した最大 3,200 Gbps のネットワーキングにより、分散型トレーニングや密結合された HPC ワークロードのために、市場をリードするスケールアウト機能を提供します。大規模なコンピューティングを低レイテンシーで実現するために、P5 および P5e インスタンスは、最大 20,000 個の H100 または H200 GPU までのスケールを可能にする Amazon EC2 UltraClusters にデプロイされます。これらは、ペタビット規模のノンブロッキングネットワークで相互接続されています。EC2 UltraClusters の P5 および P5e インスタンスは、合計で最大 20 エクサフロップスのコンピューティング能力 (スーパーコンピュータと同等のパフォーマンス) を提供できます。
将来の使用に備えて P5 インスタンスを今すぐ予約する
Amazon EC2 Capacity Blocks for ML では、P5 または P5e インスタンスを最大 8 週間前まで簡単に予約できます。これらのインスタンスは 1~14 日の期間で 1~64 インスタンス (512 GPU) のクラスターサイズで予約できるため、さまざまなワークロードを柔軟に実行できます。
利点
1,000 億を超えるパラメータモデルを大規模にトレーニングする
P5 および P5e インスタンスは超大規模の生成 AI モデルを大規模にトレーニングでき、前世代の GPU ベースの EC2 インスタンスと比較して、最大 4 倍のパフォーマンスを提供します。
ソリューションを生み出すまでの時間を短縮し、イテレーションを迅速化する
P5 および P5e インスタンスは、トレーニング時間とソリューションを生み出すまでの時間を、数週間からわずか数日に短縮します。これは、より速いペースでイテレーションし、より迅速に市場に投入するのに役立ちます。
DL と HPC インフラストラクチャのコストを削減する
P5 および P5e インスタンスは、前世代の GPU ベースの EC2 インスタンスと比較して、DL トレーニングと HPC インフラストラクチャのコストで最大 40% のコスト削減を提供します。
エクサスケールコンピューティングを利用して分散型トレーニングと HPC を実行する
P5 および P5e インスタンスは、最大 3,200 Gbps の EFAv2 ネットワーキングを提供します。これらのインスタンスは EC2 UltraClusters にデプロイされ、合計 20 エクサフロップスのコンピューティング能力を提供します。
特徴
NVIDIA H100 および H200 Tensor Core GPU
P5 インスタンスは、合計で最大 640 GB の HBM3 GPU メモリを備えた最大 8 個の NVIDIA H100 GPU (インスタンスあたり) を搭載しています。P5e インスタンスは、合計で最大 1,128 GB の HBM3e GPU メモリを備えた最大 8 個の NVIDIA H200 GPU (インスタンスあたり) を搭載しています。両方のインスタンスは、最大 900 GB/秒の NVSwitch GPU インターコネクト (各インスタンスで合計 3.6 TB/秒の二分バンド幅) をサポートしているため、各 GPU は同じインスタンス内の他のすべての GPU とシングルホップレイテンシーで通信できます。
新しいトランスフォーマーエンジンと DPX 命令
NVIDIA H100 および H200 GPU には、FP8 と 16 ビット計算をインテリジェントに管理して動的に選択する新しいトランスフォーマーエンジンが搭載されています。前世代の A100 GPU と比較すると、この機能により、LLM での DL トレーニングがさらに高速化されます。HPC ワークロード向けに、NVIDIA H100 および H200 GPU には、A100 GPU と比較して動的プログラミングアルゴリズムをさらに加速させる新しい DPX 命令が備わっています。
ハイパフォーマンスネットワーク
P5 および P5e インスタンスは、最大 3,200 Gbps の EFAv2 ネットワーキングを提供します。EFAv2 は、分散型トレーニングワークロードにおける集合的な通信パフォーマンスで最大 50% の改善を提供します。また、EFAv2 を NVIDIA GPUDirect RDMA と組み合わせると、オペレーティングシステムバイパスによりサーバー間の低レイテンシーの GPU 間通信も可能になります。
ハイパフォーマンスストレージ
P5 および P5e インスタンスは Amazon FSx for Lustre ファイルシステムをサポートしているため、大規模な DL および HPC ワークロードに必要な数百 GB/秒のスループットと数百万 IOPS でデータにアクセスできます。各 P5 および P5e インスタンスは、最大 30 TB のローカル NVMe SSD ストレージもサポートし、大規模なデータセットへの高速アクセスを実現します。また、Amazon Simple Storage Service (Amazon S3) では、費用対効果の高いストレージを事実上無制限に使用できます。
第 2 世代 EC2 UltraClusters
P5 インスタンスは、第 2 世代 EC2 UltraClusters にデプロイされます。この UltraClusters は、前世代の UltraClusters よりも大規模なスケール、少ないネットワークホップ数 (クラスター全体で)、および低減されたレイテンシーを可能にするネットワークファブリックを提供します。UltraClusters の P5 インスタンスでは、ペタビット規模のネットワークで相互接続された H100 GPU を最大 20,000 個までスケールできるため、合計 20 エクサフロップスのコンピューティング能力が提供されます。
他の AWS サービスとのシームレスな統合
P5 および P5e インスタンスは、AWS Deep Learning AMI (DLAMI) および AWS Deep Learning Container を使用してデプロイできます。これらは、Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS Batch などのマネージドサービスを通じて利用できます。
お客様事例
Anthropic は信頼性が高く、解釈可能で、操作可能な AI システムを構築し、このシステムを通じて商業面だけでなく公共の利益のために価値を創造する多くの機会を提供します。
「Anthropic では、信頼性が高く、解釈可能で、操作可能な AI システムの構築に取り組んでいます。今日の大規模な汎用 AI システムには大きなメリットがある一方で、予測不可能で、信頼性が低く、不透明である可能性もあります。私たちの目標は、これらの問題を進展させ、人々が役立つと考えるシステムを導入することです。私たちの組織は、DL 研究の基盤となるモデルを構築している世界でも数少ない組織の 1 つです。これらのモデルは非常に複雑であるため、こうした最先端のモデルを開発してトレーニングするには、大規模な GPU クラスターに効率的に分散させる必要があります。現在、Amazon EC2 P4 インスタンスを幅広く使用しており、P5 インスタンスのリリースを心待ちにしています。P4d インスタンスに比べてコストパフォーマンス面での大きなメリットがあり、次世代 LLM や関連製品の構築に必要な大規模なスケールで利用できるようになることを期待しています」。
Anthropic、共同創設者、Tom Brown 氏
言語 AI のリーディングパイオニアである Cohere は、すべての開発者と企業が、データのプライバシーと安全性を維持しながら、世界をリードする自然言語処理 (NLP) テクノロジーを備えた素晴らしい製品を構築できるよう支援しています。
「Cohere は、すべての企業が言語 AI の力を利用して、自然で直感的な方法で情報を探索、生成、検索し、それに基づいて行動できるよう支援し、顧客それぞれにとって最適なデータ環境で複数のクラウドプラットフォームにデプロイするという点で業界をリードしています。NVIDIA H100 を搭載した Amazon EC2 P5 インスタンスは、そのコンピューティング能力を Cohere の最先端の LLM 機能や生成系 AI 機能と組み合わせることで、企業がより迅速に創造、成長、拡張を遂げる能力を解放します」。
Cohere、CEO、Aidan Gomez 氏
Hugging Face のミッションは、良質な ML を民主化することです。
「ML のオープンソースコミュニティとして急成長している当社は、現在、NLP、コンピュータービジョン、生物学、強化学習などのプラットフォーム上で、150,000 を超える事前トレーニング済みモデルと 25,000 以上のデータセットを提供しています。LLM と生成系 AI が大幅に進歩した今、私たちは AWS と協働して明日のオープンソースモデルを構築し、提供しています。Amazon SageMaker を介して、Amazon EC2 P5 インスタンスを EFA を使った UltraClusters で大規模に使用し、すべての人への新しい基盤 AI モデルの配信を加速させることを楽しみにしています」。
Hugging Face、CTO 兼共同創設者、Julien Chaumond 氏
製品の詳細
インスタンスサイズ | vCPU | インスタンスメモリ (TiB) | GPU | GPU メモリ | ネットワーク帯域幅 (Gbps) | GPUDirect RDMA | GPU ピアツーピア | インスタンスストレージ (TB) | EBS 帯域幅 (Gbps) |
---|---|---|---|---|---|---|---|---|---|
p5.48xlarge | 192 | 2 | 8 H100 | 640 GB HBM3 |
3,200 Gbps EFA | はい | 900 GB/秒 NVSwitch | 8 x 3.84 NVMe SSD | 80 |
p5e.48xlarge | 192 | 2 | 8 H200 | 1,128 GB HBM3e |
3,200 Gbps EFA | はい | 900 GB/秒 NVSwitch | 8 x 3.84 NVMe SSD | 80 |
ML の開始方法のユースケース
SageMaker の利用
SageMaker は、ML モデルを構築、トレーニング、およびデプロイするためのフルマネージド型サービスです。P5 インスタンスと一緒に使用すると、クラスターやデータパイプラインの設定を気にすることなく、数十、数百、数千の GPU に簡単にスケールし、あらゆる規模でモデルを迅速にトレーニングできます。
DLAMI または Deep Learning Containers を使用する
DLAMI は、その規模を問わず、クラウドで DL を加速するためのインフラストラクチャとツールを、ML の実践者と研究者に提供します。Deep Learning Container は、深層学習フレームワークがプリインストールされた Docker イメージであり、環境の構築と最適化をゼロから行う面倒なプロセスをスキップできるようにして、カスタム ML 環境のデプロイを合理化します。
Amazon EKS または Amazon ECS を使用する
コンテナオーケストレーションサービスを通じて独自のコンテナ化されたワークロードを管理したい場合は、Amazon EKS または Amazon ECS を利用して P5 インスタンスをデプロイできます。
HPC の開始方法のユースケース
P5 インスタンスは、エンジニアリングシミュレーション、金融工学、地震分析、分子モデリング、ゲノミクス、レンダリング、および他の GPU ベースの HPC ワークロードを実行するための理想的なプラットフォームです。HPC アプリケーションでは、通常、高いネットワークパフォーマンス、高速ストレージ、大容量メモリ、高いコンピューティング性能が必要になります。P5 インスタンスは EFAv2 をサポートしています。これにより、Message Passing Interface (MPI) を使用する HPC アプリケーションを数千の GPU にスケールできます。AWS Batch と AWS ParallelCluster により、HPC デベロッパーは分散型 HPC アプリケーションを迅速に構築およびスケールできます。
詳細 »
AWS の開始方法
AWS アカウントにサインアップする
AWS 無料利用枠には、すぐにアクセスできます。
10 分間のチュートリアルで学ぶ
簡単なチュートリアルで学習します。
コンソールで構築を開始する
ステップバイステップガイドに従って構築を開始すれば、AWS プロジェクトを立ち上げることができます。