SageMaker HyperPod とは?
Amazon SageMaker HyperPod は、機械学習 (ML) インフラストラクチャの構築と最適化に伴う差別化につながらない重労働を排除します。1,000 を超える AI アクセラレーターにトレーニングワークロードを自動的に分割する、SageMaker の分散トレーニングライブラリが事前設定されているため、ワークロードを並列処理して、モデルのパフォーマンスを改善できます。SageMaker HyperPod は、チェックポイントを定期的に保存することで、FM トレーニングが中断されないようにします。ハードウェア障害を発生時に自動検知し、障害が発生したインスタンスを修復または交換して、最後に保存されたチェックポイントからトレーニングを再開するため、このプロセスを手動で管理する必要がなくなります。高い回復力を備えた環境では、分散された環境内で、数週間または数か月間にわたって中断なく、モデルのトレーニングを実行できるため、トレーニング時間を最大 40% 短縮できます。SageMaker HyperPod は高度にカスタマイズ可能であるため、ユーザーは FM ワークロードを効率的に実行およびスケールしたり、大規模なトレーニングから推論まで、さまざまなワークロード間でコンピューティングキャパシティを簡単に共有したりできます。
SageMaker ハイパーポッドのメリット
高性能な分散トレーニングライブラリ
SageMaker の分散トレーニングライブラリを使用すると、カスタムデータおよびモデルのスケーラビリティとコスト効率性に優れた並行深層学習トレーニングジョブを実行できます。SageMaker HyperPod には、SageMaker の配布ライブラリがあらかじめ設定されています。わずか数行のコードで、トレーニングスクリプトでデータの並列処理を有効にできます。SageMaker HyperPod では、モデルとトレーニングデータセットを AWS GPU インスタンス間で自動的に分割することで、分散トレーニングをより迅速に実行できます。
スケーラビリティと最適化されたリソース活用
SageMaker HyperPod クラスターは、一貫性のある Kubernetes ベースの管理者エクスペリエンスを用いて管理および運用できます。これにより、トレーニングから、ファインチューニング、実験、および推論まで、FM ワークロードを効率的に実行し、スケールできます。コンピューティングキャパシティを簡単に共有し、異なるタイプのワークロードに合わせて Slurm と EKS を切り替えることができます。
ワークロードのスケジューリングとオーケストレーション
SageMaker HyperPod のユーザーインターフェイスは、Slurm または Amazon EKS を使用して高度にカスタマイズできます。必要なフレームワークやツールを選択してインストールできます。すべてのクラスターは、選択したインスタンスタイプとカウントでプロビジョニングされ、ワークロード全体で使用できるように保持されます。
クラスタのヘルスチェックと自動修復
トレーニングワークロード中にインスタンスに不具合が生じた場合、SageMaker HyperPod は自動的に障害のあるノードを検出し、正常なノードと交換します。障害のあるハードウェアを検出するために、SageMaker HyperPod は定期的に GPU とネットワークの整合性について一連のヘルスチェックを実行します。
パフォーマンス改善のための高度なオブザーバビリティ
SageMaker HyperPod の組み込み ML ツールを使用して、モデルパフォーマンスを向上させることができます。例えば、Amazon SageMaker with TensorBoard はモデルアーキテクチャを可視化し、コンバージェンスの問題を特定および是正することで開発時間を短縮するのをサポートし、Amazon SageMaker Debugger はリアルタイムでメトリクスをキャプチャして、トレーニングジョブのプロファイリングを行います。Amazon CloudWatch Container Insights との統合は、クラスターのパフォーマンス、正常性、および使用状況に関するより深いインサイトを提供します。