Amazon SageMaker HyperPod

將基礎模型訓練時間縮短高達 40%,並有效擴展至上千種 AI 加速器

什麼是 SageMaker HyperPod?

Amazon SageMaker HyperPod 消除了建置和最佳化機器學習 (ML) 基礎設施所涉及的無差異化繁重工作。該服務已預先設定 SageMaker 的分散式訓練程式庫,可自動將訓練工作負載分發至成千上萬個 AI 加速器,因此可平行處理工作負載,從而提高模型效能。SageMaker HyperPod 可透過定期儲存檢查點,來確保您能夠不間斷持續 FM 訓練。發生硬體故障時,它會自動偵測、修復或取代故障執行個體,並從上次儲存的檢查點繼續訓練,無需手動管理此程序。彈性環境可讓您在分散式環境中訓練模型數週或數月,而不會中斷,從而節省高達 40% 的訓練時間。SageMaker HyperPod 還可高度自訂,讓您能夠有效地執行和擴展 FM 工作負載,從大規模訓練到推論,輕鬆地在不同工作負載之間共用運算容量。

SageMaker HyperPod 的優勢

Amazon SageMaker HyperPod 已使用 Amazon SageMaker 分散式訓練程式庫進行預先設定,讓您可在 AWS 叢集執行個體中自動分割模型和訓練資料集,有助您有效率地擴展訓練工作負載。
Amazon SageMaker 分散式訓練程式庫會透過兩種技術來最佳化 AWS 網路基礎架構和叢集拓樸的訓練任務:資料平行化和模型平行化。模型平行性會將由於過大而不適合在單個 GPU 上訓練的模型拆分成較小的多個部分,然後將其分佈到多個 GPU 上進行訓練。資料平行性分割大型資料集以並行訓練,從而提升訓練速度。
SageMaker HyperPod 會透過自動偵測、診斷和復原故障,支援更具彈性的訓練環境,讓您可連續數月不中斷地訓練 FM。

高效能分散式訓練程式庫

使用 SageMaker 的分散式訓練程式庫,您可以平行執行高度可擴展且經濟高效的自訂資料,並對平行深度學習訓練任務建模。SageMaker HyperPod 預先配置了 SageMaker 分散式庫。只需幾行程式碼,您即可在訓練指令碼中啟用資料平行性。SageMaker HyperPod 透過在 AWS GPU 執行個體之間自動分割模型和訓練資料集,讓您更快執行分散式訓練。

進一步了解

工作負載排程和協同運作

SageMaker HyperPod 使用者介面可使用 Slurm 或 Amazon EKS 進行高度自訂。您可以選擇並安裝任何需要的框架或工具。所有叢集都會以您選擇的執行個體類型和數量佈建,並在工作負載間保留供您使用。

自動叢集運作狀態檢查和修復

如果任何執行個體在訓練工作負載期間出現故障,SageMaker HyperPod 會自動偵測並以正常節點替換故障節點。為了偵測硬體故障,SageMaker HyperPod 定期執行一系列 GPU 和網路完整性的運作狀態檢查。 

憑藉進階可觀測性提升效能

您可以在 SageMaker HyperPod 中使用建置的 ML 工具,以提升模型效能。例如,Amazon SageMaker 搭配 TensorBoard 可協助您視覺化模型架構來識別和修復聚合問題,藉此來節省開發時間,而 Amazon SageMaker Debugger 則可即時擷取指標和分析訓練任務。與 Amazon CloudWatch Container Insights 整合可提供有關叢集效能、運作狀態和使用率的深入洞察。 

進一步了解 »

可擴展性和最佳化資源使用率

您能夠以一致的 Kubernetes 管理員體驗,來管理和操作 SageMaker HyperPod 叢集。這可讓您高效地執行和擴展 FM 工作負載,從訓練、微調、試驗到推論。您可以輕鬆共用運算容量,並在 Slurm 和 EKS 之間切換不同類型的工作負載。