什麼是 SageMaker HyperPod?
Amazon SageMaker HyperPod 消除了建置和最佳化機器學習 (ML) 基礎設施所涉及的無差異化繁重工作。該服務已預先設定 SageMaker 的分散式訓練程式庫,可自動將訓練工作負載分發至成千上萬個 AI 加速器,因此可平行處理工作負載,從而提高模型效能。SageMaker HyperPod 可透過定期儲存檢查點,來確保您能夠不間斷持續 FM 訓練。發生硬體故障時,它會自動偵測、修復或取代故障執行個體,並從上次儲存的檢查點繼續訓練,無需手動管理此程序。彈性環境可讓您在分散式環境中訓練模型數週或數月,而不會中斷,從而節省高達 40% 的訓練時間。SageMaker HyperPod 還可高度自訂,讓您能夠有效地執行和擴展 FM 工作負載,從大規模訓練到推論,輕鬆地在不同工作負載之間共用運算容量。
SageMaker HyperPod 的優勢
高效能分散式訓練程式庫
使用 SageMaker 的分散式訓練程式庫,您可以平行執行高度可擴展且經濟高效的自訂資料,並對平行深度學習訓練任務建模。SageMaker HyperPod 預先配置了 SageMaker 分散式庫。只需幾行程式碼,您即可在訓練指令碼中啟用資料平行性。SageMaker HyperPod 透過在 AWS GPU 執行個體之間自動分割模型和訓練資料集,讓您更快執行分散式訓練。
工作負載排程和協同運作
SageMaker HyperPod 使用者介面可使用 Slurm 或 Amazon EKS 進行高度自訂。您可以選擇並安裝任何需要的框架或工具。所有叢集都會以您選擇的執行個體類型和數量佈建,並在工作負載間保留供您使用。
自動叢集運作狀態檢查和修復
如果任何執行個體在訓練工作負載期間出現故障,SageMaker HyperPod 會自動偵測並以正常節點替換故障節點。為了偵測硬體故障,SageMaker HyperPod 定期執行一系列 GPU 和網路完整性的運作狀態檢查。
憑藉進階可觀測性提升效能
您可以在 SageMaker HyperPod 中使用建置的 ML 工具,以提升模型效能。例如,Amazon SageMaker 搭配 TensorBoard 可協助您視覺化模型架構來識別和修復聚合問題,藉此來節省開發時間,而 Amazon SageMaker Debugger 則可即時擷取指標和分析訓練任務。與 Amazon CloudWatch Container Insights 整合可提供有關叢集效能、運作狀態和使用率的深入洞察。
可擴展性和最佳化資源使用率
您能夠以一致的 Kubernetes 管理員體驗,來管理和操作 SageMaker HyperPod 叢集。這可讓您高效地執行和擴展 FM 工作負載,從訓練、微調、試驗到推論。您可以輕鬆共用運算容量,並在 Slurm 和 EKS 之間切換不同類型的工作負載。