為何選擇 Amazon EC2 UltraClusters?
Amazon Elastic Compute Cloud (Amazon EC2) UltraClusters 可協助您擴展至數千個 GPU 或專門打造的 ML 加速器 (例如 AWS Trainium),以取得超級電腦的隨需存取。它們透過依用量計費用量模型,不需任何設定或維護成本,為機器學習 (ML)、生成式 AI和高效能運算 (HPC) 開發人員將超級運算類別效能的存取大眾化。Amazon EC2 P5 執行個體、Amazon EC2 P4d 執行個體和 Amazon EC2 Trn1 執行個體都部署在 Amazon EC2 UltraClusters 中。
EC2 UltraClusters 由數千個加速 EC2 執行個體組成,共置在指定 AWS 可用區域,並且使用 PB 規模非阻攔式網路中的 Elastic Fabric Adapter (EFA) 網路互連。EC2 UltraClusters 也提供 Amazon FSx for Lustre 的存取,這是建置在最熱門高效能、平行檔案系統上的全受管共用儲存,快速隨需和大規模處理大量資料集,且延遲低於一毫秒。EC2 UltraCluster 為分散式 ML 訓練和緊密連接的 HPC 工作負載提供擴展功能。
Amazon EC2 P5 和 Trn1 執行個體使用第二代 EC2 UltraClusters 架構,該架構提供網路網狀架構,以獲得更少的跨叢集跳轉、更低的延遲和更大的規模。
優勢
功能
高效能聯網
在 EC2 UltraCluster 中部署的 EC2 執行個體與 EFA 網路相互連,以提高分散式訓練工作負載和緊密連接的 HPC 工作負載的效能。P5 執行個體提供高達 3,200 Gbps;Trn1 執行個體提供高達 1,600 Gbps;而 P4d 執行個體提供高達 400 Gbps 的 EFA 網路。EFA 也與 NVIDIA GPUDirect RDMA (P5、P4d) 和 NeuronLink (Trn1) 搭配,在具有作業系統旁路功能的伺服器之間啟用低延遲加速器對加速器通訊。
高效能儲存
EC2 UltraClusters 使用 FSx for Lustre,這是在最熱門高效能平行檔案系統上建置的全受管共用儲存空間。使用 FSx for Lustre,您可以快速隨需和大規模處理大量資料集,並且提供低於一毫秒的延遲。FSx for Lustre 的低延遲和高輸送量特性已針對 EC2 UltraCluster 上的 DL、生成式 AI 和 HPC 工作負載進行最佳化。FSx for Lustre 可持續為 EC2 UltraCluster 中的 GPU 和 ML 加速器饋送資料,加速最嚴苛的工作負載。這些工作負載包括大型語言模型 (LLM) 訓練、生成式 AI 推論、DL、基因體學和財務風險建模。您也可以透過 Amazon Simple Storage Service (Amazon S3) 存取幾乎無限制且具成本效益的儲存空間。
支援的執行個體
找到今天所需的資訊了嗎?
讓我們知道,以便我們改善頁面內容的品質。