Amazon EC2 P4 執行個體

雲端高效能機器學習 (ML) 訓練和 HPC 應用程式

Amazon Elastic Compute Cloud (Amazon EC2) P4d 執行個體在雲端提供高效能機器學習 (ML) 訓練和高效能運算 (HPC) 應用程式。P4d 執行個體採用 NVIDIA A100 Tensor Core GPU,提供領先業界的高輸送量和低延遲聯網。這些執行個體支援 400 Gbps 的執行個體聯網。P4d 執行個體能使訓練機器學習 (ML) 模型的成本降低高達 60%,包括與上一代 P3 和 P3dn 執行個體相較,深度學習模型的效能平均提高 2.5 倍。

P4d 執行個體是部署在稱為 Amazon EC2 UltraClusters 的超大規模叢集,其中包含雲端高效能運算、聯網和儲存功能。每個 EC2 UltraCluster 各為世界最強大之一的超級電腦,協助您執行最複雜的多節點機器學習 (ML) 訓練和分散式 HPC 工作負載。您可以根據機器學習 (ML) 或 HPC 專案的需求,將 EC2 UltraClusters 中的 NVIDIA A100 GPU 輕鬆地從數個擴展為數千個。

研究員、資料科學家和開發人員能使用 P4d 執行個體來訓練機器學習 (ML) 模型,運用於各種使用案例,例如自然語言處理、物體偵測和分類,以及推薦引擎。他們還可將其用於執行 HPC 應用程式,例如製藥探索、地震分析和財務模型。與內部部署系統不同,您可以存取幾乎無限的運算與儲存容量、根據商業需要擴展基礎設施,幾分鐘內啟動多節點機器學習 (ML) 訓練任務或緊密耦合的分散式 HPC 應用程式,且毫無設定或維護成本。

宣佈推出全新的 Amazon EC2 P4d 執行個體 (2:00)

對於 EC2 UltraClusters 有疑問或需要協助嗎?

請求協助 »

立即預留 P4d 執行個體以供日後使用

使用 Amazon EC2 Capacity Blocks for ML,最多可以提前八週輕鬆預留 P4d 執行個體。您可以預留 P4d 執行個體的持續時間為 1 至 14 天,叢集大小為 1 至 64 個執行個體 (512 個 GPU),讓您靈活地執行各種工作負載。

使用 EC2 P4d UltraClusters 的大規模 ML 訓練和 HPC

P4d 執行個體的 EC2 UltraClusters 能將 HPC、聯網和儲存功能結合,成為世界最強大的超級電腦之一。每個 P4d 執行個體的 EC2 UltraCluster 各包含 4,000 餘個最新 NVIDIA A100 GPU、PB 規模的非阻攔式聯網基礎設施,和 Amazon FSx for Lustre 的高輸送量的低延遲儲存。ML 開發人員、研究員或資料科學家都能啟動 EC2 UltraClusters 中的 P4d 執行個體,實施依用量計費的使用模型來取用超級電腦等級的效能,執行其最複雜的多節點機器學習 (ML) 訓練和 HPC 工作負載。

對於 EC2 UltraClusters 若有疑問或需要協助,請求協助

僅於部分 AWS 區域提供。如需支援哪些區域的相關資訊,以及有關 EC2 UltraClusters 的額外資訊,請聯絡我們

優勢

將機器學習 (ML) 訓練時間從幾天縮短到幾分鐘

使用最新一代 NVIDIA A100 Tensor Core GPU,與上一代 P3 執行個體相較,每個 P4d 執行個體平均能提升 2.5 倍的 DL 效能。P4d 執行個體的 EC2 UltraClusters 可供取用超級電腦級的效能,而無須投入前期成本或長期承諾,協助每位開發人員、資料科學家和研究員都能執行最複雜的機器學習 (ML) 和 HPC 工作負載。使用 P4d 執行個體所縮短的訓練時間能提升生產力,協助開發人員能專心執行將機器學習 (ML) 智慧建置成為商業應用程式的核心任務。

高效率執行最複雜的多節點機器學習 (ML) 訓練

使用 P4d 執行個體的 EC2 UltraClusters,開發人員能夠無縫擴展至多達數千個 GPU。高輸送量、低延遲的聯網功能,支援 400 Gbps 執行個體聯網、Elastic Fabric Adapter (EFA) 和 GPUDirect RDMA 技術,利用水平擴展/分散式技術,協助迅速地訓練機器學習 (ML) 模型。EFA 使用 NVIDIA Collective Communications Library (NCCL) 擴展為數千個 GPU,並有 GPUDirect RDMA 技術能啟用 P4d 執行個體之間低延遲的 GPU 與 GPU 通訊。

降低機器學習 (ML) 訓練和 HPC 的基礎設施成本

與 P3 執行個體相較,P4d 執行個體訓練機器學習 (ML) 模型的成本能降低多達 60%。此外,P4d 執行個體能作為 Spot 執行個體購買。Spot 執行個體能善用未使用的 EC2 執行個體容量,大幅降低您的 EC2 成本,比隨需價格節省高達 90% 的費用。因使用 P4d 執行個體能將機器學習 (ML) 訓練成本降低,預算可重新分配,以在商業應用程式中建置更多機器學習 (ML) 智慧。

輕鬆以 AWS 服務開始使用和擴充

AWS Deep Learning AMI (DLAMI) 與 Deep Learning Containers 因為含有所需的 DL 架構程式庫和工具,可在幾分鐘內更輕鬆地部署 P4d DL 環境。您也可更輕鬆地將本身的程式庫和工具加入至這些映像。P4d 執行個體可支援常用機器學習 (ML) 架構,例如 TensorFlow、PyTorch 和 MXNet。此外,主要 AWS 服務可支援 P4d 執行個體的機器學習 (ML)、管理和協同運作,例如 Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS Batch 和 AWS ParallelCluster。

功能

採用 NVIDIA A100 Tensor Core GPU 技術

NVIDIA A100 Tensor Core GPU 可為 ML 和 HPC 提供無人能及的大規模加速。NVIDIA A100 的第三代 Tensor Cores 能加快每一項精準工作負載,加快得到洞察和上市的時間。與上一代 V100 GPU 相較,各個 A100 GPU 提供超過 2.5 倍的運算效能,並附有 40 GB HBM2 (P4d 執行個體) 或 80 GB HBM2e (P4de 執行個體) 的高效能 HBM2 GPU 記憶體。較高 GPU 記憶體特別有利於那些在高解析度資料的大型資料集上訓練的工作負載。NVIDIA A100 GPU 可使用 NVSwitch GPU 的互連輸送量,因此每個 GPU 可以以相同的 600GB/s 雙向輸送量和單躍延遲與同一個執行個體內的每個其他 GPU 通訊。

高效能聯網

P4d 執行個體提供 400 Gbps 聯網功能,以 P4d 執行個體之間、和 P4d 執行個體與儲存服務 (例如 Amazon Simple Storage Service (Amazon S3) 和 FSx for Lustre) 之間的的高輸送量聯網,協助客戶更有效地橫向擴展其分散式工作負載 (例如多節點訓練)。EFA 是 AWS 為協助將機器學習 (ML) 和 HPC 應用程式擴展為數千個 GPU 而設計的自訂網路界面。為進一步降低延遲,EFA 與 NVIDIA GPUDirect RDMA 搭配,以 OS 旁路功能達成伺服器之間低延遲的 GPU 與 GPU 通訊。

高輸送量、低延遲儲存

使用 FSx for Lustre 存取 PB 規模的高輸送量、低延遲儲存空間,或以 Amazon S3 的 400 Gbps 速度存取幾乎無限的經濟實惠儲存空間。對於需要快速存取大型資料集的工作負載,各 P4d 執行個體也包括 8TB 的 NVMe 型 SSD 儲存與每秒 16 GB 的讀取輸送量。

建立在 AWS Nitro System 上

P4d 執行個體建立在 AWS Nitro System 之上,這是一個豐富的建置區塊集合,可將許多傳統的虛擬化功能卸載到專用的硬體和軟體,以提供高效能、高可用性和高安全性,還能降低虛擬化的額外負荷。

客戶案例

Toyota Research Institute (TRI) 創立於 2015 年,致力於為 Toyota 開發自動駕駛、機器人和其他人力擴增技術。

「在 TRI,我們正在努力建設一個人人都能自由移動的未來。上一代 P3 執行個體協助我們將訓練 ML 模型的時間從數日縮短為數小時,現在也期待利用 P4d 執行個體作為更多 GPU 記憶體和更高效的浮點格式,能讓我們的機器學習團隊以還要更快的速度訓練更加複雜的模型。」

TRI 基礎設施工程部技術主管 Mike Garrison

TRI-AD 自動駕駛 (辨識) 總監 Junya Inada 表示,「TRI-AD 正在努力開創美好未來,讓每個人都能享有移動和探索的自由,並且大力發展自適應駕駛和智慧城市的技術,以減少車禍傷亡。透過使用 Amazon EC2 P4d 執行個體,相較於上一代 GPU 執行個體,我們做到現有程式碼絲毫未改之下,將辨識物體的訓練時間縮短 40%。」

TRI-AD 自動駕駛 (識別) 部總監 Junya Inada

「透過採用 Amazon EC2 P4d 執行個體,與上一代 GPU 執行個體相較,我們立即降低了訓練成本,同時也增加進行模型訓練的團隊數目。P4d 的聯網功能提升,允許我們高效擴展至數十個執行個體,因而具備可觀的敏捷性,能迅速優化、重新訓練和部署測試車輛或模擬環境內的模型,以便進一步測試。」

TRI-AD 基礎設施工程部資深總監 Jack Yan

GE Healthcare 是領先全球的醫療技術與數位解決方案創新業者。GE Healthcare 讓臨床醫師透過其 Edison 智慧平台支援的智慧裝置、資料分析、應用程式與服務,更快作出有所本的決定。

「GE Healthcare 為臨床醫師提供工具以協助其彙總資料、對資料套用 AI 和分析,發掘洞察知見,提升病患的結果,提高效率,免於出錯。我們的醫療成像裝置會產成大量資料,需請我們的資料科學家處理。以先前的 GPU 叢集,得花數日時間才能完成複雜 AI 模型 (例如 Progressive GAN) 的訓練,用以模擬和檢視結果。使用新的 P4d 執行個體,能將處理時間從數日縮短為數小時。我們見到映像大小各異的訓練模型有快兩到三倍的速度,同時也提高效能,包括批次大小增加、生產力提高,以及模型開發週期加快。」

GM Healthcare 人工智能部資深副總裁兼總經理 Karley Yoder

HEAVY.AI 是加速分析的先驅。HEAVY.AI 平台受到企業和政府採用,以超越主流分析工具的限制,從資料獲取洞察知見。

「在 HEAVY.AI,我們正在努力打造未來,好讓資料科學與分析融合,以將資料孤島瓦解並且整合。客戶正在利用其中可能包含位置和時間的龐大資料以窺知全貌;透過空間時間資料的精密視覺化,所能了解的不僅只有目前發生的情形,也包括時間與地點。我們的技術讓可以看到森林和樹木。透過使用 Amazon EC2 P4d 執行個體,與上一代 GPU 執行個體相較,我們部署平台的成本大幅降低,因此能夠經濟實惠地擴展大規模資料集。A100 的聯網功能提升,使我們擴展為數十億資料行的效率提高,也讓客戶蒐集洞察資訊的速度更快。」

HEAVY.AI 的美國公部門副總裁 Ray Falcione

Zenotech Ltd 透過使用 HPC Clouds 遞送隨需使用授權模型,加上利用 GPU 可享的極高效能優勢,正在改寫線上工程設計的樣貌。

「Zenotech 正在開發工具,讓工程師能創造出更高效,且對環境友善的產品。我們跨越行業經營,我們的工具也透過大規模模擬提供更高的產品效能洞察力。使用 AWS P4d 執行個體之下,與上一代 GPU 相較,我們的模擬速度快了 3.5 倍。如此一來,我們的解答時間明顯加快,客戶能夠夠快讓設計上市,或是執行比先前保真度更高的模擬。」

Zenotech 董事兼聯合創辦人 Jamil Appa

Aon 是一大全球專業服務公司,提供廣泛的風險、退休與保健解決方案。Aon PathWise 是 GPU 型且可擴展的 HPC 風險管理解決方案,可供保險公司和再保公司、銀行和退休基金用以因應當今的重要挑戰,例如對沖策略測試、規管與經濟預測,和預算編列。 

「PathWise Solutions Group LLC 的產品可讓保險公司、再保險公司和退休基金取用新世代技術以迅速解決現今面臨的重要保險相關挑戰,例如機器學習、對沖策略測試、規管與金融報告、商業規劃與經濟預測,以及新產品開發和定價。透過採用 Amazon EC2 P4d 執行個體,對於大多數困難的計算,我們在單與雙精度的計算速度方面較上一代 GPU 執行個體作出卓越的提升,讓客戶首度能夠執行全新計算範圍和預測。速度是關鍵,並且我們能持續為客戶帶來可觀價值和最新技術,AWS 新執行個體是一大功臣。」

萬比奇,安百思策略與技術集團全球生活解決方案總監

由放射科與 AI 專家組成的 Rad AI 建置能使放射科醫生達到最高生產力的產品,最終使得醫療保健的利用更加普及,並且提升病患的結果。

「Rad AI 以讓世人更易於享有醫療保健,同時提高醫療保健品質作為使命。專精於醫療成像工作流程的 Rad AI 為放射科醫生節省時間、減少過勞,並且提高準確度。我們使用 AI 將放射科工作流程自動化,協助精簡放射科的報告程序。利用新的 EC2 P4d 執行個體,比起前代 P3 執行個體,我們的推論速度加快,並能以快 2.4 倍的速度訓練模型,同時準確度更高。如此一來,可更快、更準確地作出診斷,我們遍布全美的客戶所提供的高品質放射科服務也更擴大服務範圍。」

Rad AI 聯合創辦人 Doktor Gurson

參閱使用案例以進一步了解 »

產品詳細資訊

執行個體大小 vCPU 執行個體記憶體 (GiB) GPU – A100 GPU 記憶體 網路頻寬 (Gbps) GPUDirect RDMA GPU 端對端 執行個體儲存體 (GB) EBS 頻寬 (Gbps) 隨需價格/小時 1 年預留執行個體實際小時費率* 3 年預留執行個體實際小時費率*
p4d.24xlarge 96 1152 8 320 GB
HBM2
400 ENA 和 EFA 600 GB/s NVSwitch 8 x 1000 NVMe SSD 19 32.77 USD 19.22 USD 11.57 USD
p4de.24xlarge (預覽版) 96 1152 8 640 GB
HBM2e
400 ENA 和 EFA 600 GB/s NVSwitch 8 x 1000 NVMe SSD 19 40.96 USD 24.01 USD 14.46 USD
* 所示價格是針對美國東部 (維吉尼亞北部) AWS 區域的 Linux/Unix,四捨五入到最接近的分。如需完整的定價詳細資訊,請參閱 Amazon EC2 定價

P4d 執行個體可在美國東部 (維吉尼亞北部和俄亥俄)、美國西部 (奧勒岡)、亞太區域 (首爾和東京) 和歐洲 (法蘭克福和愛爾蘭) 區域使用。P4de 執行個體可在美國東部 (維吉尼亞北部) 和美國西部 (奧勒岡) 區域使用。

客戶能以隨需執行個體、預留執行個體、Spot 執行個體及專用執行個體或作為 Savings Plan 之部分等形式購買 P4d 和 P4de 執行個體。

開始使用適用於 ML 的 P4d 執行個體

使用 Amazon SageMaker

Amazon SageMaker 是一項全受管服務,可用來建置、訓練和部署機器學習 (ML) 模型。與 P4d 執行個體搭配使用時,客戶可以輕鬆擴展到數十、數百或數千個 GPU,這樣便能更快速地訓練任何規模的模型,無須擔心設定叢集和資料管道。

使用 DLAMI 或深度學習容器

DLAMI 為 ML 從業人員和研究人員提供基礎設施和各種工具,以加速雲端中各種規模的 DL 工作。 Deep Learning Containers 是連同 DL 架構一併預先安裝的 Docker 映像檔,讓您可以略過從頭建置及最佳化環境的複雜流程,更輕鬆地部署自訂 ML 環境。

使用 Amazon EKS 或 Amazon ECS

如果您更喜好透過容器協同運作服務管理自己的容器化工作負載,可以使用 Amazon EKSAmazon ECS 部署 P4d 執行個體。

開始使用適用於 HPC 的 P4d 執行個體

P4d 執行個體是執行工程模擬、運算金融、地震分析、分子建模、基因體、轉譯和其他以 GPU 為基礎的 HPC 工作負載的理想選擇。HPC 應用程式通常需要高速網路效能、快速儲存、大量記憶體、超強運算能力,也可能需要以上所有特點。P4d 執行個體支援 EFA,可讓 HPC 應用程式利用訊息傳遞介面 (MPI) 擴展至數千個 GPU。AWS Batch 和 AWS ParallelCluster 可協助 HPC 開發人員能迅速建置並擴展分散式 HPC 應用程式。

進一步了解 »

部落格和文章

 
作者︰Jeff Barr 
2020 年 11 月 2 日
 
作者:Amr Ragab 
2020 年 11 月 2 日

其他資源

P4d 執行個體的 Amazon EC2 UltraClusters (1:59)
Amazon EC2 P4d 與 P3:自然語言處理 (0:34)
Amazon EC2 P4d 與 P3:語音轉換文字 (0:33)
Amazon EC2 P4d 與 P3:影像分類 (0:37)

AWS 入門

註冊 AWS 帳戶

註冊 AWS 帳戶

立即存取 AWS 免費方案

透過簡單教學了解

利用 10 分鐘教學了解

跟著簡單的教學課程一同探索並學習。

開始在主控台使用 EC2 進行建置

開始在主控台進行建置

運用逐步操作指南開始建置,協助您啟動 AWS 專案