Amazon EC2 P3 執行個體提供雲端環境的高效能運算技術,配備高達 8 個 NVIDIA® V100 Tensor 核心 GPU 和 100 Gbps 的網路輸送量,能支援機器學習和 HPC 應用程式。每個執行個體可提供高達 1 petaflop 的混合精度,能大幅加快機器學習和高效能運算應用的速度。經證實,Amazon EC2 P3 執行個體可將機器學習訓練時間從數天縮短至數分鐘,並使高效能運算執行模擬的次數提升 3-4 倍。
Amazon EC2 P3dn.24xlarge 執行個體為目前最新推出的 P3 系列執行個體,網路頻寬較 P3.16xlarge 執行個體提升 4 倍,可讓分散式機器學習和 HPC 應用程式得到最佳化的使用效能。這些執行個體可提供高達 100 Gbps 的聯網輸送量,並搭載 96 個客製化 Intel Xeon 可擴充處理器 (Skylake) vCPU、8 個 NVIDIA® Tesla® V100 核心 GPU、32 GiB 記憶體,以及 1.8 TB 容量的本機 NVMe 型 SSD 儲存空間。P3dn.24xlarge 執行個體還支援 Elastic Fabric Adapter (EFA),可加速使用 NVIDIA Collective Communications Library (NCCL) 的分散式機器學習應用程式。EFA 可擴展至數千個 GPU,顯著提高深度學習培訓模型的輸送量和擴展能力,從而更快獲致結果。
優勢
將機器學習的訓練時間從幾天縮短到幾分鐘
對於需要加速 ML 應用的資料科學家、研究人員和開發人員而言,Amazon EC2 P3 執行個體是能夠在雲端中完成 ML 訓練的最快選擇。Amazon EC2 P3 執行個體擁有高達 8 個最新一代 NVIDIA V100 Tensor 核心 GPU,並可提供高達 1 petaflop 的混合精度效能,能大幅加快 ML 工作負載的速度。快速的模型訓練能讓資料科學家和機器學習工程師更快速地重複利用、訓練更多模型,以及提高準確性。
業界最具成本效益的 ML 訓練解決方案
最強大的雲端 GPU 執行個體,結合靈活的定價計劃,可提供極具成本效益的機器學習訓練解決方案。如同 Amazon EC2 執行個體,P3 執行個體可用隨需、預留或 Spot 執行個體形式提供。Spot 執行個體能善用未使用的 EC2 執行個體容量,大幅降低您的 Amazon EC2 成本,比隨需價格節省高達 70% 的費用。
靈活且強大的高效能運算
與現場部署系統不同,Amazon EC2 P3 執行個體上執行的高效能運算,可提供幾乎無限的容量來擴展您的基礎設施,還能根據工作負載需求的變化,輕鬆靈活地調動資源。您可以設定資源以滿足應用程式的需求,並在幾分鐘內啟動 HPC 叢集,而且只需按使用量付費。
立即開始建置
使用預先封裝的 Docker 映像檔,在幾分鐘內完成部署深度學習環境。這些映像檔包含所需的深度學習架構程式庫 (目前是 TensorFlow 和 Apache MXNet) 和工具,並且經過徹底測試。您可以輕鬆在這些映像檔之上加入自己的程式庫和工具,以便對監控、合規和資料處理有更高的控制權。Amazon EC2 P3 執行個體可與 Amazon SageMaker 緊密搭配使用,提供功能強大且直覺式的完整機器學習平台。Amazon SageMaker 是一個全受管的機器學習平台,可讓您快速輕鬆地建立、訓練以及部署機器學習模型。此外,Amazon EC2 P3 執行個體可與 AWS 深度學習 Amazon 機器映像 (AMI),這些執行個體已預先安裝在流行的深度學習架構中進行整合。這可讓您更快且輕鬆地開始進行機器學習訓練和推論。
可擴展的多節點機器學習訓練
您可以使用具有高達 100 Gbps 網路傳輸量的多個 Amazon EC2 P3 執行個體來快速訓練機器學習模型。更高的網路輸送量讓開發人員能夠移除資料傳輸瓶頸,並在多個 P3 執行個體中有效地擴展模型訓練工作。客戶只需 18 分鐘就能使用 16 個 P3 執行個體,將常見影像分類模型 ResNet-50 訓練到業界標準準確度。此等級的效能之前絕大多數機器學習客戶都無法達到,因為它需要大量的資本支出投資才能建立內部部署 GPU 叢集。但隨著採用 P3 執行個體及隨需用量模型的可用性,現在所有開發人員和機器學習工程師均可實現令人驚豔的效能優點。此外,P3dn.24xlarge 執行個體支援 Elastic Fabric Adapter (EFA),可利用 NVIDIA Collective Communications Library (NCCL) 擴展至數千個 GPU。
支援所有主要的機器學習架構
Amazon EC2 P3 執行個體支援所有主要的機器學習架構,包括 TensorFlow、PyTorch、Apache MXNet、Caffe、Caffe2、Microsoft Cognitive Toolkit (CNTK)、Chainer、Theano、Keras、Gluon 以及 Torch。您可以靈活選擇最適合您應用需求的架構。
客戶案例
Airbnb 使用機器學習來優化搜尋建議,並為旅館老闆改進動態定價指南,這兩方面都可以轉化為更高的訂房轉換率。使用 Amazon EC2 P3 執行個體,Airbnb 有能力更快地執行訓練工作負載、更常重複使用、建立更好機器學習模型並降低成本。
Celgene 是一家全球生物技術公司,正在開發與患者相匹配治療的針對性療法。該公司在 Amazon EC2 P3 執行個體上執行其 HPC 工作負載,用於新一代基因組測序和化學模擬。憑藉此計算能力,Celgene 可以訓練深度學習模型,以區分惡性細胞和良性細胞。在使用 P3 執行個體之前,執行大規模的計算工作需要兩個月,現在只需四個小時。AWS 技術讓 Celgene 能夠加快針對癌症和炎性疾病卡發藥物治療。
Hyperconnect 專注於將以機器學習為基礎的新技術運用於圖像和影片處理,並且是第一家開發用於行動平台 webRTC 的公司。
「Hyperconnect 在其視頻通信應用程序上使用基於 AI 的圖像分類來識別用戶所在的當前環境。我們透過使用 Horovod 從內部部署工作站移轉至多個 Amazon EC2 P3 執行個體,將 ML 模型訓練時間從一周以上縮短至少於一天。透過將 PyTorch 作為我們的機器學習框架,我們能夠快速開發模型並利用來自開放原始碼社群的庫。」
Sungjoo Ha – 實驗室主任 – Hyperconnect AI
NerdWallet 是一家個人金融新創公司,提供的工具和建議使客戶可以輕鬆償還債務、選擇最佳的金融產品和服務,並實現主要的人生目標,如購房或退休儲蓄。該公司高度依賴資料科學和機器學習 (ML) 來將客戶與個人化金融產品聯繫起來。
使用 Amazon SageMaker 和具有 NVIDIA V100 Tensor Core GPU 的 Amazon EC2 P3 執行個體,還提高了 NerdWallet 的靈活性和效能,並減少了資料科學家訓練 ML 模型所需的時間。「過去,我們要花幾個月的時間才能推出並迭代模型;現在只需要幾天。」
Ryan Kirkman – 高級工程經理 – NerdWallet
Amazon EC2 P3 執行個體和 Amazon SageMaker
訓練和執行機器學習模型最快的方法
Amazon SageMaker 是一種全受管服務,可用來建立、訓練和部署機器學習模型。與 Amazon EC2 P3 執行個體搭配使用時,客戶可以輕鬆擴展到數十、數百或數千個 GPU,這樣便能更快速地訓練任何規模的模型,無須擔心設定叢集和資料管道。您也可以輕鬆地在 Amazon SageMaker 中存取用於訓練和託管工作流程的 Amazon Virtual Private Cloud (Amazon VPC) 資源。藉由這項功能,您可以使用只能透過 VPC 存取的 Amazon Simple Storage Service (Amazon S3) 儲存貯體來存放訓練資料,以及存放和託管源於訓練程序的模型成品。除了 S3 之外,模型還可以存取 VPC 內包含的所有其他 AWS 資源。進一步了解。
建立
Amazon SageMaker 可讓您輕鬆建立機器學習模型並準備進行培訓。它提供您快速連接到訓練數據,以及為應用程序選擇和最佳化最佳算法和框架所需的一切。Amazon SageMaker 包含託管型 Jupyter 筆記本,方便您探索及視覺化存放在 Amazon S3 的訓練資料。 您也可以使用筆記本執行個體編寫程式碼來建立模型訓練任務、將模型部署到 Amazon SageMaker 託管,以及測試或驗證模型。
訓練
您只要在主控台按一下滑鼠或者使用簡單的 API 呼叫就能開始訓練您的模型。Amazon SageMaker 已預先設定最新版本的 TensorFlow 和 Apache MXNet,並提供 CUDA9 程式庫支援以優化 NVIDIA GPU 效能。此外,超參數優化可以聰明地調整模型參數的不同組合,這樣便能自動調整模型,從而快速取得最準確的預測結果。對於較大規模的需求,您可以擴展到數十個執行個體以更快地建立模型。
部署
訓練結束後,您可使用一鍵式部署,跨多個可用區域將模型部署到自動調整規模 Amazon EC2 執行個體。一旦投入生產,Amazon SageMaker 會使用內建的 Amazon CloudWatch 監控和記錄功能代您管理運算基礎設施,以執行運作狀態檢查、套用安全性修補程式,以及執行其他例行維護。
Amazon EC2 P3 執行個體和 AWS Deep Learning AMI
預先安裝的開發環境,快速開始建立深度學習應用程式
對於有更多客製化需求的開發人員,可使用 AWS Deep Learning AMI 來代替 Amazon SageMaker,該 AMI 可為機器學習從業人員和研究人員提供各種基礎設施和工具,以加速雲端中各種規模的深度學習。您可以快速啟動已預先安裝常用深度學習架構 (例如 TensorFlow、PyTorch、Apache MXNet、Microsoft Cognitive Toolkit、Caffe、Caffe2、Theano、Torch、Chainer、Gluon 和 Keras) 的 Amazon EC2 P3 執行個體,以訓練複雜的自訂 AI 模型、試驗新的演算法,或學習新的技能和技術。進一步了解 >>
Amazon EC2 P3 執行個體和高效能運算
使用 AWS 上的 HPC 功能解決大型運算問題並取得全新洞見
Amazon EC2 P3 執行個體是執行工程模擬、計算金融、地震分析、分子建模、基因體、轉譯和其他 GPU 運算工作負載的理想平台。高效能運算 (HPC) 可讓科學家和工程師解決這些複雜、運算密集的問題。HPC 應用程式通常需要高速網路效能、快速儲存、大量記憶體、超強運算能力,也可能需要以上所有特點。AWS 透過在雲端執行 HPC,並能擴展到超過大部分現場部署環境實際可行的大量平行任務,讓您加快研究速度,又能縮短得出結果的時間。例如,P3dn.24xlarge 執行個體支援 Elastic Fabric Adapter (EFA),可讓 HPC 應用程式利用訊息傳遞介面 (MPI) 擴展至數千個 GPU。AWS 提供針對特定應用程式最佳化的解決方案來降低成本,無須投資大量資本。進一步了解 >>
支援 NVIDIA RTX Virtual Workstation
NVIDIA RTX Virtual Workstation AMI 使用強大的 P3 執行個體搭配 AWS 雲端中執行的 NVIDIA Volta V100 GPU,交付高圖形效能。這些 AMI 已預先安裝最新的 NVIDIA GPU 圖形軟體和最新的 RTX 驅動程式和 NVIDIA ISV 認證,並支援高達四個 4K 桌面解析度。採用 NVIDIA V100 GPU 的 P3 執行個體與 RTX vWS 結合,可在雲端交付高效能工作站,其中包含高達 32 GiB 的 GPU 記憶體、快速光線追蹤和 AI 驅動轉譯功能。
全新的 AMI 可在 AWS Marketplace 取得並支援 Windows Server 2016 和 Windows Server 2019。
Amazon EC2 P3dn.24xlarge 執行個體
更快、功能更強大、更大型的執行個體尺寸,針對分散式機器學習和高效能運算進行最佳化
Amazon EC2 P3dn.24xlarge 執行個體是最快、功能最強且最大型的 P3 執行個體大小,可提供高達 100 Gbps 的網路輸送量,並搭載 8 個 NVIDIA® V100 Tensor 核心 GPU、32 GiB 記憶體、96 個客製化 Intel® Xeon® Scalable (Skylake) vCPU,以及 1.8 TB 的本機 NVMe 型 SSD 儲存空間。更快的網路、全新的處理器、雙倍的 GPU 記憶體以及額外的 vCPU,讓開發人員能夠將任務擴展到多個執行個體 (例如,16、32 或 64 個執行個體),以大幅縮短訓練 ML 模型的時間或執行更多 HPC 模擬。機器學習模型需要運用大量資料來進來訓練,除了增加執行個體之間的資料傳遞傳輸量外,P3dn.24xlarge 執行個體的額外網路傳輸量還可連接到 Amazon S3 或 Amazon EFS 等共用檔案系統解決方案,從而加快存取大量訓練資料的速度。
消除瓶頸並縮短機器學習的訓練時間
藉由 100 Gbps 的網路傳輸量,開發人員可以有效運用大量 P3dn.24xlarge 執行個體進行分散式訓練,並大幅縮短模型的訓練時間。AWS 採用支援 AVX-512 指令集的自訂 Intel Skylake 處理器,並配備 96 顆 vCPU,可提供 2.5 GHz 的處理速度,協助最佳化資料預先處理的效能。此外,P3dn.24xlarge 執行個體使用 AWS Nitro System (此為專用硬體和輕量型 Hypervisor 的結合),幾乎能將主機硬體所有的運算與記憶體資源提供給您的執行個體使用。P3dn.24xlarge 執行個體還支援 Elastic Fabric Adapter,讓機器學習應用程式可利用 NVIDIA Collective Communications Library (NCCL) 擴展至數千個 GPU。
將 GPU 使用率最佳化以降低總持有成本 (TCO)
使用最新版本的 Elastic Network Adapter (具有高達 100 Gbps 的聚合網路頻寬) 增強網路連線,不僅可用於在多個 P3dn.24xlarge 執行個體之間共用資料,還可以透過 Amazon S3 或共用檔案系統解決方案 (例如 Amazon EFS) 進行高輸送量資料存取。對於最佳化 GPU 的使用率,並從運算執行個體提供最大效能,高輸送量資料存取是關鍵所在。
支援更大型和更複雜的模型
P3dn.24xlarge 執行個體提供 NVIDIA V100 Tensor Core GPU 和 32 GB 記憶體,提供訓練更先進和更大型的機器學習模型,以及處理較大批次的資料 (例如用於影像分類和目標偵測系統的 4k 影像) 的靈活性。
Amazon EC2 P3 執行個體產品詳細資訊
執行個體大小 | GPU – Tesla V100 | GPU P2P | GPU 記憶體 (GB) | vCPU | 記憶體 (GB) | 網路頻寬 | EBS 頻寬 | 隨需價格/小時* | 1 年預留執行個體實際小時費率* | 3 年預留執行個體實際小時費率* |
---|---|---|---|---|---|---|---|---|---|---|
p3.2xlarge | 1 | 無 | 16 | 8 | 61 | 高達 10 Gbps | 1.5Gbps | 3.06 USD | 1.99 USD | 1.05 USD |
p3.8xlarge | 4 |
NVLink | 64 | 32 | 244 | 10Gbps | 7Gbps | 12.24 USD | 7.96 USD | 4.19 USD |
p3.16xlarge | 8 | NVLink | 128 | 64 | 488 | 25Gbps | 14Gbps | 24.48 USD | 15.91 USD | 8.39 USD |
p3dn.24xlarge | 8 | NVLink | 256 | 96 | 768 | 100Gbps | 19Gbps | 31.218 USD | 18.30 USD | 9.64 USD |
* - 所示價格是針對美國東部 (維吉尼亞北部) AWS 區域的 Linux/Unix,四捨五入到最接近的分。如需完整的定價詳情,請參閱 Amazon EC2 定價頁面。
客戶能以隨需執行個體、預留執行個體、Spot 執行個體及專用主機等形式購買 P3 執行個體。
按秒計費
雲端運算的諸多優勢之一是能在需要時,可彈性佈建或取消佈建資源。我們精準到秒計費,讓客戶能夠提高彈性、節省費用,並使他們能夠優化資源分配,實現機器學習目標。
預留執行個體定價
相較於隨需執行個體的定價,預留執行個體可提供您更多的折扣 (最多 75%)。此外,將預留執行個體指派到特定可用區域時,可提供容量保留,讓您更能夠確信可在需要時啟動執行個體。
Spot 定價
在 Spot 執行個體執行的這段時間,您將持續支付生效的 Spot 價格。Spot 執行個體的價格由 Amazon EC2 制定,然後根據 Spot 執行個體容量的長期供需趨勢逐漸調整。相較於隨需定價,Spot 執行個體可獲得高達 90% 的折扣。
最廣泛的全球可用性
Amazon EC2 P3.2xlarge、P3.8xlarge 和 P3.16xlarge 執行個體可在 14 個 AWS 區域中使用,因此客戶可以靈活地在資料存放所在地訓練和部署機器學習模型。可使用 P3 的區域包括美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、加拿大 (中部)、歐洲 (愛爾蘭)、歐洲 (法蘭克福)、歐洲 (倫敦)、亞太區域 (東京)、亞太區域 (首爾)、亞太區域 (雪梨)、亞太區域 (新加坡)、中國 (北京)、中國 (寧夏) 和 GovCloud (美國西部) 等 AWS 區域。
亞太區域 (東京)、歐洲 (愛爾蘭)、美國東部 (維吉尼亞北部)、美國西部 (奧勒岡)、GovCloud (美國西部) 和 GovCloud (美國東部) AWS 區域提供 P3dn.24xlarge 執行個體。
開始使用 Amazon EC2 P3 執行個體進行機器學習
若要在幾分鐘內開始使用,請進一步了解 Amazon SageMaker,或使用已預先安裝熱門深度學習架構 (如 Caffe2 和 MXNet) 的 AWS 深度學習 AMI。此外,您也可以使用 NVIDIA AMI,搭配預先安裝的 GPU 驅動程式和 CUDA 工具組。
部落格、文章和網路研討會
播放日期:2018 年 12 月 19 日
等級: 200
電腦視覺涉及如何訓練電腦從數位影像或影片獲得高層級理解。電腦視覺的歷史可追溯到 1960 年代,而近年來處理技術的進步已經能實現自動駕駛汽車導航等應用。這個技術講座將討論建置、訓練和部署電腦視覺機器學習模型所需的不同步驟。我們將對比使用不同 Amazon EC2 執行個體的電腦視覺模型的培訓,並重點講解如何透過使用 Amazon EC2 P3 執行個體節省大量時間。
播放日期:2018 年 7 月 31 日
等級 200
在先進科學、能源、高科技和醫療保健領域,複雜的問題與日俱增,組織正面臨挑戰。機器學習 (ML) 讓您可以快速探索多種情境,並產生最佳答案,涵蓋從影像、影片和語音識別到自動駕駛汽車系統和天氣預測等應用。對於想要加快 ML 應用程式開發的資料科學家、研究人員和開發人員,Amazon EC2 P3 執行個體是雲端中最強、最具成本效益的多功能 GPU 運算執行個體。