Amazon EC2 Trn1 執行個體

產生型 AI 模型的高效能、符合成本效益的訓練

為何選擇 Amazon EC2 Trn1 執行個體?

Amazon Elastic Compute Cloud (EC2) Trn1 執行個體採用 AWS Trainium 晶片,專為生成式 AI 模型的高效能深度學習 (DL) 訓練打造,包括大型語言模型 (LLM) 和潛在擴散模型。與其他同類 Amazon EC2 執行個體相比,Trn1 執行個體可節省高達 50% 的訓練成本。 您可使用 Trn1 執行個體在各種應用程式中訓練 100B+ 參數 DL 和生成式 AI 模型,例如文字摘要、程式碼產生、問題解答、影像和影片產生、建議,以及詐騙偵測。

AWS Neuron SDK 可協助開發人員在 AWS Trainium 上訓練模型 (並在 AWS Inferentia 晶片上部署模型)。其與 PyTorch 和 TensorFlow 等架構原生整合,因此您可以繼續使用現有的程式碼和工作流程,在 Trn1 執行個體上訓練模型。若要了解目前 Neuron 對機器學習 (ML) 架構和程式庫、模型架構和硬體最佳化的支援,請瀏覽 Neuron 文件。

採用 AWS Trainium 技術的 Amazon EC2 Trn1 執行個體簡介

優勢

Trn1 執行個體專為高效能 DL 而打造,可將訓練時間從幾個月縮短到幾週甚至幾天。藉由縮短訓練時間,您可以更快地進行迭代,打造更具創新性的模型,並提高生產力。 對於受益於增加網路頻寬的模型,Trn1n 執行個體的訓練時間比 Trn1 執行個體最高提升 20%。

Trn1 執行個體提供高效能,同時與其他同類 Amazon EC2 執行個體相比,可節省高達 50% 的訓練成本。

使用 AWS Neuron SDK 擷取 Trn1 執行個體的完整效能。藉助 Neuron,您可以使用 PyTorch 和 TensorFlow 等熱門 ML 架構,並繼續使用現有的程式碼和工作流程,在 Trn1 執行個體上訓練模型。若要快速開始使用 Trn1 執行個體,請參閱 Neuron 文件中的熱門模型範例。

Trn1 執行個體最高可支援 800 Gbps 的第二代 Elastic Fabric Adapter (EFAv2) 網路頻寬。Trn1n 執行個體支援高達 1,600 Gbps 的 EFAv2 網路頻寬,為需要網路密集型模型帶來更高的效能。兩種執行個體均部署在 EC2 UltraClusters 中,支援擴展到 30,000 個 Trainium 晶片,後者與非阻欄式 PB 級網路互連,可提供 6 EFLOPS 的運算效能。

功能

Trn1 執行個體採用多達 16 顆 AWS Trainium 晶片,專為加速 DL 訓練而打造,並提供高達 3 PFLOPS 的 FP16/BF16 運算能力。每顆晶片包含兩個第二代 NeuronCore。

為支援高效的資料和模型平行處理,每個 Trn1 執行個體都具有 512 GB 的共用加速器記憶體 (HBM),總記憶體頻寬為 9.8 TB。

為了支援網路密集型模型的訓練,例如混合專家 (MoE) 和產生型預先訓練轉換器 (GPT),每個 Trn1n 執行個體可提供高達 1600 Gbps 的 EFAv2 網路頻寬。每個 Trn1 執行個體最高可支援 800 Gbps 的 EFAv2 頻寬。 相較於第一代 EFA,EFAv2 可提供多達 50% 的集體通訊效能改善,從而加速分散式訓練。這些執行個體還支援高達 80 Gbps 的 Amazon Elastic Block Store (Amazon EBS) 頻寬和高達 8 TB 的本機 NVMe 固態硬碟 (SSD) 儲存,用於快速存取大型資料集的工作負載。

為實現 Trainium 晶片之間的快速連線和精簡的集體通訊,Trn1 執行個體支援高達 768 GB/s 的 NeuronLink,這是一種高速、無阻塞的互連功能。

為提供高效能,同時達到準確度目標,Trn1 執行個體已針對 FP32、TF32、BF16、FP16、UINT8,以及新的可設定 FP8 (cFP8) 資料類型進行最佳化。為支援 DL 創新和產生型 AI 的快速步伐,Trn1 執行個體具有多項創新功能,可讓其變得靈活且可擴充,以訓練不斷發展的 DL 模型。Trn1 執行個體針對動態輸入形狀提供硬體最佳化和軟體支援。為了將來支援新的運算子,他們支援以 C ++ 編寫的自訂運算子。Inf2 執行個體還支援隨機舍入,這是一種概率舍入方式,相較於傳統舍入模式可實現高效能和更高的精度。

客戶和合作夥伴見證

以下是客戶和合作夥伴如何透過 Amazon EC2 Trn1 執行個體實現業務目標的範例。

  • Databricks

    全球超過 10,000 個組織,包括 Comcast、Condé Nast 和超過 50% 的財富 500 強企業都依賴 Databricks 來統一其資料、分析和 AI。

    成千上萬的客戶已在 AWS 上實作 Databricks,讓他們能夠使用 MosaicML 針對各種使用案例,預先訓練、微調和提供基礎模型。AWS Trainium 為我們提供訓練 Mosaic MPT 模型所需的規模和高效能,而且成本低廉。在我們訓練新一代 Mosaic MPT 模型時,Trainium2 能夠更快速地建置模型,讓我們能夠為客戶提供前所未有的規模和效能,以便他們可以更快地將自己的生成式 AI 應用程式帶到市場。

    Databricks 生成式 AI 副總裁 Naveen Rao
  • Stockmark Co., Ltd

    Stockmark 以「重塑價值創造機制和推進人類發展」為使命,透過提供尖端的自然語言處理技術,幫助眾多公司建立和打造創新業務。

    憑藉採用 AWS Trainium 晶片的 16 節點 Amazon EC2 Trn1 執行個體,我們已開發並發佈 stockmark-13b,這是一款具有 130 億個參數的大型語言模型,並在日本 220B 代幣庫上從頭開始進行預先訓練。該庫包括截至 2023 年 9 月的最新商業域文字。相較於其他同等模型,該模型在 JGLUE (日語通用語言理解評估) 基準上獲得最高的 JSQUAD 分 (0.813)。可在 Hugging Face Hub 獲得該模型,並且可在 MIT 授權下做為商業用途使用。相較於同等 GPU 執行個體,Trn1 執行個體協助我們降低了 20% 的訓練成本。

    Stockmark Co., Ltd. 技術長 Kosuke Arima
  • RICOH

    RICOH 提供工作場所解決方案和數位轉型服務,旨在管理和最佳化跨企業的資訊流。

    遷移至 Trn1 執行個體非常簡單。我們能夠在短短 8 天內完成 130 億個參數模型的訓練。在此成功基礎上,我們期待在 Trainium 上開發和訓練 700 億個參數模型,能夠更快、更經濟高效地訓練這些執行個體,我們激動不已。

    RICOH 數位技術開發中心總監 Yoshiaki Umetsu
  • HeliXon

    在 HeliXon,我們為基於蛋白質的療法打造下一代人工智慧解決方案。我們的目標是開發人工智慧工具,讓科學家能破譯蛋白質功能和相互作用,查詢大規模基因組資料集以進行標靶辨識,並設計抗體和細胞療法等療法。如今,我們使用訓練分佈式程式庫 (如 FSDP) 在許多基於 GPU 的伺服器上對模型進行平行訓練,但是訓練單個模型還是需要數週時間。我們很高興能利用 AWS 中具有最高網路頻寬 (800 Gbps) 的 Amazon EC2 Trn1 執行個體來提高分佈式訓練任務的效能,減少模型訓練時間,同時降低訓練成本。

    Helixon 執行長 Jian Peng
  • Money Forward, Inc.

    Money Forward, Inc. 為企業和個人提供開放和公平的金融平台。

    我們在 Amazon EC2 Inf1 執行個體上推出了大規模 AI 聊天機器人服務,與基於 GPU 的同類執行個體相比,推論延遲降低了 97%,同時還降低了成本。由於我們會定期微調量身定製的 NLP 模型,因此減少模型訓練時間和成本也很重要。根據我們在 Inf1 執行個體上成功遷移推論工作負載的經驗,以及在採用 AWS Trainium 的 EC2 Trn1 執行個體上的初步工作,我們預期 Trn1 執行個體將在提高端對端機器學習效能和成本方面帶來額外價值。

    Money Forward, Inc. 技術長 Takuya Nakade
  • Magic

    Magic 是綜合性產品和研究公司,正致力於開發就像同事一樣的人工智慧,好讓世界變得更有生產力。

    訓練基於自動廻歸變換器的大型模型是我們工作的重要一環。採用 AWS Trainium 的 Trn1 執行個體專為這些工作負載而設計,可提供近乎無限的可擴展性、快速的節點間聯網,以及對 16 位元和 8 位元資料類型的進階支援。Trn1 執行個體將幫助我們以更低成本,更快地訓練大型模型。我們對 Trainium 中對 BF16 隨機四捨五入的原生支援感到特別興奮,此功能可提高效能,同時數值準確度與完整精準度並無區別。

    Magic 聯合創辦人暨執行長 Eric Steinberger
  • Cactus Communications

    CACTUS 為研究人員和組織提供了一套產品和解決方案,能改善研究獲得資金、發表、交流和發現的方式。

    在 Cactus Labs,我們利用人工智慧的力量,研究重點是自然語言處理、排名和推薦、對話式人工智慧、大型語言模型、電腦視覺、擴增實境/虛擬實境 (AR/VR) 和 可解釋人工智慧 (XAI)。我們希望能更快地訓練機器學習模型,並讓我們的研究人員能在管理基礎設施成本的同時進行更多實驗,因此我們很高興對 AWS Trainium 進行評估。AWS Trainium 的開箱即用功能,如 XLA 最佳化、多工作者資料平行訓練和圖形快取等,可以減少我們的訓練時間,幫助我們更快、更便宜地執行更多實驗。

    Cactus Communications 技術長暨新興產品主管 Nishchay Shah
  • Watashiha

    Watashiha 提供創新的互動式 AI 聊天機器人服務 “OGIRI AI”,該服務融合了幽默感,在現場提供有趣的問題答案。

    我們使用大型語言模型來融合幽默感,並在 AI 服務上為客戶提供更相關和對話式體驗。這需要我們經常預先訓練和微調這些模型。我們善用張量和資料平行處理,在 EC2 Trn1.32xlarge 執行個體上預先訓練以 GPT 為基礎的日文模型。相較於我們之前的 GPU 型基礎設施,訓練在 28 天內即可完成,且成本降低了 33%。隨著模型的複雜性持續快速增加,我們有望將 Trn1n 執行個體的網路頻寬增加至 Trn1 的兩倍,以加速對大型模型的訓練。

    Watashiha, K.K. 技術長 Yohei Kobashi
  • PyTorch

    在 PyTorch,我們加快了將機器學習從研究原型設計轉向生產的速度,為客戶做好準備。我們與 AWS 團隊進行了廣泛合作,為採用 AWS Trainium 的全新 Amazon EC2 Trn1 執行個體提供原生 PyTorch 支援,而這些執行個體是專為訓練深度學習模型而打造。建立 PyTorch 模型的開發人員只需最少的程式碼更改即可開始在 Trn1 執行個體上進行訓練。此外,我們還與 OpenXLA 社區合作,啟用 PyTorch 分佈式程式庫,以便輕鬆地將模型從基於 GPU 的執行個體遷移到 Trn1 執行個體。Trn1 執行個體為 PyTorch 社區帶來的創新讓我們興奮不己,包括更高效的資料類型、動態形狀、自訂運算子、硬體優化的隨機捨入和即時偵錯模式。這一切都讓 Trn1 非常適合 PyTorch 開發人員的廣泛採用,我們期待未來共同為 PyTorch 做出貢獻,以進一步最佳化訓練效能。

    PyTorch 應用 AI 工程經理 Geeta Chauhan
  • Hugging Face

    Hgging Face 的使命是將出色的 ML 大眾化,協助世界各地的 ML 開發人員解決現實世界的問題。而關鍵在於確保最新和最出色的模型,在雲端的最佳 ML 晶片上盡可能快速高效地執行。我們對 Inferentia2 的潛力感到非常振奮,這將成為大規模部署生成式 AI 模型的新標準方式。憑藉 Inf1,我們發現比傳統 GPU 型執行個體最高可降低 70% 的成本,而且使用 Inf2,相較於 Inferentia1,我們看到類似 BERT 的轉換器延遲最高可減少 8 倍。藉助 Inferentia2,我們的社群將能夠以 100B 以上的參數規模輕鬆地將此效能擴展至 LLM,以及擴展至最新的擴散和電腦視覺模型。

  • Amazon

    我們正在訓練大型語言模型 (LLM),這些模型包括多模式 (文字+影像)、多語言、多地區、預先接受過多個任務訓練、跨多個實體 (產品、查詢、品牌、評論等),以改善客戶的購物體驗。與其他加速機器學習解決方案相比,Trn1 執行個體可提供最佳的效能功耗比,從而為訓練大型語言模型提供了更永續的方式,並以最低成本為我們提供了高效能。我們計劃探索新的可設定 FP8 資料類型和硬體加速隨機四捨五入,以進一步提升訓練效率和開發速度。

    Amazon Search 副總裁 Trishul Chilimbi

入門

您可以使用 Amazon SageMaker,輕鬆地在 Trn1 執行個體上訓練模型。顯著減少訓練和調整 ML 模型的時間和成本,而無需管理基礎設施。藉助 SageMaker,您可以使用內建工具來管理和追蹤訓練實驗、自動選擇最佳超參數、偵錯訓練任務,以及監控系統資源的使用。

AWS Deep Learning AMI (DLAMI) 為深度學習 (DL) 從業人員和研究人員提供基礎設施和各種工具,以在 AWS 上加速各種規模的 DL。AWS Neuron 驅動程式已在 DLAMI 中預先設定,可在 Trn1 執行個體上以最佳方式訓練 DL 模型。

您目前可以在 Amazon Elastic Kubernetes Service (EKS) 上部署 Trn1 執行個體,這是一種全受管 Kubernetes 服務;也可以在 Amazon Elastic Container Service (ECS) 中部署,這是一種全受管容器協同運作服務。Neuron 也可以預先安裝在 AWS Deep Learning Containers 中。若要了解有關在 Trn1 執行個體上執行容器的更多資訊,請參閱 Neuron 容器教學

產品詳細資訊

執行個體大小 Trainium 晶片
加速器
記憶體
(GB)
vCPU 執行個體
記憶體
(GiB)
本機
NVMe
儲存
(TB)
網路
頻寬
(Gbps)
EFA 和
RDMA
支援
EBS
頻寬
(Gbps)
隨需
每小時價格
1 年
預留
執行個體
有效率
每小時*
3 年
預留
執行個體
有效率
每小時*
trn1.2xlarge 1 32 8 32 0.5 最多 12.5 最多 20 1.34 USD 0.79 USD 0.4744 USD
trn1.32xlarge 16 512 128 512 8 800 80 21.50 USD 12.60 USD 7.59 USD

trn1n.32xlarge

16 512 128 512 8 1600 80 24.78 USD 14.52 USD 8.59 USD