AWS Trainium

在降低成本同時提升深度學習和生成式 AI 訓練的高效能

為什麼選擇 Trainium?

AWS Trainium 是 AWS 專為 100B 以上之參數模型深度學習 (DL) 訓練打造的機器學習 (ML) 晶片。每個 Amazon Elastic Compute Cloud (Amazon EC2) Trn1 執行個體最多部署 16 個 Trainium 加速器,為雲端 DL 訓練提供高效能、低成本的解決方案。儘管 DL 和生成式 AI 的使用正在加速推進,但許多開發團隊僅有固定的預算,這限制了改進其模型和應用程式所需的訓練範圍和頻率。基於 Trainium 的 Amazon EC2 Trn1 執行個體能縮短訓練時間,同時比同類 EC2 執行個體節省高達 50% 的訓練成本,從而解決了此難題。Trainium 已經過最佳化,可訓練用於文字摘要、程式碼產生、問題答覆、影像和影片產生、建議及詐騙偵測等廣泛應用中的自然語言處理、電腦視覺和推薦模型。

AWS Neuron SDK 可協助開發人員在 Trainium 加速器上訓練模型 (並將其部署在 AWS Inferentia 加速器上)。其與 PyTorch 和 TensorFlow 等熱門架構原生整合,因此您可以繼續在 Trainium 加速器上訓練,並且使用現有程式碼和工作流程。

Trainium 的優勢

Trainium 賦能的 Trn1 執行個體可提供高效能,並且與其他效能相當的 Amazon EC2 執行個體相比,可將訓練成本降低高達 50%。每顆 Trainium 加速器內含兩個專為深度學習演算法打造的第二代 NeuronCore。為支援高效的資料和模型平行處理,每顆 Trainium 加速器都具有 32 GB 的高頻寬記憶體,提供高達 190 TFLOPS 的 FP16/BF16 運算能力,並採用 NeuronLink 執行個體內超高速非阻欄式互連技術。

支援 Trainium 的 AWS Neuron SDK 已與 PyTorch 和 TensorFlow 原生整合。這確保您可以繼續在這些常用架構中使用現有的工作流程,只需更改幾行程式碼即可開始使用 Trainium。對於分散式模型訓練,Neuron SDK 支援 Megatron-LM 和 PyTorch Fully Sharded Data Parallel (FSDP) 等程式庫。要快速開始使用採用 Trainium 的 Amazon EC2 Trn1 執行個體,請參閱 Neuron 文件中的熱門模型範例。

為了在滿足準確度目標的同時提供高效能,Trainium 已針對 FP32、TF32、BF16、FP16、UINT8 和新的可設定 FP8 (cFP8) 資料類型最佳化。
為支援深度學習創新和生成式 AI 的快速步伐,Trainium 具有多項創新功能,使其靈活且可擴展,以訓練不斷演進的深度學習模型。Trainium 具有硬體最佳化和軟體支援,可支援動態輸入形狀。為了在未來支援新的運算子,它支援以 C++ 編寫的自訂運算子。它也支援隨機捨入,這是一種以機率捨入的方法,與傳統捨入模式相比,可達成高效能和更高的準確度。
由 Trainium 提供支援的 Trn1 執行個體在深度學習訓練方面比同類加速運算 EC2 執行個體節能高達 25%。Trn1 執行個體可協助您在訓練超大型模型時達成永續目標。

影片

幕後探究 Amazon 的生成式 AI 基礎設施
使用 AWS Trainium 加速 DL 和加快創新速度
採用 AWS Trainium 技術的 Amazon EC2 Trn1 執行個體簡介