AWS Inferentia

在 Amazon EC2 中以最低成本獲得高效能,用於深度學習和生成式 AI 推論

為什麼選擇 Inferentia?

AWS Inferentia 加速器由 AWS 設計,可在 Amazon EC2 中以最低成本提供高效能,用於深度學習 (DL) 和生成式 AI 推論應用程式。 

第一代 AWS Inferentia 加速器採用 Amazon Elastic Compute Cloud (Amazon EC2) Inf1 執行個體技術,相較於同類 Amazon EC2 執行個體,其輸送量提升高達 2.3 倍,每次推論成本降低高達 70%。許多客戶,包括 Finch AI、Sprinklr、Money Forward 和 Amazon Alexa,都採用 Inf1 執行個體,並實現其效能和成本優勢。

AWS Inferentia2 加速器與 Inferentia 相比,可提供高達 4 倍的輸送量和低達 10 倍的延遲。基於 Inferentia2 的 Amazon EC2 Inf2 執行個體經過最佳化,可大規模部署日益複雜的模型,例如大型語言模型 (LLM) 和潛在擴散模型。Inf2 執行個體是 Amazon EC2 中的首個推論最佳化執行個體,可透過加速器之間的超高速連線,支援橫向擴展分散式推論。包括 Leonardo.ai、Deutsche Telekom 和 Qualtrics 在內的許多客戶已為其 DL 和生成式 AI 應用程式採用 Inf2 執行個體。 

AWS Neuron SDK 可協助開發人員在 AWS Inferentia 加速器上部署模型 (並在 AWS Trainium 加速器上對其進行訓練)。 其與 PyTorch 和 TensorFlow 等熱門架構原生整合,因此您可以繼續使用現有程式碼和工作流程,並在 Inferentia 加速器上執行。

Inferentia 的優勢

每個第一代 Inferentia 加速器都具有四個第一代 NeuronCore,每個 EC2 Inf1 執行個體最多包含 16 個 Inferentia 加速器。每個 Inferentia2 加速器都具有兩個第二代 NeuronCore,每個 EC2 Inf2 執行個體最多包含 12 個 Inferentia2 加速器。每個 Inferentia2 加速器支援高達每秒 190T 浮點運算 (TFLOPS) 的 FP16 效能。第一代 Inferentia 加速器均配備 8 GB 的 DDR4 記憶體,並且還具有大量片上記憶體。Inferentia2 為每個加速器提供 32 GB 的 HBM,相較於 Inferentia,記憶體總計提升了 4 倍,記憶體頻寬增加了 10 倍。
AWS Neuron SDK 與 PyTorch 和 TensorFlow 等常用的 ML 架構原生整合。透過 AWS Neuron,您可以使用這些架構在 AWS Inferentia 加速器上最佳化部署 DL 模型,而 Neuron 的設計目的是將程式碼變更和繫結至供應商特定的解決方案降至最低。 Neuron 可協助您在 Inferentia 加速器上執行自然語言處理 (NLP)/理解、語言翻譯、文字摘要、影片和影像產生、語音辨識、個人化、詐欺偵測等推論應用程式。
第一代 Inferentia 支援 FP16、BF16 和 INT8 資料類型。Inferentia2 新增對 FP32、TF32 和新的可設定 FP8 (cFP8) 資料類型的額外支援,為開發人員提供更大的靈活性來最佳化效能和準確性。AWS Neuron 採用高精度 FP32 模型,並自動將其轉換為精度較低的資料類型,同時最佳化準確性和效能。Autocasting 透過消除對低精度再訓練的需求,來縮短上市時間。
Inferentia2 針對動態輸入大小和採用 C++ 編寫的自訂運算子,新增了硬體最佳化。其還支援隨機舍入,這是一種概率舍入方式,相較於傳統舍入模式可實現高效能和更高的精度。
相較於 Amazon EC2 執行個體,Inf2 執行個體提供高達 50% 的效能功耗比提升,因為它們和基礎 Inferentia2 加速器是專為大規模執行 DL 模型而建置的。Inf2 執行個體可協助您在部署超大型模型時,實現永續發展目標。

影片

幕後探究 Amazon 的生成式 AI 基礎設施
採用 AWS Inferentia2 技術的 Amazon EC2 Inf2 執行個體簡介
四位 AWS 客戶如何利用 AWS Inferentia 降低 ML 成本並推動創新