為什麼選擇 Inferentia?
AWS Inferentia 加速器由 AWS 設計,可在 Amazon EC2 中以最低成本提供高效能,用於深度學習 (DL) 和生成式 AI 推論應用程式。
第一代 AWS Inferentia 加速器採用 Amazon Elastic Compute Cloud (Amazon EC2) Inf1 執行個體技術,相較於同類 Amazon EC2 執行個體,其輸送量提升高達 2.3 倍,每次推論成本降低高達 70%。許多客戶,包括 Finch AI、Sprinklr、Money Forward 和 Amazon Alexa,都採用 Inf1 執行個體,並實現其效能和成本優勢。
AWS Inferentia2 加速器與 Inferentia 相比,可提供高達 4 倍的輸送量和低達 10 倍的延遲。基於 Inferentia2 的 Amazon EC2 Inf2 執行個體經過最佳化,可大規模部署日益複雜的模型,例如大型語言模型 (LLM) 和潛在擴散模型。Inf2 執行個體是 Amazon EC2 中的首個推論最佳化執行個體,可透過加速器之間的超高速連線,支援橫向擴展分散式推論。包括 Leonardo.ai、Deutsche Telekom 和 Qualtrics 在內的許多客戶已為其 DL 和生成式 AI 應用程式採用 Inf2 執行個體。
AWS Neuron SDK 可協助開發人員在 AWS Inferentia 加速器上部署模型 (並在 AWS Trainium 加速器上對其進行訓練)。 其與 PyTorch 和 TensorFlow 等熱門架構原生整合,因此您可以繼續使用現有程式碼和工作流程,並在 Inferentia 加速器上執行。