Pourquoi choisir Inferentia ?
Les accélérateurs AWS Inferentia sont conçus par AWS pour offrir de hautes performances à moindre coût dans Amazon EC2 pour vos applications d’inférence de deep learning (DL) et d’IA générative.
L’accélérateur AWS Inferentia de première génération alimente les instances Inf1 Amazon Elastic Compute Cloud (Amazon EC2), lesquelles offrent un débit jusqu’à 2,3 fois plus élevé et une réduction de coût par inférence jusqu’à 70 % par rapport à celui des instances Amazon EC2 comparables. De nombreux clients, dont Finch AI, Sprinklr, Money Forward et Amazon Alexa, ont adopté les instances Inf1 et réalisé ses avantages en matière de performances et de coûts.
AWS Inferentia2 offre un débit jusqu’à 4 fois plus élevé et une latence jusqu’à 10 fois plus basse par rapport à Inferentia. Les instances Amazon EC2 Inf2 basées sur Inferentia2 sont optimisées pour déployer des modèles de plus en plus complexes, tels que des grands modèles de langage (LLM) et des modèles de diffusion latente, à grande échelle. Les instances Inf2 sont les premières instances optimisées pour l'inférence dans Amazon EC2 à prendre en charge l'inférence distribuée à grande échelle avec une connectivité à ultra haute vitesse entre les accélérateurs. De nombreux clients, dont Leonardo.ai, Deutsche Telekom et Qualtrics, ont adopté des instances Inf2 pour leurs applications de DL et d’IA générative.
AWS Neuron SDK aide les développeurs à déployer des modèles sur les accélérateurs AWS Inferentia (et à les former sur l’accélérateur AWS Trainium). Il s’intègre nativement avec les frameworks les plus utilisés, tels que PyTorch et TensorFlow, de sorte que vous pouvez continuer à utiliser vos flux de travail existants et à les exécuter sur les accélérateurs Inferentia.