Instances Inf2 Amazon EC2
Hautes performances à moindre coût dans Amazon EC2 pour les inférences d'IA générative
Les instances Amazon Elastic Compute Cloud (Amazon EC2) Inf2 sont spécialement conçues pour l'inférence de deep learning (DL). Ils offrent des performances élevées au moindre coût dans Amazon EC2 pour les modèles d'intelligence artificielle (IA) générative, y compris les grands modèles de langage (LLM) et les transformateurs de vision. Vous pouvez utiliser les instances Inf2 pour exécuter vos applications d’inférence pour la compréhension du langage naturel, la traduction, la génération de vidéos et d’images, la reconnaissance vocale, la personnalisation, la détection de fraudes, etc.
Les instances Inf2 sont alimentées par AWS Inferentia2, la puce AWS Inferentia de deuxième génération. Les instances Inf2 augmentent les performances d’Inf1 en offrant des performances de calcul 3 fois supérieures, une mémoire d’accélérateur totale 4 fois plus importante, un débit jusqu’à 4 fois supérieur et une latence jusqu’à 10 fois plus faible. Les instances Inf2 sont les premières instances optimisées pour l’inférence dans Amazon EC2 à prendre en charge l’inférence distribuée à grande échelle avec une connectivité à ultra haute vitesse entre les puces Inferentia. Vous pouvez désormais déployer de manière efficace et rentable des modèles comportant des centaines de milliards de paramètres sur plusieurs puces sur des instances Inf2.
Le SDK AWS Neuron aide les développeurs à déployer des modèles sur les deux puces AWS Inferentia et à les former sur les puces AWS Trainium. Il s’intègre nativement avec des cadres de travail, tels que PyTorch et TensorFlow, afin que vous puissiez continuer à utiliser vos flux de travail et votre code d’application existants, et les exécuter sur des instances Inf2.
Fonctionnement
-
Utilisation d'AWS DLAMI
-
Commencer à utiliser Amazon EKS
-
Utiliser Amazon ECS
-
Utilisation d'Amazon SageMaker
-
Utilisation d'AWS DLAMI
-
Commencer à utiliser Amazon EKS
-
Utiliser Amazon ECS
-
Utilisation d'Amazon SageMaker
Avantages
Déployez plus de 100 milliards de modèles d'IA génératives à grande échelle
Les instances Inf2 sont les premières instances optimisées pour l’inférence dans Amazon EC2 pour prendre en charge l’inférence distribuée à grande échelle. Vous pouvez désormais déployer efficacement des modèles comportant des centaines de milliards de paramètres sur plusieurs puces sur des instances Inf2, en utilisant la connectivité ultrarapide entre les puces.
Augmenter les performances tout en réduisant considérablement les coûts d’inférence
Les instances Inf2 sont conçues pour offrir des performances élevées à moindre coût dans Amazon EC2 pour vos déploiements de DL. Elles offrent un débit jusqu'à 4 fois supérieur et une latence jusqu'à 10 fois inférieure par rapport aux instances Amazon EC2 Inf1. Les instances Inf2 offrent des performances tarifaires jusqu'à 40 % supérieures à celles des autres instances Amazon EC2 comparables.
Utilisation de vos frameworks et bibliothèques de machine learning existants
Utilisez le SDK AWS Neuron pour extraire toutes les performances des instances Inf2. Avec Neuron, vous pouvez utiliser vos cadres de travail existants tels que PyTorch et TensorFlow et obtenir des performances prêtes à l'emploi optimisées pour les modèles figurant dans des référentiels populaires tels que Hugging Face. Neuron prend en charge les intégrations d'exécution avec des outils de service tels que TorchServe et TensorFlow Serving. Il permet également d'optimiser les performances grâce à des outils de profil et de débogage intégrés tels que Neuron-Top et s'intègre à des outils de visualisation populaires tels que TensorBoard.
Atteindre vos objectifs de durabilité avec une solution économe en énergie
Les instances Inf2 offrent des performances/watt jusqu’à 50 % supérieures à celles d’autres instances Amazon EC2 comparables. Ces instances et les puces Inferentia2 sous-jacentes utilisent des processus de silicium avancés et des optimisations matérielles et logicielles pour fournir une efficacité énergétique élevée lors de l’exécution de modèles DL à grande échelle. Utilisez les instances Inf2 pour atteindre vos objectifs en matière de développement durable lorsque vous déployez des modèles de très grande taille.
Fonctionnalités
Jusqu’à 2,3 pétaflops avec AWS Inferentia2
Les instances Inf2 reposent sur un maximum de 12 puces AWS Inferentia2 connectés à NeuronLink à ultra-haut débit pour des communications collectives rationalisées. Elles offrent jusqu’à 2,3 pétaflops de calcul, un débit jusqu’à 4 fois supérieur et une latence 10 fois inférieure aux instances Inf1.
Jusqu’à 384 Go de mémoire d’accélérateur à large bande passante
Pour prendre en charge les modèles DL de grande taille, les instances Inf2 offrent jusqu’à 384 Go de mémoire d’accélérateur partagée (32 Go HBM dans chaque puce Inferentia2, soit 4 fois plus que l’Inferentia de première génération) avec 9,8 To/s de bande passante mémoire totale (10 fois plus rapide que l’Inferentia de première génération).
Interconnexion NeuronLink
Pour une communication rapide entre les puces Inferentia2, les instances Inf2 prennent en charge 192 Go/s de NeuronLink, une interconnexion non bloquante à grande vitesse. Inf2 est la seule instance optimisée pour l’inférence à proposer cette interconnexion, une fonctionnalité qui n’est disponible que dans les instances de formation plus coûteuses. Pour les modèles de très grande taille qui ne rentrent pas dans une seule puce, les données circulent directement entre les accélérateurs grâce à NeuronLink, en contournant complètement le processeur. Avec NeuronLink, Inf2 permet une inférence distribuée plus rapide et améliore le débit et la latence.
Optimisé pour les nouveaux types de données avec moulage automatique
Inferentia2 prend en charge les données FP32, TF32, BF16, FP16, UINT8 et le nouveau type de données configurable FP8 (cFP8). AWS Neuron peut prendre des modèles FP32 et FP16 de haute précision et les convertir automatiquement en types de données de moindre précision tout en optimisant la précision et les performances. La diffusion automatique réduit les délais de mise sur le marché en supprimant la nécessité d'un entraînement de moindre précision et en permettant des inférences plus performantes avec des types de données plus petits.
Optimisations DL de pointe
Pour soutenir le rythme rapide de l'innovation en matière de DL, les instances Inf2 présentent plusieurs innovations qui les rendent flexibles et extensibles pour déployer des modèles DL en constante évolution. Les instances Inf2 bénéficient d'optimisations matérielles et d'une prise en charge logicielle pour les formes d'entrée dynamiques. Pour permettre la prise en charge de nouveaux opérateurs à l'avenir, ils prennent en charge les opérateurs personnalisés écrits en C++. Elles prennent également en charge l'arrondi stochastique, une méthode d'arrondi par probabilités qui permet d'obtenir des performances élevées et une plus grande précision par rapport aux modes d'arrondi traditionnels.
Informations sur le produit
Taille d’instance | Puces Inferentia2 | Accélérateur Mémoire (Go) |
vCPU | Mémoire (Gio) |
Local Stockage |
Inter-puce Interconnexion |
Réseau Bande passante (Gbit/s) |
EBS Bande passante (Gbit/s) |
Tarification à la demande | Instance réservée pour 1 an | Instance réservée pour 3 ans |
inf2.xlarge | 1 | 32 | 4 | 16 | EBS uniquement | N/A | Jusqu'à 15 | Jusqu'à 10 | 0,76 USD | 0,45 USD | 0,30 USD |
inf2.8xlarge | 1 | 32 | 32 | 128 | EBS uniquement | N/A | Jusqu'à 25 | 10 | 1,97 USD | 1,81 USD | 0,79 USD |
inf2.24xlarge | 6 | 192 | 96 | 384 | EBS uniquement | Oui | 50 | 30 | 6,49 USD | 3,89 USD | 2,60 USD |
inf2.48xlarge | 12 | 384 | 192 | 768 | EBS uniquement | Oui | 100 | 60 | 12,98 USD | 7,79 USD | 5,19 USD |
Témoignages de clients
« Notre équipe de Leonardo exploite l'IA générative pour permettre aux professionnels de la création et aux passionnés de créer des ressources visuelles d'une qualité, d'une rapidité et d'une cohérence de style inégalées. Le rapport prix/performance d'AWS Inf2 Grâce à AWS Inf2, nous sommes en mesure de réduire nos coûts de 80 %, sans sacrifier les performances, en modifiant fondamentalement la proposition de valeur que nous pouvons proposer à nos clients, en activant nos fonctionnalités les plus avancées à un prix plus accessible. Cela atténue également les inquiétudes concernant les coûts et la disponibilité des capacités pour nos services d'IA auxiliaires, qui revêtent une importance croissante à mesure que nous grandissons et évoluons. Il s'agit d'une technologie clé qui nous permet de continuer à repousser les limites de ce qui est possible avec l'IA générative et d'accéder à une nouvelle ère de créativité et de pouvoir d'expression au profit de nos utilisateurs. »
Pete Werner, responsable du service d'IA, Leonardo.ai
« Chez Runway, notre suite d'outils IA Magic permet à nos utilisateurs de générer et de modifier du contenu comme jamais auparavant. Nous repoussons constamment les limites du possible grâce à la création de contenu basée sur l'IA, et à mesure que nos modèles d'IA deviennent plus complexes, les coûts d'infrastructure sous-jacents pour exécuter ces modèles à grande échelle peuvent devenir élevés. Grâce à notre collaboration avec les instances Amazon EC2 Inf2 optimisées par AWS Inferentia, nous sommes en mesure d'exécuter certains de nos modèles avec un débit jusqu'à deux fois supérieur à celui des instances comparables basées sur des GPU. Cette inférence performante et peu coûteuse nous permet d'introduire davantage de fonctionnalités, de déployer des modèles plus complexes et, au final, d'offrir une meilleure expérience aux millions de créateurs qui utilisent Runway. »
Cristóbal Valenzuela, cofondateur et PDG de Runway
Qualtrics crée et développe des logiciels de gestion de l'expérience.
« Chez Qualtrics, notre objectif est de créer une technologie qui comble les manques d'expérience pour les clients, les employés, les marques ainsi que les produits. Pour y parvenir, nous développons des modèles complexes de deep learning multi-tâches et multimodaux pour lancer de nouvelles fonctionnalités, telles que la classification de textes, le marquage de séquences, l'analyse de discours, l'extraction de phrases clés et de sujets, la mise en cluster et la compréhension de conversations de bout en bout. Au fur et à mesure que nous utilisons ces modèles plus complexes dans un plus grand nombre d'applications, le volume de données non structurées augmente, et nous avons besoin de solutions optimisées pour l'inférence plus performantes qui peuvent répondre à ces demandes, telles que les instances Inf2, pour offrir les meilleures expériences possible à nos clients. Nous sommes ravis des nouvelles instances Inf2, car elles nous permettront non seulement d'atteindre des débits plus élevés, tout en réduisant considérablement la latence, mais elles introduisent également des fonctionnalités telles que l'inférence distribuée et la prise en charge améliorée de la forme dynamique des entrées, qui nous aideront à mettre à l'échelle pour répondre aux besoins de déploiement à mesure que nous nous dirigeons vers des modèles de plus en plus grands et complexes. »
Aaron Colak, Responsable Machine Learning principal, Qualtrics
Finch Computing est une entreprise de technologie du langage naturel qui fournit des applications d'intelligence artificielle aux gouvernements, aux services financiers et aux intégrateurs de données.
« Pour répondre aux besoins de nos clients en matière de traitement du langage naturel en temps réel, nous développons des modèles de deep learning de pointe qui se mettent à l'échelle des importantes charges de travail de production. Nous devons fournir des transactions à faible latence et atteindre des débits élevés pour traiter les flux de données internationaux. Nous avons déjà migré de nombreuses charges de travail de production vers des instances Inf1 et obtenu une réduction de 80 % du coût par rapport aux GPU. Aujourd'hui, nous développons des modèles plus importants et plus complexes qui permettent de développer un sens plus profond et plus pertinent à partir d'un texte écrit. Nombreux sont nos clients qui doivent avoir accès à ces informations en temps réel et les performances des instances Inf2 nous aideront à réduire la latence et à augmenter le débit en comparaison aux instances Inf1. Grâce aux améliorations des performances Inf2 et aux nouvelles fonctionnalités Inf2, telles que la prise en charge des formats d'entrée dynamiques, nous améliorons notre rentabilité, augmentons l'expérience client en temps réel et aidons nos clients à tirer de nouvelles conclusions de leurs données. »
Franz Weckesser, Architecte principal, Finch Computing
Money Forward, Inc. sert les entreprises et particuliers au moyen d'une plateforme financière ouverte et juste. Au sein de cette plateforme, HiTTO Inc., une société du groupe Money Forward, propose un service de discussion par IA qui utilise des modèles du traitement du langage naturel (NLP) sur mesure pour répondre aux besoins divers des clients d'entreprise.
« Nous avons lancé un service de chatbot basé sur l'IA à grande échelle sur les instances Amazon EC2 Inf1 et avons réduit notre latence d'inférence de 97 % par rapport à des instances comparables basées sur GPU, tout en réduisant les coûts. Nous avons été très heureux de constater de nouvelles améliorations des performances dans les résultats de nos premiers tests sur les instances Amazon EC2 Inf2. En utilisant le même modèle NLP personnalisé, AWS Inf2 a pu réduire encore la latence de 10 fois par rapport à Inf1. Alors que nous évoluons vers des modèles de plusieurs milliards de paramètres, Inf2 nous donne l'assurance de pouvoir continuer à fournir à nos clients une expérience utilisateur de bout en bout de qualité supérieure ».
Takuya Nakade, directeur technique de Money Forward Inc.
« Chez Fileread.ai, nous développons des solutions pour que l'interaction avec vos documents soit aussi simple que de leur poser des questions, afin de permettre aux utilisateurs de trouver ce qu'ils recherchent dans tous leurs documents et d'obtenir les bonnes informations plus rapidement. Depuis le passage à la nouvelle instance Inf2 EC2, nous avons constaté une amélioration significative de nos capacités d'inférence NLP. Les économies de coûts à elles seules ont changé la donne pour nous, nous permettant d'allouer les ressources de manière plus efficace sans sacrifier la qualité. Nous avons réduit notre latence d'inférence de 33 % tout en augmentant le débit de 50 %, ce qui a ravi nos clients grâce à des délais d'exécution plus rapides. Notre équipe a été époustouflée par la vitesse et les performances d'Inf2 par rapport aux anciennes instances G5, et il est clair qu'il s'agit de l'avenir du déploiement des modèles NLP. »
Daniel Hu, PDG de Fileread
« À Yaraku, notre mission est de créer l'infrastructure qui aide les gens à communiquer au-delà des barrières linguistiques. Notre produit phare, YarakuZen, permet à tout le monde, des traducteurs professionnels aux personnes unilingues, de traduire et de post-éditer des textes et des documents en toute confiance. Pour soutenir ce processus, nous proposons une large gamme d'outils sophistiqués basés sur des modèles de deep learning, couvrant des tâches telles que la traduction, l'alignement de mots bitextes, la segmentation de phrases, la modélisation linguistique et bien d'autres. En utilisant les instances Inf1, nous avons pu accélérer nos services pour répondre à la demande croissante tout en réduisant le coût d'inférence de plus de 50 % par rapport aux instances basées sur GPU. Nous nous dirigeons maintenant vers le développement de modèles plus grands de nouvelle génération qui nécessiteront les fonctionnalités améliorées des instances Inf2 pour répondre à la demande tout en maintenant une faible latence. Avec Inf2, nous pourrons augmenter nos modèles de 10 tout en maintenant un débit similaire, ce qui nous permettra d'offrir des niveaux de qualité encore plus élevés à nos clients ».
Giovanni Giacomo, responsable NLP, Yaraku
Témoignages des partenaires AWS
« La mission de Hugging Face est de démocratiser une machine learning de qualité afin d’aider les développeurs de machine learning du monde entier à résoudre des problèmes concrets. Pour ce faire, il est essentiel de s’assurer que les modèles les plus récents et les plus performants s’exécutent aussi rapidement et efficacement que possible sur les meilleures puces de machine learning du cloud. Nous sommes très enthousiastes à l’idée qu’Inferentia2 puisse devenir le nouveau moyen standard de déployer des modèles d’IA génératives à grande échelle. Avec Inf1, nous avons constaté des coûts jusqu'à 70 % inférieurs à ceux des instances traditionnelles basées sur GPU, et avec Inf2, nous avons constaté une latence jusqu'à 8 fois plus faible pour les transformateurs de type Bert par rapport à Inferentia1. Avec Inferentia2, notre communauté pourra facilement adapter cette performance aux LLM à l'échelle de plus de 100 milliards de paramètres, ainsi qu'aux modèles de diffusion et de vision par ordinateur les plus récents ».
« PyTorch accélère le passage du prototypage de recherche aux déploiements de production pour les développeurs de machine learning. Nous avons collaboré avec l’équipe AWS pour fournir un support PyTorch natif pour les nouvelles instances Amazon EC2 Inf2 alimentées par AWS Inferentia2. Alors que de plus en plus de membres de notre communauté cherchent à déployer de grands modèles d’IA générative, nous sommes ravis de nous associer à l’équipe AWS pour optimiser l’inférence distribuée sur les instances Inf2 grâce à une connectivité NeuronLink haut débit entre les puces. Avec Inf2, les développeurs utilisant PyTorch peuvent désormais déployer facilement des LLM et des modèles de transformateurs de vision de très grande taille. En outre, les instances Inf2 apportent d'autres capacités innovantes aux développeurs PyTorch, notamment des types de données efficaces, des formes dynamiques, des opérateurs personnalisés et des arrondis stochastiques optimisés au niveau matériel, ce qui les rend tout à fait adaptées à une large adoption par la communauté PyTorch. »
« Weight & Biases (W&B) fournit des outils de développement aux ingénieurs en machine learning et aux spécialistes des données pour créer de meilleurs modèles plus rapidement. La plateforme W&B fournit aux praticiens du machine learning une grande variété d'informations pour améliorer les performances des modèles, y compris l'utilisation de l'infrastructure informatique sous-jacente. Nous avons collaboré avec l'équipe AWS pour ajouter la prise en charge d'Amazon Trainium et d'Inferentia2 à notre tableau de bord des métriques du système, fournissant ainsi des données précieuses indispensables lors de l'expérimentation des modèles et de la formation. Cela permet aux praticiens de machine learning d'optimiser leurs modèles pour tirer pleinement parti du matériel spécialisé d'AWS afin d'entraîner leurs modèles plus rapidement et à moindre coût. »
Phil Gurbacki, vice-président des produits, Weights & Biases
« OctoML aide les développeurs à réduire les coûts et à créer des applications d'IA évolutives en conditionnant leurs modèles DL pour qu'ils fonctionnent sur du matériel haute performance. Nous avons passé les dernières années à développer notre expertise sur les meilleures solutions logicielles et matérielles et à les intégrer à notre plateforme. Nos racines en tant que concepteurs de puces et pirates informatiques rendent AWS Trainium et Inferentia encore plus intéressants pour nous. Nous considérons ces puces comme un facteur clé pour l’avenir de l’innovation en matière d’IA sur le cloud. Le lancement des instances Inf2 en DG arrive à point nommé, car nous assistons à l’émergence d’un LLM populaire en tant qu’élément clé des applications d’IA de nouvelle génération. Nous sommes ravis de rendre ces instances disponibles sur notre plateforme afin d'aider les développeurs à tirer facilement parti de leurs performances élevées et de leurs avantages en termes de réduction des coûts. »
Jared Roesch, directeur technique et cofondateur, OctoML
« Le défi historique des LLM, et plus généralement des applications d'IA générative au niveau des entreprises, réside dans les coûts associés à la formation et à l'exécution de modèles DL à hautes performances. Avec AWS Trainium, AWS Inferentia2 élimine les compromis financiers auxquels sont confrontés nos clients lorsqu'ils ont besoin d'une formation de haute performance. Désormais, nos clients qui recherchent des avantages en matière de formation et d'inférence peuvent obtenir de meilleurs résultats à moindre coût. Trainium et Inferentia accélèrent leur mise à l'échelle pour répondre aux exigences les plus exigeantes en matière de DL des plus grandes entreprises d'aujourd'hui. De nombreux clients de Nextira exécutant de grandes charges de travail liées à l'IA bénéficieront directement de ces nouveaux chipsets, qui accroîtront leur efficacité en termes d'économies de coûts et de performances et se traduiront par des résultats plus rapides sur leur marché. »
Jason Cutrer, fondateur et PDG de Nextira
Service Amazon utilisant les instances Inf2 Amazon EC2
Amazon CodeWhisperer est un compagnon de codage basé sur l'IA qui génère des recommandations de code en temps réel sur une seule ligne ou sur des fonctions complètes dans votre environnement de développement intégré (IDE) afin de vous aider à créer rapidement des logiciels.
« Avec CodeWhisperer, nous améliorons la productivité des développeurs de logiciels en fournissant des recommandations de code à l'aide de modèles d'IA génératifs. Pour développer des recommandations de code très efficaces, nous avons adapté notre réseau DL à des milliards de paramètres. Nos clients ont besoin de recommandations de code en temps réel au fur et à mesure de la saisie. Les réponses à faible latence sont donc essentielles. Les grands modèles d'IA générative nécessitent un calcul de haute performance pour fournir des temps de réponse en une fraction de seconde. Avec Inf2, nous obtenons la même latence que lorsque vous exécutez CodeWhisperer lors de l'entraînement d'instances GPU optimisées pour de grandes séquences d'entrée et de sortie. Ainsi, les instances Inf2 nous aident à économiser des coûts et de l'énergie tout en offrant la meilleure expérience possible aux développeurs ».
Doug Seven, directeur général d'Amazon CodeWhisperer
Le moteur de recherche de produits d'Amazon indexe des milliards de produits, répond à des milliards de requêtes de clients chaque jour et est l'un des services les plus utilisés au monde.
« Je suis très enthousiaste à l'idée du lancement d'Inf2 GA. Les performances supérieures d'Inf2, associées à sa capacité à gérer des modèles plus grands avec des milliards de paramètres, en font le choix idéal pour nos services et nous permettent de découvrir de nouvelles possibilités en termes de complexité et de précision des modèles. Grâce à l'accélération et à la rentabilité considérables offertes par Inf2, leur intégration à l'infrastructure de serveur Amazon Search peut nous aider à répondre aux demandes croissantes de nos clients. Nous prévoyons de dynamiser nos nouvelles expériences d'achat en utilisant des LLM génératifs utilisant Inf2. »
Trishul Chilimbi, vice-président, Amazon Search
Démarrage
Utilisation d'Amazon SageMaker
Déployez des modèles sur des instances Inf2 plus facilement en utilisant Amazon SageMaker et réduisez considérablement les coûts de déploiement des modèles de machine learning et augmentez les performances sans avoir à gérer l'infrastructure. SageMaker est un service entièrement géré qui s'intègre aux outils MLOps. Vous pouvez donc étendre le déploiement de vos modèles, gérer les modèles plus efficacement en production et réduire la charge opérationnelle.
Utilisation des AWS Deep Learning AMI
Les AWS Deep Learning AMI (DLAMI) aux praticiens et aux chercheurs en DL l'infrastructure et les outils nécessaires pour accélérer la DL dans le cloud, à n'importe quelle échelle. Les pilotes AWS Neuron sont pré-configurés dans le DLAMI pour déployer vos modèles DL de manière optimale sur les instances Inf2.
Exécution des conteneurs AWS Deep Learning
Vous pouvez désormais déployer des instances Inf2 dans Amazon Elastic Kubernetes Service (Amazon EKS), un service Kubernetes entièrement géré, et dans Amazon Elastic Container Service (Amazon ECS), un service d'orchestration de conteneurs entièrement géré. Neuron est également disponible préinstallé dans lesconteneurs AWS Deep Learning. Pour en savoir plus sur l'exécution de conteneurs sur des instances Inf2, consultez lesdidacticiels sur les conteneurs Neuron.
Créer un compte AWS
Obtenez un accès instantané à l'offre gratuite d'AWS.
Apprenez-en plus avec des tutoriels de 10 minutes.
Explorez et apprenez avec des tutoriels simples.
Commencez à créer sur la console.
Lancez votre projet AWS en vous appuyant sur les guides étape par étape.