Instances Amazon EC2 Inf1
Les entreprises d'un large éventail de secteurs d'activité envisagent une transformation basée sur l'intelligence artificielle (IA) afin de stimuler l'innovation commerciale et d'améliorer l'expérience client et les processus. Les modèles de Machine Learning (ML) qui alimentent les applications d'IA deviennent de plus en plus complexes, ce qui entraîne une hausse des coûts de l'infrastructure informatique sous-jacente. L'inférence représente souvent jusqu'à 90 % des dépenses d'infrastructure pour le développement et l'exécution d'applications ML. Les clients recherchent des solutions d'infrastructure rentables pour déployer leurs applications ML en production.
Les instances Inf1 d'Amazon EC2 offrent l'inférence ML à haute performance et à moindre coût. Ces instances offrent un débit jusqu'à 2,3 fois plus élevé et leur coût par inférence est jusqu'à 70 % inférieur à celui des instances Amazon EC2 comparables. Les instances Inf1 sont conçues dès le départ pour soutenir les applications d’inférence ML. Ils comportent jusqu’à 16 puces AWS Inferentia, des puces d’inférence ML de haute performance conçues et fabriquées par AWS. En outre, les instances Inf1 sont dotées des processeurs Intel® Xeon® Scalable de 2e génération, et elles offrent une mise en réseau à un débit atteignant 100 Gbit/s pour une inférence à haut débit.
Les clients peuvent utiliser les instances Inf1 pour exécuter des applications d'inférence ML à grande échelle telles que la recherche, les moteurs de recommandation, la vision par ordinateur, la reconnaissance vocale, le traitement du langage naturel (NLP), la personnalisation et la détection des fraudes.
Les développeurs peuvent déployer leurs modèles de machine learning dans les instances Inf1 à l'aide de SDK AWS Neuron, qui est intégré dans les principaux frameworks de machine learning, tels que TensorFlow, PyTorch et Apache MXNet. Ils peuvent continuer à utiliser les mêmes flux de travail ML et migrer de manière transparente les applications vers les instances Inf1 avec un minimum de modifications du code et sans lien avec des solutions spécifiques à un fournisseur.
Démarrez facilement avec les instances Inf1 utilisant Amazon SageMaker, AWS Deep Learning AMI (DLAMI) préconfigurées avec le SDK Neuron, ou Amazon Elastic Container Service (Amazon ECS) ou Amazon Elastic Kubernetes Service (Amazon EKS) pour les applications de machine learning conteneurisées.
Avantages
Jusqu'à 70 % de réduction du coût par inférence
Grâce à Inf1, les développeurs peuvent réduire considérablement le coût de leurs déploiements de production de machine learning. La combinaison du faible coût d'instance et du débit élevé des instances Inf1 permet un coût par inférence jusqu'à 70 % inférieur à celui des instances Amazon EC2 comparables.
Simplicité d'utilisation et portabilité du code
SDK Neuron est intégré aux frameworks de Machine Learning courants, tels que TensorFlow, PyTorch et MXNet. Les développeurs peuvent continuer à utiliser les mêmes workflows de ML et migrer de manière transparente leur application vers les instances Inf1 avec des modifications minimales du code. Cela leur donne la liberté d'utiliser le cadre de ML de leur choix, la plateforme informatique qui répond le mieux à leurs besoins et les technologies les plus récentes, sans être liés à des solutions spécifiques à un fournisseur.
Débit jusqu'à 2,3 fois plus important
Les instances Inf1 offrent un débit jusqu'à 2,3 fois supérieur à celui des instances Amazon EC2 comparables. Les puces AWS Inferentia qui alimentent les instances Inf1 sont optimisées pour les performances d'inférence des lots de petite taille, ce qui permet aux applications en temps réel de maximiser le débit et de répondre aux exigences de latence.
Temps de latence extrêmement faible
Les puces AWS Inferentia sont dotées d'une vaste mémoire intégrée permettant la mise en cache des modèles de Machine Learning directement sur la puce. Vous pouvez déployer vos modèles à l'aide de fonctionnalités telles que le pipeline NeuronCore, qui élimine le besoin d'accéder à des ressources de mémoire externes. Avec les instances Inf1, vous pouvez déployer des applications d'inférence en temps réel à des latences proches du temps réel sans incidence sur la bande passante.
Support pour différents modèles de machine learning et types de données
Les instances Inf1 prennent en charge de nombreuses architectures de modèles ML couramment utilisées, telles que SSD, VGG et ResNext pour la reconnaissance/classification d'images, ainsi que Transformer et BERT pour le NLP. En outre, la prise en charge du référentiel de modèles HuggingFace dans Neuron permet aux clients de compiler et d'exécuter facilement l'inférence à l'aide de modèles pré-entraînés ou affinés en ne modifiant qu'une seule ligne de code. Plusieurs types de données, y compris BF16 et FP16 avec une précision mixte, sont également pris en charge pour divers modèles et besoins de performance.
Fonctionnalités
À technologie AWS Inferentia
AWS Inferentia est une puce de machine learning conçue par AWS pour offrir des inférences haute performance à faible coût. Chaque puce AWS Inferentia comporte quatre NeuronCores de première génération et offre des performances allant jusqu'à 128 opérations tera par seconde (TOPS), ainsi que la prise en charge des types de données FP16, BF16 et INT8. Les puces AWS Inferentia disposent également d'une grande mémoire qui peut être utilisée pour la mise en cache de modèles conséquents, ce qui est particulièrement avantageux pour les modèles qui nécessitent un accès fréquent à la mémoire.
Déploiement avec des frameworks ML courants associés à AWS Neuron
Le SDK AWS Neuron comprend un compilateur, un pilote d'exécution et des outils de profilage. Il permet de déployer des modèles de réseaux de neurones complexes, créés et formés dans des frameworks courants, tels que TensorFlow, PyTorch et MXNet, à l'aide des instances Inf1. Grâce au pipeline NeuronCore, vous pouvez diviser de grands modèles à exécuter sur plusieurs puces Inferentia via une interconnexion physique haute vitesse, offrant un débit d'inférence élevé et des coûts réduits.
Mise en réseau et stockage hautes performances
Les instances Inf1 proposent jusqu'à 100 Gbits/s de débit réseau pour les applications nécessitant un accès à la mise en réseau à haut débit. L'adaptateur réseau élastique (ENA) et la technologie NVM Express (NVMe) de nouvelle génération fournissent des instances Inf1 avec des interfaces à faible latence et à débit élevé pour la mise en réseau et Amazon Elastic Block Store (Amazon EBS).
Basé sur AWS Nitro System
Le système AWS Nitro est un ensemble étendu de composants qui décharge de nombreuses fonctions de virtualisation traditionnelles sur du matériel et des logiciels dédiés afin d'offrir des niveaux élevés de performances, de disponibilité et de sécurité, tout en réduisant les frais de virtualisation.
Fonctionnement
Témoignages de clients
« Nous intégrons le machine learning (ML) dans de nombreux aspects de Snapchat, et l’exploration de l’innovation dans ce domaine est une priorité essentielle. Dès que nous avons entendu parler d'Inferentia, nous avons commencé à collaborer avec AWS pour adopter des instances Inf1/Inferentia afin de nous aider dans le déploiement du ML, notamment en termes de performance et de coût. Nous avons commencé par nos modèles de recommandation, et sommes impatients d'adopter d'autres modèles avec les instances Inf1 à l'avenir. »
Nima Khajehnouri, vice-président responsable de l'ingénierie, Snap Inc.
« La plateforme de gestion unifiée de l'expérience client (Unified-CXM) de Sprinklr, basée sur l'IA, permet aux entreprises de recueillir et de traduire les commentaires des clients en temps réel sur plusieurs canaux en informations exploitables, ce qui se traduit par une résolution proactive des problèmes, un développement de produits plus performant, un marketing de contenu plus efficace, un meilleur service client, etc. Grâce aux instance Inf1 Amazon EC2, nous avons pu améliorer de manière significative les performances de l'un de nos modèles de traitement du langage naturel (NLP), ainsi que les performances de l'un de nos modèles de reconnaissance d'image. Nous sommes impatients de continuer à utiliser les instances Inf1 Amazon EC2, afin de mieux servir nos clients internationaux. »
Vasant Srinivasan, vice-président principal responsable de l'ingénierie des produits, Sprinklr
« Notre produit de traitement du langage naturel (NLP) ultramoderne, Finch for Text, permet aux utilisateurs d'extraire, de désambiguïser et d'enrichir de nombreux types d'entités dans d'importants volumes de texte. Finch for Text nécessite des ressources informatiques considérables pour fournir à nos clients des enrichissements à faible latence sur les flux de données mondiaux. Nous utilisons désormais les instances Inf1 AWS dans nos modèles PyTorch NLP, de traduction ainsi que de désambiguïsation d'entités. Nous avons pu réduire de plus de 80 %nos coûts d'inférence (sur les instances basées sur le GPU) avec des optimisations minimales, tout en maintenant la vitesse et les performances des inférences. Grâce à cette amélioration permet, nos clients peuvent enrichir leur texte en français, en espagnol, en allemand et en néerlandais en temps réel sur des flux de streaming de données à l'échelle mondiale, une capacité essentielle pour nos services financiers, notre agrégateur de données et nos clients du secteur public. »
Scott Lightner, directeur technique (CTO) – Finch Computing
« Nous alertons sur de nombreux types d'événements dans le monde entier dans de nombreuses langues, sous différents formats (images, vidéo, audio, capteurs de texte, combinaisons de tous ces types) à partir de centaines de milliers de sources. L'optimisation de la vitesse et des coûts étant donné que l'échelle est absolument essentielle pour notre entreprise. Avec AWS Inferentia, nous avons réduit la latence des modèles et atteint un débit jusqu'à 9 fois supérieur par dollar. Cela nous a permis d'augmenter la précision des modèles et d'accroître les capacités de notre plateforme en déployant des modèles DL plus sophistiqués et en traitant 5 fois plus de volume de données tout en maîtrisant nos coûts. »
Alex Jaimes, scientifique en chef et vice-président senior de l'IA, Dataminr
« Autodesk fait progresser la technologie cognitive de son assistant virtuel optimisé par l'IA, Autodesk Virtual Agent (AVA), en utilisant Inferentia. AVA répond à plus de 100 000 questions de clients par mois en appliquant la compréhension du langage naturel (NLU) et des techniques de deep learning pour extraire le contexte, l'intention et la signification des demandes de renseignements. En pilotant Inferentia, nous sommes en mesure d'obtenir un débit 4,9 fois supérieur à celui de G4dn pour nos modèles NLU, et nous sommes impatients d'exécuter d'autres charges de travail sur les instances Inf1 basées sur Inferentia. »
Binghui Ouyang, Sr. Scientifique des données, Autodesk
Service Amazon utilisant les instances Inf1 Amazon EC2
Amazon Advertising aide les entreprises de toutes tailles à entrer en contact avec leurs clients à chaque étape de leur processus d'achat. Des millions d'annonces, y compris du texte et des images, sont modérées, classées et diffusées pour une expérience client optimale chaque jour.
« Pour le traitement de nos annonces textuelles, nous déployons des modèles BERT basés sur PyTorch dans le monde entier sur des instances Inf1 basées sur AWS Inferentia. En passant des GPU à Inferentia, nous avons pu réduire nos coûts de 69 % en maintenant des performances comparables. La compilation et les tests de nos modèles pour AWS Inferentia ont duré moins de trois semaines. L'utilisation d'Amazon SageMaker pour déployer nos modèles sur des instances Inf1 a garanti que notre déploiement était évolutif et facile à gérer. Lorsque j'ai analysé pour la première fois les modèles compilés, les performances avec AWS Inferentia étaient si impressionnantes que j'ai dû exécuter à nouveau les tests de performance pour m'assurer qu'ils étaient corrects ! À l'avenir, nous prévoyons de migrer nos modèles de traitement d'annonces illustrées vers Inferentia. Nous avons déjà évalué une latence inférieure de 30 % et des économies de coûts de 71 % par rapport à des instances comparables basées sur GPU pour ces modèles. »
Yashal Kanungo, spécialiste en sciences appliquées, Amazon Advertising
Lire l'article du blog des actualités »
« L'intelligence d'Amazon Alexa, basée sur l'IA et le ML et alimentée par Amazon Web Services, est disponible sur plus de 100 millions d'appareils aujourd'hui - et nous promettons à nos clients qu'Alexa deviendra toujours plus intelligente, plus conversationnelle, plus proactive et encore plus agréable. Pour tenir cette promesse, nous devons continuer à réduire les temps de réponse et les coûts d'infrastructure de machine learning. Nous sommes donc extrêmement impatients d'utiliser les instances Inf1 Amazon EC2 pour réduire la latence d'inférence et le coût par inférence de la synthèse vocale Alexa. Avec l’instance Inf1 Amazon EC2, nous pourrons perfectionner le service rendu aux dizaines de millions de clients qui utilisent Alexa chaque mois. »
Tom Taylor, vice-président senior, Amazon Alexa
« Nous innovons sans cesse pour améliorer davantage notre expérience client et réduire nos coûts d'infrastructure. Déplacer nos charges de travail WBQA (réponse aux questions basée sur le web) des instances P3 GPU vers des instances Inf1 basées sur AWS Inferentia nous a non seulement permis de réduire de 60 % les coûts d'inférence, mais aussi d'accroître de plus de 40 % la latence de bout en bout, améliorant ainsi l'expérience client en termes de questions-réponses avec Alexa. L'utilisation d'Amazon SageMaker pour notre modèle basé sur TensorFlow a permis de rendre le processus de commutation vers les instances Inf1 rapide et simple à gérer. Nous utilisons désormais les instances Inf1 à travers le monde pour exécuter les charges de travail WBQA, et nous optimisons leurs performances pour AWS Inferentia afin de réduire davantage les coûts et la latence. »
Eric Lind, ingénieur de développement logiciel, Alexa AI
« Amazon Prime Video s'appuie sur les modèles ML de vision par ordinateur pour analyser la qualité vidéo des événements en direct afin de garantir une expérience utilisateur optimale pour les membres de Prime Video. Nous avons déployé nos modèles ML de classification d'images sur les instances Inf1 EC2 et avons pu noter un quadruplement des performances et jusqu'à 40 % d'économies de coûts. Nous entendons maintenant utiliser ces économies de coûts pour innover et créer des modèles avancés capables de détecter des défauts plus complexes, par exemple les lacunes de synchronisation entre les fichiers audio et les fichiers vidéo, afin d'améliorer davantage l'expérience de visionnement pour les membres Prime Video. »
Victor Antonino, architecte de solutions, Amazon Prime Video
« Amazon Rekognition est une application simple et facile d'analyse d'images et de vidéos qui aide les clients à identifier des objets, des personnes, du texte et des activités. Amazon Rekognition nécessite une infrastructure de deep learning hautement performante, capable d'analyser quotidiennement des milliards d'images et de vidéos pour nos clients. Avec les instances Inf1 basées sur AWS Inferentia, l'exécution de modèles Amazon Rekognition tels que la classification d'objets, a permis de réduire de 8 fois la latence et de 2 fois le débit par rapport à l'exécution de ces modèles sur les GPU. Compte tenu de ces résultats, nous basculons Amazon Rekognition vers Inf1, ce qui permettra à nos clients d'obtenir des résultats précis, plus rapidement. »
Rajneesh Singh, Directeur, SW Engineering, Amazon Rekognition et Video
Tarification
*Prix pour la région AWS USA Est (Virginie du Nord). Les tarifs pour 1 an et 3 ans des instances réservées correspondent aux options de paiement « Frais initiaux partiels » ou « Aucuns frais initiaux » pour les instances sans l'option Frais initiaux partiels.
Les instances Inf1 d'Amazon EC2 sont disponibles dans les régions AWS USA Est (Virginie du Nord) et USA Ouest (Oregon) sous la forme d'instances sur demande, réservées ou Spot.
Démarrage
Utilisation d'Amazon SageMaker
SageMaker facilite la compilation et le déploiement de votre modèle de machine learning entraîné en production sur des instances Amazon Inf1, afin que vous puissiez commencer à générer des prévisions en temps réel avec une faible latence. AWS Neuron, le compilateur pour AWS Inferentia, est intégré à Amazon SageMaker Neo, ce qui vous permet de compiler vos modèles de machine learning formés pour un fonctionnement optimal sur les instances Inf1. Avec SageMaker, vous pouvez facilement exécuter vos modèles sur des clusters d'instances Inf1 à l'autoscaling, répartis sur plusieurs zones de disponibilité, afin de fournir une inférence en temps réel à la fois performante et hautement disponible. Apprenez à déployer vers des instances Inf1 avec Amazon SageMaker à l'aide d'exemples sur Github.
Utilisation de DLAMI
DLAMI fournit aux praticiens et chercheurs en ML l'infrastructure et les outils nécessaires pour accélérer la DL dans le cloud, à n'importe quelle échelle. Le SDK AWS Neuron est préinstallé dans DLAMI pour compiler et exécuter vos modèles de machine learning de manière optimale sur les instances Inf1. Pour vous aider tout au long du processus de démarrage, vous pouvez consulter le guide de sélection des AMI ainsi que d'autres ressources de deep learning. Pour apprendre à utiliser les DLAMI avec Neuron, reportez-vous au Guide de mise en route d'AWS DLAMI.
Utilisation de conteneurs Deep Learning
Les développeurs peuvent désormais déployer des instances Inf1 dans Amazon EKS, qui est un service Kubernetes entièrement géré, et dans Amazon ECS, qui est un service d'orchestration de conteneur entièrement géré d'Amazon. En savoir plus sur la mise en route d'Inf1 sur Amazon EKS ou avec Amazon ECS. Plus de détails sur l'exécution de conteneurs sur des instances Inf1 sont disponibles sur la page du tutoriel des outils de conteneur Neuron. Neuron est également disponible préinstallé dans les conteneurs AWS Deep Learning.
Articles et blogs
Comment Amazon Search a réduit les coûts d'inférence ML de 85 % avec AWS Inferentia
par Joao Moura, Jason Carlson, Jaspreet Singh, Shaohui Xi, Shruti Koparkar, Haowei Sun, Weiqi Zhang, et Zhuoqi Zhangs, 22/09/2022
Une infrastructure de machine learning performante et abordable accélère l'innovation dans le cloud.
par le MIT Technology Review Insights, 01/11/2021
par Davide Galliteli et Hasan Poonawala, 19/10/2021
Le machine learning dans le cloud aide les entreprises à innover
par le MIT Technology Review Insights, 15/10/2021
par Alex Iankoulski, Joshua Correa, Mahadevan Balasubramaniam, et Sundar Ranganatha, 30/09/2021
Fabio Nonato de Paula et Mahadevan Balasubramaniam, 04/05/2021
Sébastien Stormacq, 12/11/2020
Amazon ECS présent désormais en charge les instances EC2 Inf1
par Julien Simon, 14/08/2020
Fabio Nonato De Paula et Haichen Li, 22-07-2020
Amazon EKS prend désormais en charge les instances Inf1 EC2
Julien Simon, 15/06/2020
Ressources supplémentaires
- Apprenez à déployer vers des instances Inf1 à l'aide d'Amazon SageMaker avec des exemples Amazon SageMaker sur Github
- Mise en route de AWS Neuron
- Caractéristiques de la feuille de route d'AWS Neuron
- Utiliser AWS Neuron depuis TensorFlow, PyTorch ou MXNet
- Consultez le forum des développeurs AWS Neuron pour obtenir de l'aide