Instances Trn1 Amazon EC2

Entraînement performant et rentable de modèles d'IA génératifs

Pour choisir les instances Amazon EC2 Trn1 ?

Optimisées par les puces AWS Trainium, les instances Amazon Elastic Compute Cloud (EC2) Trn1 sont spécialement conçues pour l’entraînement deep learning (DL) à hautes performances de modèles d’IA générative, notamment de grands modèles de langage (LLM) et des modèles de diffusion latente. Les instances Trn1 permettent d’économiser jusqu’à 50 % sur les coûts d’entraînement par rapport à d’autres instances Amazon EC2 comparables. Vous pouvez utiliser les instances Trn1 pour entraîner plus de 100 milliards de paramètres DL et des modèles d’IA générative dans un large éventail d’applications telles que la synthèse de texte, la génération de code, la réponse à des questions, la génération d’images et de vidéos, la recommandation et la détection des fraudes.

Le kit SDK AWS Neuron aide les développeurs à entraîner des modèles sur AWS Trainium (et à déployer des modèles sur les accélérateurs AWS Inferentia). Il s’intègre nativement avec des cadres tels que PyTorch et TensorFlow, afin que vous puissiez continuer à utiliser votre code et vos flux de travail existants pour entraîner des modèles sur des instances Trn1. Pour en savoir plus sur la prise en charge actuelle par Neuron des cadres et bibliothèques de machine learning (ML), des architectures de modèles et des optimisations matérielles, consultez la documentation de Neuron.

Présentation des instances Amazon EC2 Trn1 basées sur AWS Trainium

Avantages

Les instances Trn1 sont spécialement conçues pour un DL de haute performance et réduisent les temps d'entraînement de plusieurs mois à quelques semaines, voire à quelques jours. Grâce à la réduction des temps d'entraînement, vous pouvez itérer plus rapidement, créer des modèles plus innovants et augmenter votre productivité. Les instances Trn1n offrent un temps d'entraînement jusqu'à 20 % plus rapide que les Trn1 pour les modèles qui bénéficient d'une bande passante du réseau accrue.

Les instances Trn1 offrent des performances élevées tout en permettant d'économiser jusqu'à 50 % sur les coûts d'entraînement par rapport à d'autres instances Amazon EC2 comparables.

Utilisez le kit SDK AWS Neuron pour extraire toutes les performances des instances Trn1. Avec Neuron, vous pouvez utiliser des cadres de machine learning populaires tels que PyTorch et TensorFlow et continuer de vous servir de votre code et de vos flux de travail existants pour entraîner des modèles sur des instances Trn1. Pour démarrer rapidement avec les instances Trn1, consultez les exemples de modèles populaires dans la documentation Neuron.

Les instances Trn1 prennent en charge jusqu'à 800 Gbit/s de bande passante du réseau Elastic Fabric Adapter (EFAv2) de deuxième génération. Les instances Trn1n prennent en charge jusqu’à 1600 Gbit/s de bande passante du réseau EFAv2 afin d’offrir des performances encore plus élevées pour les modèles gourmands en réseau. Les deux types d’instances sont déployés dans des UltraClusters EC2 qui permettent de mettre à l’échelle jusqu’à 30 000 puces Trainium, qui sont interconnectés avec un réseau non bloquant à l’échelle du pétabit pour fournir 6 exaflops de calcul.

Caractéristiques

Les instances Trn1 sont alimentées par jusqu’à 16 puces AWS Trainium spécialement conçus pour accélérer l’entraînement DL et fournir jusqu’à 3 pétaflops de puissance de calcul FP16/BF16. Chaque puce comprend deux NeuronCores de deuxième génération.

Pour permettre un parallélisme efficace des données et des modèles, chaque instance Trn1 dispose de 512 Go de mémoire d'accélération partagée (HBM) avec 9,8 To/s de bande passante de mémoire totale.

Pour prendre en charge l'entraînement de modèles gourmands en réseau, tels que Mixture of Experts (MoE) et Generative Pre-Trained Transformers (GPT), chaque instance Trn1n fournit jusqu'à 1 600 Gbit/s de bande passante réseau EFAv2. Chaque instance Trn1 prend en charge jusqu'à 800 Gbit/s de bande passante EFAv2. L'EFAv2 accélère l’entraînement distribué en améliorant jusqu'à 50 % les performances de communication collective par rapport à l'EFA de première génération. Ces instances prennent également en charge jusqu'à 80 Gbit/s de bande passante Amazon Elastic Block Store (EBS) et jusqu'à 8 To de stockage sur disque SSD NVMe local pour un accès rapide des charges de travail à de grands jeux de données.

Pour une connectivité rapide entre les puces Trainium et des communications collectives rationalisées, les instances Trn1 prennent en charge jusqu’à 768 Go/s de NeuronLink, une interconnexion haut débit non bloquante.

Pour fournir des performances élevées tout en respectant les objectifs de précision, les instances Trn1 sont optimisées pour les types de données FP32, TF32, BF16, FP16, UINT8 et pour le nouveau type de données configurable FP8 (cFP8). Pour soutenir le rythme rapide de l'innovation en matière de DL et de l'IA générative, les instances Trn1 présentent plusieurs innovations qui les rendent flexibles et extensibles pour entraîner des modèles DL en constante évolution. Les instances Trn1 bénéficient d'optimisations matérielles et d'une prise en charge logicielle pour les formes d'entrée dynamiques. Pour permettre la prise en charge de nouveaux opérateurs à l'avenir, elles prennent en charge les opérateurs personnalisés écrits en C++. Elles prennent également en charge l'arrondi stochastique, une méthode d'arrondi par probabilités qui permet d'obtenir des performances élevées et une plus grande précision par rapport aux modes d'arrondi traditionnels.

Témoignages des clients et des partenaires

Voici quelques exemples de la manière dont les clients et partenaires ont atteint leurs objectifs métier grâce aux instances Amazon EC2 Trn1.

  • Databricks

    Plus de 10 000 organisations dans le monde, dont Comcast, Condé Nast et plus de 50 % des entreprises du Fortune 500, font confiance à Databricks pour unifier leurs données, leurs analyses et leur IA.

    Des milliers de clients ont mis en œuvre Databricks sur AWS, ce qui leur permet d’utiliser MosaicML pour préformer, affiner et diffuser des modèles de base pour de nombreux cas d’utilisation. AWS Trainium nous offre l'évolutivité et les hautes performances nécessaires pour entraîner nos modèles Mosaic MPT, et ce, à moindre coût. Alors que nous entraînons nos modèles Mosaic MPT de nouvelle génération, Trainium2 nous permettra de créer des modèles encore plus rapidement, ce qui nous permettra d’offrir à nos clients une évolutivité et des performances sans précédent afin de leur permettre de commercialiser plus rapidement leurs propres applications d’IA générative.

    Naveen Rao, vice-président du service d'IA générative, Databricks
  • Stockmark Co., Ltd

    Avec pour mission de « réinventer le mécanisme de création de valeur et de faire progresser l’humanité », Stockmark aide de nombreuses entreprises à créer et à développer des activités innovantes en fournissant une technologie de pointe en matière de traitement du langage naturel.

    Avec 16 nœuds d’instances Amazon EC2 Trn1 alimentés par les puces AWS Trainium, nous avons développé et publié stockmark-13b, un grand modèle de langage comportant 13 milliards de paramètres, pré-entraîné de zéro sur un corpus japonais de 220 milliards de jetons. Le corpus comprend les derniers textes du domaine des affaires jusqu’en septembre 2023. Le modèle a obtenu le score JSquad le plus élevé (0,813) au test de référence JGLUE (Japanese General Language Understanding Evaluation) par rapport à d'autres modèles équivalents. Il est disponible sur Hugging Face Hub et peut être utilisé à des fins commerciales avec la licence MIT. Les instances Trn1 nous ont permis de réduire les coûts de formation de 20 % par rapport aux instances GPU équivalentes.

    Kosuke Arima, CTO de Stockmark Co., Ltd.
  • RICOH

    RICOH propose des solutions d’environnement de travail et des services de transformation numérique conçus pour gérer et optimiser le flux d’informations entre les entreprises.

    La migration vers les instances Trn1 a été assez simple. Nous avons été en mesure d'achever la formation de notre modèle de paramètres 13B en seulement 8 jours. Forts de ce succès, nous sommes impatients de développer et d’entraîner notre modèle de paramètres 70B sur Trainium et sommes enthousiasmés par le potentiel de ces instances pour entraîner nos modèles plus rapidement et de manière plus rentable.

    Yoshiaki Umetsu, Director, Centre de développement des technologies numériques, RICOH
  • HeliXon

    Chez HeliXon, nous créons des solutions d’IA de nouvelle génération pour les thérapies à base de protéines. Notre objectif est de développer des outils d'IA qui permettent aux scientifiques de déchiffrer la fonction et l'interaction des protéines, d'interroger des jeux de données génomiques à grande échelle pour identifier des cibles et de concevoir des traitements tels que des anticorps et des thérapies cellulaires. Aujourd'hui, nous utilisons des bibliothèques de distribution d'entraînement telles que FSDP pour paralléliser l'entraînement des modèles sur de nombreux serveurs basés sur des GPU, mais cela nous prend encore des semaines pour entraîner un seul modèle. Nous sommes ravis d’utiliser les instances Amazon EC2 Trn1, dotées de la bande passante du réseau la plus élevée (800 Gbit/s) disponible sur AWS pour améliorer les performances de nos tâches d’entraînement distribuées et réduire les temps d’entraînement de nos modèles, tout en réduisant nos coûts.

    Jian Peng, CEO, Helixon
  • Money Forward, Inc.

    Money Forward, Inc. sert les entreprises et particuliers au moyen d'une plateforme financière ouverte et juste.

    Nous avons lancé un service de chatbot basé sur l’IA à grande échelle sur les instances Amazon EC2 Inf1 et avons réduit notre latence d’inférence de 97 % par rapport à des instances comparables basées sur GPU, tout en réduisant les coûts. Comme nous ajustons régulièrement les modèles de NLP personnalisés, il est également important de réduire les temps et les coûts d'entraînement des modèles. Sur la base de notre expérience acquise lors de la migration réussie de la charge de travail d’inférence sur les instances Inf1 et de nos premiers travaux sur les instances EC2 Trn1 basées sur AWS Trainium, nous pensons que les instances Trn1 apporteront une valeur ajoutée en termes d’amélioration des performances et des coûts du ML de bout en bout.

    Takuya Nakade, CTO, Money Forward, Inc.
  • Magic

    Magic est une société intégrée de produits et de recherche qui développe une IA qui se présente comme un collègue chargé de rendre le monde plus productif.

    L’entraînement de grands modèles autorégressifs basés sur des transformeurs est un élément essentiel de notre travail. Les instances Trn1 basées sur AWS Trainium sont conçues spécifiquement pour ces charges de travail et offrent une capacité de mise à l'échelle quasi infinie, une mise en réseau rapide entre les nœuds et une prise en charge avancée des types de données 8 et 16 bits. Les instances Trn1 nous aideront à entraîner de grands modèles plus rapidement et à moindre coût. Nous sommes particulièrement enthousiasmés par la prise en charge native de l’arrondissement stochastique BF16 dans Trainium, qui améliore les performances alors que la précision numérique est indissociable de la précision totale.

    Eric Steinberger, Cofounder and CEO, Magic
  • Cactus Communications

    CACTUS propose une gamme de produits et de solutions destinés aux chercheurs et aux organisations qui améliorent la manière dont la recherche est financée, publiée, communiquée et découverte.

    Chez Cactus Labs, nous exploitons la puissance de l’IA en menant des recherches axées sur le traitement du langage naturel, le classement et la recommandation, l’IA conversationnelle, les grands modèles de langage, la vision par ordinateur, la réalité augmentée et virtuelle et la XAI. Dans le cadre de notre objectif visant à accélérer l'entraînement des modèles de machine learning et à permettre à nos chercheurs de réaliser davantage d'expériences tout en gérant les coûts d'infrastructure, nous avons été ravis d'évaluer AWS Trainium. Les fonctionnalités prêtes à l’emploi d’AWS Trainium, telles que l’optimisation XLA, l’entraînement parallèle aux données multi-travailleurs et la mise en cache de graphes nous sont vraiment utiles pour réduire nos temps d’entraînement et nous aider à réaliser davantage d’expériences plus rapidement et à moindre coût.

    Nishchay Shah, directeur technique et responsable des produits émergents, Cactus Communications
  • Watashiha

    Watashiha propose un service de chatbot intelligent innovant et interactif, appelé « OGIRI AI », qui intègre l'humour pour donner une réponse amusante et instantanée à une question.

    Nous utilisons de grands modèles de langage pour intégrer l’humour et offrir une expérience conversationnelle plus pertinente à nos clients sur nos services d’IA. Cela nous oblige à pré-entraîner et à ajuster fréquemment ces modèles. Nous avons pré-entraîné un modèle japonais basé sur GPT sur l'instance EC2 Trn1.32xlarge, en tirant parti du tenseur et du parallélisme des données. L'entraînement a été achevé en 28 jours avec une réduction des coûts de 33 % par rapport à notre ancienne infrastructure basée sur des GPU. Alors que la complexité de nos modèles continue de croître rapidement, nous attendons avec impatience les instances Trn1n, qui disposent de deux fois plus de bande passante du réseau que les Trn1, afin d’accélérer l’entraînement des modèles plus volumineux.

    Yohei Kobashi, CTO, Watashiha, K.K.
  • PyTorch

    Chez PyTorch, nous accélérons les étapes du machine learning du prototypage de recherche à la production prête pour les clients. Nous avons étroitement collaboré avec l'équipe d'AWS pour fournir une prise en charge PyTorch native pour les nouvelles instances Amazon EC2 Trn1 basées sur AWS Trainium et conçues spécialement pour l'entraînement de modèles de deep learning. Les développeurs qui créent des modèles PyTorch peuvent commencer à entraîner sur des instances Trn1 avec des modifications de code réduites au minimum. En outre, nous avons travaillé avec la communauté d'OpenXLA pour proposer les bibliothèques distribuées PyTorch afin de faciliter la migration de modèles depuis des instances basées sur GPU vers des instances Trn1. Nous sommes enthousiasmés par les innovations apportées par les instances Trn1 à la communauté de PyTorch, notamment des types de données plus efficaces, des formes dynamiques, des opérateurs personnalisés, un arrondissement stochastique optimisé pour le matériel et un mode de débogage rapide. Tout cela contribue à une large adoption idéale des instances Trn1 par les développeurs de PyTorch et nous attendons avec impatience les futures contributions conjointes à PyTorch afin d’optimiser davantage les performances d’entraînement.

    Geeta Chauhan, Applied AI, Engineering Manager, PyTorch
  • Hugging Face

    La mission de Hugging Face est de démocratiser une machine learning de qualité afin d’aider les développeurs de machine learning du monde entier à résoudre des problèmes concrets. Pour ce faire, il est essentiel de s’assurer que les modèles les plus récents et les plus performants s’exécutent aussi rapidement et efficacement que possible sur les meilleures puces de machine learning du cloud. Nous sommes très enthousiastes à l’idée qu’Inferentia2 puisse devenir le nouveau moyen standard de déployer des modèles d’IA générative à grande échelle. Avec Inf1, nous avons constaté des coûts jusqu'à 70 % inférieurs à ceux des instances traditionnelles basées sur GPU, et avec Inf2, nous avons constaté une latence jusqu'à 8 fois plus faible pour les transformateurs de type BERT par rapport à Inferentia1. Avec Inferentia2, notre communauté pourra facilement adapter cette performance aux LLM à l’échelle de plus de 100 milliards de paramètres, ainsi qu’aux modèles de diffusion et de vision par ordinateur les plus récents.

  • Amazon

    Nous entraînons de grands modèles de langage (LLM) multimodaux (texte et image), multilingues, multirégions, préentraînés sur de multiples tâches et couvrant plusieurs entités (produits, requêtes, marques, avis, etc.) afin d’améliorer l’expérience d’achat des clients. Les instances Trn1 constituent un moyen plus durable d'entraîner des LLM en fournissant le meilleur rapport performance/watt comparé aux autres solutions de machine learning accélérées et nous offrent des performances élevées au moindre coût. Nous prévoyons d’explorer le nouveau type de données FP8 configurable et l’arrondissement stochastique accéléré hardware afin d’améliorer encore l’efficacité de notre entraînement et notre vitesse de développement.

    Trishul Chilimbi, vice-président, Amazon Search

Mise en route

Vous pouvez facilement entraîner des modèles sur des instances Trn1 à l’aide d’Amazon SageMaker. Vous réduisez considérablement le temps et les coûts d'entraînement et d'ajustement des modèles de ML sans avoir à gérer l'infrastructure. Avec SageMaker, vous pouvez utiliser des outils intégrés pour gérer et suivre les expériences d'entraînement, choisir automatiquement les hyperparamètres optimaux, déboguer les tâches d'entraînement et surveiller l'utilisation des ressources du système.

Les AWS Deep Learning AMIs (DLAMI) fournissent aux chercheurs et aux professionnels du deep learning (DL) l’infrastructure et les outils nécessaires pour accélérer le deep learning sur AWS, à n’importe quelle échelle. Les pilotes AWS Neuron sont préconfigurés dans la DLAMI pour entraîner vos modèles DL de manière optimale sur les instances Trn1.

Vous pouvez désormais déployer des instances Trn1 dans Amazon Elastic Kubernetes Service (EKS), un service Kubernetes entièrement géré, et dans Amazon Elastic Container Service (ECS), un service d’orchestration de conteneurs entièrement géré. Neuron est également disponible préinstallé dans les conteneurs AWS Deep Learning. Pour en savoir plus sur l’exécution de conteneurs sur des instances Trn1, consultez les tutoriels sur les conteneurs Neuron.

Informations sur le produit

Taille de l’instance Puces Trainium
Accélérateur
Mémoire
(Go)
vCPU Instance
Mémoire
(Gio)
Local
NVMe
Stockage
(To)
Réseau
Bande passante
(Gbit/s)
EFA et
RDMA
Support
EBS
Bande passante
(Gbit/s)
À la demande
Tarif horaire
1 an
Réservée
Instance
Efficace
Tarif horaire*
3 ans
Réservée
Instance
Efficace
Tarif horaire*
trn1.2xlarge 1 32 8 32 0,5 Jusqu'à 12,5 Non Jusqu'à 20 1,34 USD 0,79 USD 0,4744 USD
trn1.32xlarge 16 512 128 512 8 800 Oui 80 21,50 USD 12,60 USD 7,59 USD

trn1n.32xlarge

16 512 128 512 8 1 600 Oui 80 24,78 USD 14,52 USD 8,59 USD