Pourquoi Trainium ?
AWS Trainium est une puce de machine learning (ML) qu’AWS a spécialement conçue pour la formation deep learning (DL) de plus de 100 milliards de modèles de paramètres. Chaque instance Trn1 d’Amazon Elastic Compute Cloud (Amazon EC2) déploie jusqu’à 16 accélérateurs Trainium afin de fournir une solution performante et peu coûteuse pour la formation en DL dans le cloud. Bien que l’utilisation du DL et de l’IA générative s’accélère, de nombreuses équipes de développement disposent de budgets fixes, ce qui limite la portée et la fréquence de la formation nécessaire pour améliorer leurs modèles et applications. Les instances Trn1 Amazon EC2 basées sur Trainium résolvent ce problème en accélérant le temps d’entraînement tout en réduisant jusqu’à 50 % les coûts d’entraînement par rapport aux instances EC2 comparables. Trainium a été optimisé pour la formation au traitement du langage naturel, à la vision par ordinateur et aux modèles de recommandation utilisés dans un large éventail d'applications, comme la synthèse de texte, la génération de code, la réponse à des questions, la génération d'images et de vidéos, la recommandation et la détection des fraudes.
AWS Neuron SDK aide les développeurs à former des modèles sur les accélérateurs Trainium (et à les déployer sur les accélérateurs AWS Inferentia). Il s’intègre nativement avec les frameworks les plus utilisés, tels que PyTorch et TensorFlow, afin que vous puissiez continuer à vous former sur les accélérateurs Trainium et à utiliser votre code et vos flux de travail existants.