Instances Amazon EC2 P5

Instances basées sur les GPU les plus performantes pour les applications de deep learning et de HPC

Les instances Amazon Elastic Compute Cloud (Amazon EC2) P5, optimisées par les GPU NVIDIA H100 Tensor Core, et les instances P5e, optimisées par les GPU NVIDIA H200 Tensor Core, offrent les meilleures performances dans Amazon EC2 pour les applications de deep learning (DL) et de calcul haute performance (HPC). Elles vous permettent d’accélérer votre temps de solution jusqu’à 4 fois par rapport aux instances EC2 basées sur le GPU de la génération précédente, et de réduire le coût d’entraînement des modèles ML jusqu’à 40 %. Ces instances vous permettent d’itérer vos solutions plus rapidement et de les commercialiser plus rapidement. Vous pouvez utiliser les instances P5 et P5e pour l’entraînement et le déploiement des grands modèles de langage (LLM) et modèles de diffusion de plus en plus complexes qui sous-tendent les applications d’intelligence artificielle (IA) générative les plus exigeantes. Ces applications incluent la réponse aux questions, la génération de code, la génération de vidéos et d’images et la reconnaissance vocale. Ces instances vous permettent également de déployer à grande échelle des applications HPC complexes dans les domaines de la découverte pharmaceutique, de l’analyse sismique, des prévisions météorologiques et de la modélisation financière.

Pour améliorer les performances et réduire les coûts, les instances P5 et P5e complètent des GPU NVIDIA H100 et H200 Tensor Core avec des performances de processeur deux fois supérieures, une mémoire système deux fois plus élevée et un stockage local quatre fois plus élevé que les instances basées sur des GPU de génération précédente. Leurs capacités de montée en puissance de pointe sont adaptées à l’entraînement distribué et aux charges de travail HPC étroitement couplées, à travers des performances réseau pouvant atteindre 3 200 Gbit/s grâce à la technologie Elastic Fabric Adapter (EFAv2) de deuxième génération. Pour fournir des calculs à grande échelle avec une faible latence, des instances P5 et P5e sont déployées dans Amazon EC2 UltraClusters, permettant de faire évoluer jusqu’à 20 000 GPU H100 ou H200. Ils sont interconnectés avec un réseau non bloquant à l’échelle du pétabit. Les instances P5 et P5e d’EC2 UltraClusters peuvent fournir jusqu’à 20 exaflops de capacité de calcul globale, soit des performances équivalentes à celles d’un superordinateur.

Instances Amazon EC2 P5 (1:24)

Réservez dès maintenant des instances P5 pour une utilisation future

Avec Amazon EC2 Capacity Blocks for ML, réservez facilement des instances P5 ou P5e jusqu’à huit semaines à l’avance. Vous pouvez réserver ces instances pour une durée de 1 à 14 jours et dans des clusters de 1 à 64 instances (512 GPU), ce qui vous permet d’exécuter un large éventail de charges de travail.

Avantages

Entraînez des modèles avec plus de 100 milliards de paramètres à l’échelle


Les instances P5 et P5e peuvent entraîner des modèles d’IA générative ultra-larges à grande échelle et offrent des performances jusqu’à 4 fois supérieures à celles des instances EC2 basées sur le GPU de la génération précédente.

Réduisez le délai de résolution et accélérez les itérations


Les instances P5 et P5e réduisent les temps d’entraînement et de résolution de plusieurs semaines à quelques jours seulement. Cela vous permet d’itérer à un rythme plus rapide et d’accéder au marché plus rapidement.

Réduisez vos coûts d’infrastructure DL et HPC


Les instances P5 et P5e permettent de réaliser jusqu’à 40 % d’économies sur les coûts d’entraînement DL et d’infrastructure HPC par rapport aux instances EC2 basées sur des GPU de génération précédente.

Exécutez un entraînement distribué de style HPC avec le calcul exascale

Les instances P5 et P5e fournissent jusqu’à 3 200 Gbit/s de bande passante du réseau EFAv2. Ces instances sont déployées dans EC2 UltraClusters et fournissent 20 exaflops de capacité de calcul agrégée.

Caractéristiques

GPU NVIDIA H100 et H200 Tensor Core

Les instances P5 fournissent jusqu’à 8 GPU NVIDIA H100 avec un total de 640 Go de mémoire GPU HBM3 par instance. Les instances P5e fournissent jusqu’à 8 GPU NVIDIA H200 avec un total de 1128 Go de mémoire GPU HBM3e par instance. Les deux instances prennent en charge jusqu’à 900 Go/s d’interconnexion GPU NVSwitch (un total de 3,6 To/s de bande passante bisectionnelle dans chaque instance), de sorte que chaque GPU peut communiquer avec tous les autres GPU de la même instance avec une latence à saut unique.

Nouveau moteur de transformation et instructions DPX

Les GPU NVIDIA H100 et H200 sont dotés d’un nouveau moteur de transformation qui gère intelligemment et choisit dynamiquement entre les calculs FP8 et 16 bits. Cette fonctionnalité permet d’accélérer l’entraînement DL sur les LLM par rapport aux GPU A100 de génération précédente. Pour les charges de travail HPC, les GPU NVIDIA H100 et H200 disposent de nouvelles instructions DPX qui accélèrent davantage les algorithmes de programmation dynamique par rapport aux GPU A100.

Mise en réseau haute performance

Les instances P5 et P5e fournissent jusqu’à 3 200 Gbit/s de bande passante du réseau EFAv2. L’EFAv2 améliore jusqu’à 50 % les performances des communications collectives pour les charges de travail d’entraînement distribué. L’EFAv2 est également couplé à NVIDIA GPUDirect RDMA pour permettre une communication GPU à GPU à faible latence entre les serveurs avec contournement du système d'exploitation.

Systèmes à haute performance

Les instances P5 et P5e prennent en charge les systèmes de fichiers Amazon FSx pour Lustre pour que vous puissiez accéder aux données avec un débit de plusieurs centaines de Go/s et des millions d’IOPS requis pour les charges de travail DL et HPC à grande échelle. Chaque instance P5 et P5e prend également en charge jusqu’à 30 To de stockage SSD NVMe local pour un accès rapide à de grands jeux de données. Vous pouvez également utiliser un stockage rentable pratiquement illimité avec Amazon Simple Storage Service (Amazon S3).

UltraClusters EC2 de deuxième génération

Les instances P5 sont déployées dans des UltraClusters EC2 de deuxième génération, qui fournissent une structure réseau permettant une plus grande évolutivité, moins de sauts de réseau à réseau au sein du cluster et une latence inférieure à celle des UltraClusters de génération précédente. Les instances P5 d'UltraClusters peuvent faire augmenter jusqu'à 20 000 GPU H100 interconnectés à un réseau à l'échelle du pétabit et fournir 20 exaflops de capacité de calcul globale.

Intégration continue avec d’autres services AWS

Les instances P5 et P5e peuvent être déployées à l’aide des AWS Deep Learning AMI (DLAMI) et des AWS Deep Learning Containers. Ils sont disponibles via des services gérés tels qu’Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch, etc.

Témoignages clients

Anthropic construit des systèmes d'IA fiables, interprétables et orientables qui offriront de nombreuses opportunités de créer de la valeur commerciale et dans l'intérêt public.

« Chez Anthropic, nous nous efforçons de créer des systèmes d'IA fiables, interprétables et orientables. Bien que les grands systèmes généraux d'IA d'aujourd'hui puissent présenter des avantages importants, ils peuvent également être imprévisibles, peu fiables et opaques. Notre objectif est de progresser sur ces questions et de déployer des systèmes que les gens trouvent utiles. Notre entreprise est l'une des rares au monde à élaborer des modèles fondamentaux dans le domaine de la recherche sur le DL. Ces modèles sont très complexes, et pour développer et entraîner ces modèles de pointe, nous devons les distribuer efficacement sur de grands clusters de GPU. Nous utilisons largement les instances Amazon EC2 P4 aujourd'hui, et nous sommes enthousiastes à l'idée de lancer des instances P5. Nous nous attendons à ce qu'elles offrent des avantages substantiels en termes de rapport prix-performances par rapport aux instances P4d, et elles seront disponibles à l'échelle massive requise pour créer des LLM de nouvelle génération et des produits connexes. »

Tom Brown, cofondateur d'Anthropic

Créer un compte AWS

Cohere, l'un des principaux pionniers de l'IA linguistique, permet à chaque développeur et à chaque entreprise de créer des produits incroyables grâce à une technologie de traitement du langage naturel (NLP) de pointe tout en préservant la confidentialité et la sécurité de leurs données.

« Cohere joue un rôle de premier plan en aidant chaque entreprise à exploiter la puissance de l'IA linguistique pour explorer, générer, rechercher et exploiter des informations de manière naturelle et intuitive, en la déployant sur de multiples plateformes cloud dans l'environnement de données le mieux adapté à chaque client. Les instances Amazon EC2 P5 alimentées par NVIDIA H100 permettront aux entreprises de créer, de croître et d'évoluer plus rapidement grâce à leur puissance de calcul combinée aux capacités de pointe de Cohere en matière de LLM et d'IA générative. »

Aidan Gomez, PDG de Cohere

Créer un compte AWS

Hugging Face a pour mission de démocratiser le bon ML.

« En tant que communauté open source de machine learning qui connaît la croissance la plus rapide, nous proposons désormais plus de 150 000 modèles préentraînés et 25 000 jeux de données sur notre plateforme pour la PNL, la vision par ordinateur, la biologie, l'apprentissage par renforcement, etc. Grâce aux avancées significatives en matière de LLM et d'IA générative, nous travaillons avec AWS pour créer et contribuer aux modèles open source de demain. Nous sommes impatients d'utiliser les instances Amazon EC2 P5 via Amazon SageMaker à grande échelle dans UltraClusters avec EFA afin d'accélérer la mise à disposition de nouveaux modèles d'IA de base pour tous. »

Julien Chaumond, directeur technique et cofondateur de Hugging Face

Informations sur le produit

Taille de l'instance Processeurs virtuels Mémoire d’instance (Tio) GPU   Mémoire de GPU Bande passante du réseau (Gbit/s) GPUDirect RDMA Pair à pair GPU Storage d'instance (To) Bande passante EBS (Gbit/s)
p5.48xlarge 192 2 8 H100 640 Go
HBM3
EFA à 3200 Gbit/s Oui NVSwitch 900 Go/s 8 x 3.84 (SSD NVMe) 80
p5e.48xlarge 192 2 8 H200 1128 Go
HBM3e
EFA à 3200 Gbit/s Oui NVSwitch 900 Go/s 8 x 3.84 (SSD NVMe) 80

Premiers pas avec les cas d’utilisation du ML

Utilisation de SageMaker

SageMaker est un service entièrement géré pour créer, entraîner et déployer des modèles de machine learning. Lorsque ces derniers sont utilisés avec les instances P5, vous pouvez facilement mettre à l'échelle des dizaines, des centaines ou des milliers de GPU pour entraîner rapidement un modèle à n'importe quelle échelle sans se soucier de la mise en place de clusters et de pipelines de données.

Utilisation de conteneurs DLAMI ou Deep Learning

DLAMI fournit aux praticiens et chercheurs en ML l’infrastructure et les outils nécessaires pour accélérer la DL dans le cloud, à n’importe quelle échelle. Les Deep Learning Containers sont des images Docker comportant des cadres de DL préinstallés qui rationalisent le déploiement d’environnements de ML personnalisés en vous permettant d’éliminer les tâches complexes de création et d’optimisation de vos environnements de A à Z.

Utilisation d'Amazon EKS ou d'Amazon ECS

Si vous préférez gérer vos propres charges de travail conteneurisées via des services d’orchestration de conteneurs, vous pouvez déployer des instances P5 avec Amazon EKS ou Amazon ECS.

Premiers pas avec les cas d’utilisation du HPC

Les instances P5 sont une plateforme idéale pour exécuter des simulations d’ingénierie, des calculs financiers, des analyses sismiques, des modélisations moléculaires, de la génomique, du rendu et d’autres charges de travail HPC basées sur des GPU. Les applications HPC exigent souvent des performances réseau élevées, un stockage rapide, d'importantes capacités de mémoire, des capacités de calcul élevées ou tous ces éléments. Les instances P5 sont compatibles avec EFAv2 qui permet aux applications HPC utilisant l'interface MPI (Message Passing Interface) de mettre à l'échelle des milliers de GPU. AWS Batch et AWS ParallelCluster aident les développeurs HPC à créer et mettre à l'échelle rapidement des applications HPC distribuées.

En savoir plus »

Démarrage avec AWS

Créer un compte AWS

Créer un compte AWS

Obtenez un accès instantané à l'offre gratuite d'AWS.

Apprendre avec des tutoriels simples

Apprenez-en plus avec des tutoriels de 10 minutes.

Explorez et apprenez avec des didacticiels simples.

Commencer à créer avec EC2 dans la console

Commencez à créer sur la console.

Commencez à créer avec des guides détaillés pour vous aider à lancer votre projet AWS.