Instances Amazon EC2 P3
Les instances P3 Amazon EC2 offrent des fonctionnalités de calcul haute performance dans le cloud avec jusqu'à 8 GPU NVIDIA® V100 à cœurs Tensor et un débit réseau pouvant atteindre 100 Gb/s pour les applications d'apprentissage automatique et HPC (calcul haute performance). Ces instances offrent jusqu'à 1 pétaflop de performances de précision mixte par instance pour accélérer significativement les applications d'apprentissage automatique et de calcul haute performance. Il a été démontré que les instances P3 Amazon EC2 réduisent de jours en minutes les temps de formation pour l'apprentissage automatique, et multiplient par 3 ou 4 le nombre de simulations effectuées pour le calcul haute performance.
Avec jusqu'à 4 fois plus de bande passante réseau que les instances P3.16xlarge, les instances P3dn.24xlarge Amazon EC2 sont les tout derniers membres de la famille P3, et sont optimisées pour les applications de machine learning distribué et HPC. Ces instances offrent un débit réseau pouvant atteindre 100 Gbit/s, 96 vCPU personnalisés Intel® Xeon® Scalable (Skylake), 8 GPU NVIDIA® V100 Tensor Core dotés chacun de 32 Gio de mémoire et 1,8 To de stockage local SSD basé sur NVMe. Les instances P3dn.24xlarge sont également compatibles avec Elastic Fabric Adapter (EFA) qui accélère les applications de Machine Learning distribuées utilisant NVIDIA Collective Communications Library (NCCL). EFA permet la mise à l'échelle de milliers de GPU, améliorant ainsi de manière significative le débit et l'évolutivité lors des phases d'apprentissage automatique, pour des résultats plus rapides.
Avantages
Réduction du temps de formation du machine learning de quelques jours à quelques minutes
Pour les spécialistes des données, les chercheurs et les développeurs qui doivent accélérer les applications ML, les instances P3 Amazon EC2 sont les plus rapides dans le cloud pour la formation ML. Les instances Amazon EC2 P3 comportent jusqu'à huit GPU NVIDIA Tensor Core V100 de dernière génération et délivrent jusqu'à un pétaflop de performances de précision mixte pour accélérer significativement les charges de travail ML. La formation plus rapide des modèles peut permettre aux spécialistes des données et aux ingénieurs en machine learning d'itérer plus rapidement, de former un plus grand nombre de modèles et d'accroître la précision.
La solution la plus rentable du secteur pour la formation ML
Avec l'une des instances GPU les plus puissantes dans le cloud combinée à des programmes de tarification flexibles, vous bénéficiez d'une solution exceptionnellement rentable pour la formation du machine learning. Comme pour les instances Amazon EC2 en général, les instances P3 sont disponibles en tant qu'instances à la demande, instances réservées ou instances Spot. Les instances Spot tirent parti de la capacité d'instance EC2 inutilisée et peuvent réduire significativement vos coûts Amazon EC2 avec une réduction allant jusqu'à 70 % par rapport aux prix à la demande.
Calcul haute performance, puissant et souple
Contrairement aux systèmes sur site, l'exécution du calcul haute performance sur des instances P3 Amazon EC2 offre une capacité pratiquement illimitée pour faire monter en charge votre infrastructure et vous apporte la flexibilité de changer les ressources facilement et aussi souvent que votre charge de travail l'exige. Vous pouvez configurer vos ressources pour répondre aux besoins de votre application et lancer un cluster HPC en quelques minutes, en ne payant que ce que vous utilisez.
Commencer à créer immédiatement
Utilisez des images Docker préempaquetées pour déployer des environnements de Deep Learning en quelques minutes seulement. Les images contiennent les bibliothèques de frameworks de Deep Learning (actuellement TensorFlow et Apache MXNet) et les outils requis. Ces images sont entièrement testées. Vous pouvez facilement ajouter vos propres bibliothèques et outils à ces images afin d'obtenir un niveau de contrôle plus élevé sur le traitement des données, la surveillance et la conformité. De plus, les instances Amazon EC2 P3 fonctionnent de manière transparente avec Amazon SageMaker pour fournir une plateforme de Machine Learning complète, puissante et intuitive. Amazon SageMaker est une plateforme de Machine Learning entièrement gérée qui vous permet de construire, former et déployer rapidement et facilement des modèles de Machine Learning. De plus, les instances P3 Amazon EC2 peuvent être intégrées à des Amazon Machine Images (AMI) de deep learning AWS qui sont pré-installées avec des infrastructures de deep learning fréquemment utilisées. Vous pouvez ainsi démarrer plus rapidement et plus facilement avec la formation du machine learning et l'inférence.
Formation du machine learning multi-nœud évolutive
Vous pouvez utiliser plusieurs instances P3 Amazon EC2 avec un débit réseau pouvant atteindre 100 Gbit/s afin de former rapidement des modèles de machine learning. Un débit réseau plus élevé permet aux développeurs d'éliminer les goulots d'étranglement du transfert de données et de faire efficacement monter en charge leurs tâches de formation de modèle sur plusieurs instances P3. Des clients ont pu former ResNet-50, un modèle de classification d'image courant, avec une précision normalisée du secteur en seulement 18 minutes à l'aide de 16 instances P3. Ce niveau de performance était auparavant inaccessible pour la plupart des clients ML, car de gros investissements CAPEX étaient nécessaires pour déployer des clusters GPU sur site. Avec les instances P3 et leur disponibilité via un modèle d'utilisation à la demande, ce niveau de performance est désormais accessible à tous les développeurs et ingénieurs en Machine Learning. En outre, les instances P3dn.24xlarge sont compatibles avec Elastic Fabric Adapter (EFA) qui utilise NVIDIA Collective Communications Library (NCCL) pour mettre à l'échelle des milliers de GPU.
Prise en charge de tous les principaux cadres de machine learning
Les instances Amazon EC2 P3 prennent en charge l'ensemble des principaux cadres de machine learning, notamment TensorFlow, PyTorch, Apache MXNet, Caffe, Caffe2, Microsoft Cognitive Toolkit (CNTK), Chainer, Theano, Keras, Gluon et Torch. Vous pouvez choisir le cadre le mieux adapté à votre application.
Témoignages de clients
AirBnB utilise le machine learning pour optimiser les recommandations de recherche et améliorer les directives de tarification dynamique pour les hôtes, ce qui se traduit par une augmentation des conversions de réservation. Grâce aux instances P3 Amazon EC2, Airbnb peut exécuter des charges de travail de formation plus rapidement, effectuer davantage d'itérations, créer de meilleurs modèles de machine learning et réduire les coûts.
Celgene est une entreprise mondiale de biotechnologie qui développe des thérapies ciblées qui correspondent au traitement du patient. La société exécute ses charges de travail HPC pour le séquençage génomique de nouvelle génération et les simulations chimiques sur les instances P3 Amazon EC2. Grâce à cette puissance de calcul, Celgene peut former des modèles de deep learning pour distinguer les cellules malignes des cellules bénignes. Avant d'utiliser des instances P3, deux mois était nécessaires pour exécuter des tâches de calcul à grande échelle. Maintenant cela ne prend que quatre heures. La technologie AWS a permis à Celgene d'accélérer le développement de thérapies médicamenteuses contre le cancer et les maladies inflammatoires.
Hyperconnect est spécialisée dans l'application de nouvelles technologies basées sur le machine learning au traitement d'images et de vidéos, et a été la première société à développer l'interface webRTC pour les plateformes mobiles.
« Hyperconnect utilise la classification d'images basée sur l'IA sur son application de communication vidéo afin de reconnaître l'environnement actuel dans lequel un utilisateur se trouve. Nous avons réduit le temps d'entraînement de notre modèle de ML, qui était de plus d'une semaine, à un jour en faisant migrer les stations de travail sur site vers plusieurs instances Amazon EC2 P3 à l'aide de Horovod. En utilisant PyTorch comme cadre de machine learning, nous avons rapidement développé des modèles et exploité les bibliothèques disponibles dans la communauté open source. »
Sungjoo Ha, Directeur du Lab d'IA, Hyperconnect
NerdWallet est une startup de finances personnelles qui fournit des outils et des conseils pour permettre à ses clients de facilement rembourser des dettes, de choisir les meilleurs produits et services financiers et de relever certains des défis majeurs de la vie, comme l'achat d'une maison ou les plans d'épargne retraite. La société se repose énormément sur la science des données et le machine learning (ML) pour connecter les clients avec des produits financiers personnalisés.
L'utilisation d'instances Amazon SageMaker et d'Amazon EC2 P3 avec des GPU à cœur Tensor NVIDIA V100 a également amélioré la flexibilité et les performances de NerdWallet, et a réduit le temps nécessaire aux scientifiques des données pour entraîner les modèles ML. « Plusieurs mois étaient nécessaires pour lancer et itérer des modèles. Désormais, cela ne prend que quelques jours. »
Ryan Kirkman, directeur adjoint de l'ingénierie - NerdWallet
Instances P3 Amazon EC2 et Amazon SageMaker
Le moyen le plus rapide de former et d'exécuter des modèles de machine learning.
Amazon SageMaker est un service entièrement géré pour créer, former et développer des modèles de machine learning. Lorsqu'ils sont utilisés avec les instances Amazon EC2 P3, les clients peuvent facilement mettre à l'échelle des dizaines, des centaines ou des milliers de GPU pour former rapidement un modèle à n'importe quelle échelle sans se soucier de la mise en place de clusters et de pipelines de données. Vous pouvez également accéder aux ressources Amazon Virtual Private Cloud (Amazon VPC) pour la formation et l'hébergement des flux de travail dans Amazon SageMaker. Grâce à cette fonction, vous pouvez utiliser des compartiments Amazon Simple Storage Service (Amazon S3) accessibles uniquement via votre VPC pour stocker des données de formation, ainsi que pour stocker et héberger les artefacts de modèles dérivés du processus de formation. En plus du compartiment S3, les modèles peuvent accéder à toutes les autres ressources AWS contenues dans le VPC. En savoir plus.
Création
Amazon SageMaker permet de développer facilement des modèles d'apprentissage automatique et de les préparer pour la formation. Ce service fournit tout ce dont vous avez besoin pour vous connecter rapidement à vos données de formation, et pour sélectionner et optimiser les meilleurs algorithme et infrastructure pour votre application. Amazon SageMaker inclut des notebooks Jupyter hébergés qui simplifient l'exploration et la visualisation de vos données de formation stockées dans Amazon S3. Vous pouvez également utiliser l'instance de notebook pour écrire du code pour créer des tâches de formation de modèles, déployer des modèles sur l'hébergement Amazon SageMaker et tester ou valider vos modèles.
Formation
Vous pouvez commencer la formation de votre modèle d'un simple clic dans la console ou avec un appel d'API. Amazon SageMaker intègre les dernières versions de TensorFlow et d'Apache MXNet, et la prise en charge de bibliothèques CUDA9 pour des performances optimales avec les GPU NVIDIA. De plus, l'optimisation des hyper-paramètres peut automatiquement adapter votre modèle en ajustant intelligemment différentes combinaisons de paramètres du modèle pour arriver rapidement aux prédictions les plus précises. Pour les besoins à plus grande échelle, vous pouvez mettre à l'échelle des dizaines d'instances pour accélérer la construction de modèles.
Déploiement
Après la formation, vous pouvez déployer votre modèle en un seul clic sur des instances Amazon EC2 à scalabilité automatique dans plusieurs zones de disponibilité. En production, Amazon SageMaker gère l'infrastructure de calcul automatiquement pour effectuer des vérifications d'état, appliquer des correctifs de sécurité et réaliser d'autres opérations de maintenance de routine, le tout avec la surveillance et la journalisation d'Amazon CloudWatch intégrées.
Instances P3 Amazon EC2 et AMI de deep learning AWS
Environnements de développement préconfigurés pour commencer rapidement à créer des applications de deep learning
Une alternative à Amazon SageMaker pour les développeurs qui ont des exigences plus personnalisées, les AMI AWS deep learning fournissent aux praticiens et aux chercheurs en machine learning l'infrastructure et les outils nécessaires pour accélérer le deep learning dans le cloud, à n'importe quelle échelle. Vous pouvez rapidement lancer des instances Amazon EC2 P3 préinstallées avec des cadres de deep learning fréquemment utilisées, telles que TensorFlow, PyTorch, Apache MXNet, Microsoft Cognitive Toolkit, Caffe, Caffe2, Theano, Torch, Chainer, Gluon et Keras, pour former des modèles d'IA personnalisés complexes, expérimenter de nouveaux algorithmes ou apprendre de nouvelles compétences et techniques. En savoir plus >>
Instances Amazon EC2 P3 et calcul haute performance
Résoudre des problèmes de calcul importants et obtenir de nouvelles informations grâce à toute la puissance du HPC sur AWS
Les instances Amazon EC2 P3 sont une plate-forme idéale pour exécuter des simulations d'ingénierie, des calculs financiers, des analyses sismiques, des modélisations moléculaires, de la génomique, du rendu et d'autres charges de travail de calcul GPU. Le calcul haute performance (HPC) permet aux scientifiques et aux ingénieurs de résoudre ces problèmes informatiques complexes nécessitant une importante capacité de calcul. Les applications HPC exigent souvent des performances réseau élevées, un stockage rapide, d'importantes capacités de mémoire, des capacités de calcul élevées ou tous ces éléments. AWS vous permet d'accélérer les recherches et l'obtention de résultats en exécutant le HPC dans le cloud et en assurant une mise à l'échelle vers un nombre de tâches en parallèle plus élevé que ce que permettent la plupart des environnements sur site. Par exemple, les instances P3dn.24xlarge sont compatibles avec Elastic Fabric Adapter (EFA) qui permet aux applications de calcul haute performance HPC utilisant l'interface MPI (Message Passing Interface) de mettre à l'échelle des milliers de GPU. AWS permet de réduire les coûts en fournissant des solutions optimisées pour des applications spécifiques, sans investissement initial important. En savoir plus >>
Prise en charge du poste de travail virtuel NVIDIA RTX
Les AMI du poste de travail virtuel NVIDIA RTX offrent des performances graphiques élevées grâce aux puissantes instances P3 équipées de GPU NVIDIA Volta V100 et exécutées dans le cloud AWS. Ces AMI disposent du tout dernier logiciel graphique NVIDIA GPU préinstallé, ainsi que des derniers pilotes RTX et des certifications NVIDIA ISV avec prise en charge d'un maximum de quatre résolutions de bureau 4K. Les instances P3 équipées de GPU NVIDIA V100 combinées aux vWS RTX offrent des postes de travail hautes performances dans le cloud avec un maximum de 32 Gio de mémoire GPU, un ray tracing rapide et un rendu optimisé par l'IA.
Les nouvelles AMI sont disponibles sur AWS Marketplace avec prise en charge de Windows Server 2016 et de Windows Server 2019.
Instances P3dn.24xlarge Amazon EC2
Nouvelle taille d'instance plus rapide, plus puissante et plus grande, optimisée pour le machine learning distribué et le calcul haute performance
Les instances P3dn.24xlarge Amazon EC2 sont les instances P3 les plus rapides, les plus puissantes et les plus grandes. Elles offrent un débit de réseau pouvant atteindre 100 Gbit/s, 8 GPU NVIDIA® V100 Tensor Core dotés chacun de 32 Gio de mémoire, 96 vCPU personnalisées Intel® Xeon® Scalable (Skylake) et 1,8 To de stockage local SSD NVMe. La mise en réseau plus rapide, les nouveaux processeurs, le doublement de la mémoire GPU et les processeurs virtuels supplémentaires permettent aux développeurs de réduire considérablement le temps nécessaire à la formation de leurs modèles de machine learning ou à l'exécution de simulations HPC supplémentaires en dimensionnant leurs tâches sur plusieurs instances (16, 32 ou 64 instances, par exemple). Les modèles de machine learning nécessitent une grande quantité de données pour la formation. En plus d'augmenter le débit de transfert de données entre les instances, le débit réseau supplémentaire des instances P3dn.24xlarge peut être également utilisé pour accélérer l'accès à des volumes importants de données de formation en se connectant à des solutions Amazon S3 ou des systèmes de fichiers partagés comme Amazon EFS.
Supprimer les goulots d'étranglement et réduire le temps d'entraînement du machine learning
Avec un débit réseau de 100 Gbit/s, les développeurs peuvent utiliser efficacement un grand nombre d'instances P3dn.24xlarge pour la formation distribuée et réduire de façon significative le temps de formation de leurs modèles. Les 96 vCPU des processeurs Intel Skylake personnalisés par AWS avec des instructions AVX-512 opérant à 2,5 GHz contribuent à optimiser le prétraitement des données. En outre, les instances P3dn.24xlarge utilisent le système AWS Nitro, associant un matériel dédié et un hyperviseur léger, qui fournit pratiquement toutes les ressources de calcul et de mémoire du matériel hôte à vos instances du client. Les instances P3dn.24xlarge sont aussi compatibles avec Elastic Fabric Adapter (EFA) qui permet aux applications de ML utilisant NVIDIA Collective Communications Library (NCCL) de mettre à l'échelle des milliers de GPU.
Réduire le coût total de possession en optimisant l'utilisation des GPU
Une mise en réseau améliorée reposant sur la dernière version de l'adaptateur Elastic Network Adapter avec jusqu'à 100 Gb/s de bande passante de réseau agrégée peut être utilisée non seulement pour partager des données sur plusieurs instances P3dn.24xlarge, mais aussi pour un accès aux données haut débit via une solution Amazon S3 ou de systèmes de fichiers partagés comme Amazon EFS. Un accès aux données haut débit est essentiel pour optimiser l'utilisation des GPU et tirer des performances maximales des instances de calcul.
Prendre en charge des modèles plus grands et plus complexes
Les instances P3dn.24xlarge disposent des GPU NVIDIA V100 Tensor Core dotées de 32 Gio de mémoire qui fournissent la flexibilité permettant d'entraîner des modèles de machine learning plus avancés et plus grands, et de traiter des lots de données plus volumineux comme des images 4k pour les systèmes de classification d'images et de détection d'objet.
Instance P3 Amazon EC2 P - Informations du produit
Taille d'instance | GPU - Tesla V100 | Pair à pair GPU | Mémoire de GPU (Go) | Processeurs virtuels | Mémoire (Go) | Bande passante réseau | Bande passante EBS | Prix/heure pour les instances à la demande* | Tarif horaire effectif des instances réservées sur 1 an* | Tarif horaire effectif des instances réservées sur 3 ans* |
---|---|---|---|---|---|---|---|---|---|---|
p3.2xlarge | 1 | N/A | 16 | 8 | 61 | Jusqu'à 10 Go/s | 1,5 Gb/s | 3,06 USD | 1,99 USD | 1,05 USD |
p3.8xlarge | 4 |
NVLink | 64 | 32 | 244 | 10 Go/s | 7 Go/s | 12,24 USD | 7,96 USD | 4,19 USD |
p3.16xlarge | 8 | NVLink | 128 | 64 | 488 | 25 Gbit/s | 14 Go/s | 24,48 USD | 15,91 USD | 8,39 USD |
p3dn.24xlarge | 8 | NVLink | 256 | 96 | 768 | 100 Gbits/s | 19 Gbits/s | 31,218 USD | 18,30 USD | 9,64 USD |
* - Les prix affichés sont pour Linux/Unix dans la région AWS USA Est (Virginie du Nord) et sont arrondis au cent le plus proche. Pour consulter l'ensemble des informations de tarification, accédez à la page relative à la tarification d'Amazon EC2.
Les clients peuvent acheter des instances P3 sous forme d'instances à la demande, d'instances réservées, d'instances Spot ou d'hôtes dédiés.
Facturation à la seconde
L'un des nombreux avantages du cloud computing est la nature élastique de l'allocation ou de la désallocation des ressources au fur et à mesure que vous en avez besoin. En facturant l'utilisation à la seconde près, nous permettons aux clients d'augmenter leur élasticité, d'économiser de l'argent et d'optimiser l'allocation des ressources en vue d'atteindre leurs objectifs de machine learning.
Tarification des instances réservées
Les instances réservées permettent de bénéficier d'une réduction conséquente (jusqu'à 75 %) par rapport à la tarification des instances à la demande. De plus, lorsque des instances réservées sont attribuées à une zone de disponibilité spécifique, elles fournissent une réservation de capacité, ce qui vous conforte dans l'idée que vous pouvez lancer des instances quand vous en avez besoin.
Tarification des instances Spot
Avec les instances Spot, vous payez le prix Spot en vigueur pendant la durée d'exécution de vos instances. Les prix spot sont définis par Amazon EC2 et ajustés graduellement en fonction des tendances à long terme en matière d'offre et de demande de capacité d'instance Spot. Les instances Spot sont disponibles avec une réduction allant jusqu'à 90 % par rapport à la tarification à la demande.
La plus grande disponibilité mondiale
Les instances P3.2xlarge, P3.8xlarge et P3.16xlarge Amazon EC2 sont disponibles dans 14 régions AWS afin que les clients aient la flexibilité de former et de déployer leurs modèles de machine learning quel que soit l'emplacement de stockage de leurs données. Les régions pour lesquelles les instances P3 sont disponibles sont les suivantes : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), Canada (Centre), Europe (Irlande), Europe (Francfort), Europe (Londres), Asie-Pacifique (Tokyo), Asie-Pacifique (Séoul), Asie-Pacifique (Sydney), Asie-Pacifique (Singapour), Chine (Beijing), Chine (Ningxia) et les régions AWS GovCloud (USA Ouest).
Les instances P3dn.24xlarge sont disponibles dans les régions AWS Asie-Pacifique (Tokyo), UE (Irlande), USA Est (Virginie du Nord) et USA Ouest (Oregon), AWS GovCloud (USA Ouest) et GovCloud (USA Est).
Démarrer avec les instances P3 Amazon EC2 pour le machine learning
Pour commencer en quelques minutes, apprenez-en plus sur Amazon SageMaker ou utilisez l'AMI AWS Deep Learning, préinstallé avec des cadres de deep learning fréquemment utilisés tels que Caffe2 et MXNet. Vous pouvez également utiliser l'image AMI NVIDIA avec le pilote GPU et la boîte à outils CUDA préinstallés.
Blogs, articles et webinaires
Date de diffusion : 19 décembre 2018
Niveau : 200
La vision par ordinateur fait référence à la manière d'entraîner des ordinateurs pour atteindre un niveau élevé de compréhension d'images ou de vidéos numériques. L'histoire de la vision par ordinateur remonte aux années 1960, mais les progrès récents des technologies de traitement ont permis des applications permettant, par exemple, la navigation de véhicules autonomes. Cette présentation technique passera en revue les différentes étapes nécessaires à la création, à l'apprentissage et au déploiement d'un modèle de Machine Learning pour la vision par ordinateur. Nous comparerons et contrasterons la formation des modèles de vision par ordinateur à l'aide de différentes instances Amazon EC2 et soulignerons comment des gains de temps significatifs peuvent être réalisés en utilisant des instances P3 Amazon EC2.
Date de diffusion : 31 juillet 2018
Niveau 200
Les entreprises s'attaquent de plus en plus à des problématiques complexes dans les domaines avancés des sciences, de l'énergie, des hautes technologies et de la médecine. Le Machine Learning (ML) permet de passer en revue rapidement une multitude de scénarios et de générer les meilleures réponses, allant de la reconnaissance d'images, de vidéos et de la parole aux systèmes de véhicules autonomes, en passant par les prévisions météorologiques. Pour les spécialistes des données, les chercheurs et les développeurs qui souhaitent accélérer le développement de leurs applications ML, les instances P3 Amazon EC2 sont les instances de calcul GPU dans le cloud les plus puissantes, les plus économiques et les plus polyvalentes.
À propos d’Amazon SageMaker
À propos du Deep learning sur AWS
À propos du calcul haute performance (HPC)