Amazon-EC2-P5-Instances

GPU-basierte Instances mit Höchstleistung für Deep-Learning- und HPC-Anwendungen

Amazon Elastic Compute Cloud (Amazon EC2) P5-Instances, unterstützt von NVIDIA H100 Tensor Core-GPUs, und P5e-Instances, die von NVIDIA H200 Tensor Core-GPUs unterstützt werden, bieten die höchste Leistung in Amazon EC2 für Deep-Learning-Anwendungen (DL) und High Performance Computing (HPC). Sie helfen Ihnen dabei, die Zeit bis zur Lösung im Vergleich zu GPU-basierten EC2-Instances der vorherigen Generation um das 4-fache zu verkürzen und die Kosten für das Training von ML-Modellen um bis zu 40 % zu senken. Diese Instances helfen Ihnen dabei, Ihre Lösungen schneller weiterzuentwickeln und schneller auf den Markt zu bringen. Sie können P5- und P5e-Instances für das Training und die Bereitstellung von immer komplexeren großen Sprachmodellen (LLMs) und Diffusionsmodellen verwenden, die die anspruchsvollsten generativen KI-Anwendungen antreiben. Diese Anwendungen umfassen die Beantwortung von Fragen, Codegenerierung, Video- und Bildgenerierung sowie Spracherkennung. Sie können diese Instances auch verwenden, um anspruchsvolle HPC-Anwendungen in großem Maßstab für die pharmazeutische Forschung, seismische Analyse, Wettervorhersage und Finanzmodellierung bereitzustellen.

Um diese Leistungsverbesserungen und Kosteneinsparungen zu erzielen, ergänzen P5- und P5e-Instances NVIDIA-H100- und H200-Tensor-Core-GPUs mit zweimal höherer CPU-Leistung, zweimal höherem Systemspeicher und viermal höherem lokalen Speicher im Vergleich zu GPU-basierten Instances der vorherigen Generation. Sie bieten marktführende Aufskalierungs-Fähigkeiten für verteiltes Training und eng gekoppelte HPC-Workloads mit bis zu 3 200 Gbit/s an Netzwerken mithilfe von Elastic Fabric Adapter (EFAv2) der zweiten Generation. Um umfangreiche Rechenleistung bei geringer Latenz bereitzustellen, werden P5- und P5e-Instances in Amazon-EC2-UltraClusters bereitgestellt, die eine Skalierung auf bis zu 20 000 H100- oder H200-GPUs ermöglichen. Diese sind mit einem nicht-blockierenden Netzwerk im Petabit-Bereich verbunden. P5- und P5e-Instances in EC2-UltraClusters können bis zu 20 Exaflops an aggregierter Datenverarbeitungsleistung bereitstellen – eine Leistung, die der eines Supercomputers entspricht.

Amazon-EC2-P5-Instances (1:24)

Jetzt P5-Instances für die zukünftige Verwendung reservieren

Mit Amazon-EC2-Kapazitätsblöcke für ML können Sie P5- oder P5e-Instances problemlos bis zu acht Wochen im Voraus reservieren. Sie können diese Instances für eine Dauer von einem bis 14 Tagen und in Clustergrößen von einer bis 64 Instances (512 GPUs) reservieren, sodass Sie die Flexibilität haben, eine Vielzahl von Workloads auszuführen.

Vorteile

Parametermodelle über 100 B in großem Umfang trainieren


P5- und P5e-Instances können extrem große generative KI-Modelle im großen Umfang trainieren und bieten eine bis zu 4-fache Leistung von GPU-basierten EC2-Instances der vorherigen Generation.

Zeit bis zur Lösung verkürzen und schneller iterieren


P5- und P5e-Instances reduzieren die Trainingszeiten und die Zeit bis zur Lösung von Wochen auf nur wenige Tage. Dies hilft Ihnen, schneller zu iterieren und schneller auf den Markt zu kommen.

DL- und HPC-Infrastrukturkosten senken


P5- und P5e-Instances bieten im Vergleich zu GPU-basierten EC2-Instances der vorherigen Generation Einsparungen bei den Kosten für DL-Training und HPC-Infrastruktur von bis zu 40 %.

Verteiltes Training und HPC mit Exascale-Computing ausführen

P5- und P5e-Instances bieten EFAv2-Netzwerke mit bis zu 3 200 Gbit/s. Diese Instances werden in EC2-UltraCluster bereitgestellt und bieten eine aggregierte Rechenleistung von 20 Exaflops.

Features

NVIDIA H100- und H200-Tensor-Core-GPUs

P5-Instances bieten bis zu 8 NVIDIA-H100-GPUs mit insgesamt bis zu 640 GB HBM3-GPU-Speicher pro Instance. P5e-Instances bieten bis zu 8 NVIDIA-H200-GPUs mit insgesamt bis zu 1 128 GB HBM3e-GPU-Speicher pro Instance. Beide Instances unterstützen bis zu 900 GB/s an NVSwitch-GPU-Interconnect (insgesamt 3,6 TB/s bisektionale Bandbreite in jeder Instance), sodass jede GPU mit jeder anderen GPU in derselben Instance mit Single-Hop-Latenz kommunizieren kann.

Neue Transformer-Engine und DPX-Anweisungen

NVIDIA-H100- und -H200-GPUs verfügen über eine neue Transformer-Engine, die intelligent verwaltet und dynamisch zwischen FP8- und 16-Bit-Berechnungen wählt. Dieses Feature ermöglicht im Vergleich zu A100-GPUs der vorherigen Generation schnellere DL-Trainingsgeschwindigkeiten auf LLMs. Für HPC-Workloads verfügen NVIDIA-H100- und -H200-GPUs über neue DPX-Befehle, die dynamische Programmieralgorithmen im Vergleich zu A100-GPUs weiter beschleunigen.

Leistungsstarkes Netzwerk

P5- und P5e-Instances stellen EFAv2-Netzwerke mit bis zu 3 200 Gbit/s bereit. EFAv2 verbessert die Leistung der kollektiven Kommunikation bei verteilten Trainingsworkloads um bis zu 50 %. EFAv2 ist außerdem mit NVIDIA GPUDirect RDMA gekoppelt, um die GPU-zu-GPU-Kommunikation zwischen Servern mit geringer Latenz und Betriebssystemumgehung zu ermöglichen.

Leistungsstarker Speicher

P5- und P5e-Instances unterstützen Amazon-FSx-für-Lustre-Dateisysteme, sodass Sie auf Daten mit einem Durchsatz von Hunderten von GB/s und Millionen von IOPS zugreifen können, die für umfangreiche DL- und HPC-Workloads erforderlich sind. Jede P5- und P5e-Instance unterstützt außerdem bis zu 30 TB lokalen NVMe-SSD-Speicher für den schnellen Zugriff auf große Datensätze. Mit Amazon Simple Storage Service (Amazon S3) können Sie auch praktisch unbegrenzten kostengünstigen Speicherplatz nutzen.

EC2-UltraCluster der zweiten Generation

P5-Instances werden in EC2-UltraCluster der zweiten Generation bereitgestellt, die eine Netzwerkstruktur bereitstellen, die eine größere Skalierung, weniger Netzwerk-Hops im Cluster und eine geringere Latenz als UltraCluster der vorherigen Generation ermöglicht. P5-Instances in UltraCluster können auf bis zu 20 000 H100-GPUs skaliert werden, die mit einem Netzwerk im Petabit-Bereich verbunden sind, und bieten insgesamt 20 Exaflops an Rechenleistung.

Nahtlose Integration mit anderen AWS-Services

P5- und P5e-Instances können mithilfe von AWS Deep Learning AMIs (DLAMI) und AWS-Deep-Learning-Containern bereitgestellt werden. Sie sind über verwaltete Services wie Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch und mehr verfügbar.

Erfahrungsberichte von Kunden

Anthropic baut zuverlässige, interpretierbare und steuerbare KI-Systeme, die viele Möglichkeiten bieten werden, kommerziellen und öffentlichen Nutzen zu schaffen.

„Bei Anthropic arbeiten wir daran, zuverlässige, interpretierbare und steuerbare KI-Systeme zu entwickeln. Die großen allgemeinen KI-Systeme von heute können zwar erhebliche Vorteile haben, aber sie können auch unvorhersehbar, unzuverlässig und undurchsichtig sein. Unser Ziel ist es, bei diesen Problemen Fortschritte zu erzielen und Systeme einzusetzen, die die Menschen für nützlich halten. Unsere Organisation ist eine der wenigen auf der Welt, die grundlegende Modelle für die DL-Forschung entwickelt. Diese Modelle sind hochkomplex, und um diese hochmodernen Modelle zu entwickeln und zu trainieren, müssen wir sie effizient auf große GPU-Cluster verteilen. Wir nutzen Amazon-EC2-P4-Instances heute ausgiebig und freuen uns über die Einführung von P5-Instances. Wir erwarten, dass sie im Vergleich zu P4d-Instances erhebliche Preis-/Leistungsvorteile bieten und dass sie in dem riesigen Umfang verfügbar sein werden, der für die Entwicklung von LLMs der nächsten Generation und verwandter Produkte erforderlich ist.“

Tom Brown, Cofounder, Anthropic

Für ein AWS-Konto registrieren

Cohere, ein führender Pionier im Bereich Sprach-KI, ermöglicht es jedem Entwickler und Unternehmen, unglaubliche Produkte mit weltweit führender Technologie zur natürlichen Sprachverarbeitung (NLP) zu entwickeln und gleichzeitig die Privatsphäre und Sicherheit seiner Daten zu gewährleisten

„Cohere ist führend, wenn es darum geht, Unternehmen dabei zu unterstützen, die Möglichkeiten der Sprach-KI zu nutzen, um Informationen auf natürliche und intuitive Weise zu erforschen, zu generieren, zu suchen und darauf zu reagieren, und zwar auf mehreren Cloud-Plattformen in der Datenumgebung, die für jeden Kunden am besten geeignet ist. Von NVIDIA H100 unterstützte Amazon-EC2-P5-Instances werden es Unternehmen ermöglichen, schneller zu erstellen, zu wachsen und zu skalieren, indem sie ihre Rechenleistung mit den hochmodernen LLM- und generativen KI-Funktionen von Cohere kombinieren.“

Aidan Gomez, CEO, Cohere

Für ein AWS-Konto registrieren

Hugging Face hat es sich zur Aufgabe gemacht, gutes ML zu demokratisieren.

„Als die am schnellsten wachsende Open-Source-Community für ML stellen wir jetzt über 150 000 vortrainierte Modelle und 25 000 Datensätze auf unserer Plattform für NLP, Computer Vision, Biologie, Reinforcement-Learning und mehr zur Verfügung. Angesichts erheblicher Fortschritte in den Bereichen LLMs und generativer KI arbeiten wir mit AWS zusammen, um die Open-Source-Modelle von morgen zu entwickeln und einzubringen. Wir freuen uns darauf, Amazon-EC2-P5-Instances über Amazon SageMaker in großem Maßstab in UltraClusters mit EFA zu verwenden, um die Bereitstellung neuer KI-Grundmodelle für alle zu beschleunigen.“

Julien Chaumond, CTO and Cofounder, Hugging Face

Produktdetails

Instance-Größe vCPUs Instance-Arbeitsspeicher (TiB) GPU   GPU-Speicher Netzwerkbandbreite (Gbps) GPUDirect RDMA GPU-Peer-to-Peer Instance-Speicher (TB) EBS-Bandbreite (Gbit/s)
p5.48xlarge 192 2 8 H100 640 GB
HBM3
3200 Gbit/s EFA Ja 900 GB/s NVSwitch 8 x 3.84 NVMe-SSD 80
p5e.48xlarge 192 2 8 H200 1 128 GB
HBM3e
3 200 Gbit/s EFA Ja 900 GB/s NVSwitch 8 x 3.84 NVMe-SSD 80

Erste Schritte mit ML-Anwendungsfällen

Verwenden von SageMaker

SageMaker ist ein komplett verwalteter Service zum Erstellen, Trainieren und Bereitstellen von ML-Modellen. In Verbindung mit P5-Instances können Sie einfacher auf dutzende, hunderte oder tausende von GPUs skalieren, um ein Modell schnell in einem beliebigen Umfang zu trainieren, ohne sich Gedanken über die Einrichtung von Clustern und Data Pipelines machen zu müssen.

Einsatz von DLAMI oder Deep-Learning-Containern

DLAMI bietet ML-Praktikern und -Forschern die Infrastruktur und die Werkzeuge, um DL in der Cloud zu beschleunigen, und zwar in jeder Größenordnung. Deep-Learning-Container sind Docker-Images, auf denen DL-Frameworks vorinstalliert sind, um die Bereitstellung benutzerdefinierter ML-Umgebungen zu optimieren, indem Sie den komplizierten Prozess der Erstellung und Optimierung Ihrer Umgebungen von Grund auf überspringen.

Verwenden von Amazon EKS oder Amazon ECS

Wenn Sie es vorziehen, Ihre eigenen containerisierten Workloads durch Container-Orchestrierungsservices zu verwalten, können Sie P5-Instances mit Amazon EKS oder Amazon ECS bereitstellen.

Erste Schritte mit HPC-Anwendungsfällen

P5-Instances eignen sich hervorragend für die Ausführung für technische Simulationen, computergestütztes Finanzwesen, seismische Analysen, molekulare Modellierung, Genomik, Rendering und andere GPU-basierte HPC-Workloads. HPC-Anwendungen benötigen häufig eine hohe Netzwerkleistung, schnelle Speicherung, viel Arbeitsspeicher, hohe Datenverarbeitungskapazitäten oder alles gleichzeitig. P5-Instances unterstützen EFAv2, wodurch HPC-Anwendungen, die das Message Passing Interface (MPI) verwenden, auf Tausende von GPUs skaliert werden können. AWS Batch und AWS ParallelCluster helfen HPC-Entwicklern, verteilte HPC-Anwendungen schnell zu erstellen und zu skalieren.

Mehr erfahren »

Erste Schritte mit AWS

Für ein AWS-Konto registrieren

Für ein AWS-Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent.

Mit einfachen Tutorials lernen

Erfahren Sie mehr in unseren 10-minütigen Tutorials

Erkunden und lernen Sie mit einfachen Tutorials.

Beginnen Sie mit der Entwicklung mit EC2 in der Konsole

Beginnen Sie mit der Entwicklung in der Konsole

Entwickeln Sie mithilfe von schrittweisen Anleitungen, die Ihnen helfen, Ihr AWS-Projekt zu starten.