Amazon EC2 UltraClusters

HPC- und ML-Anwendungen in großem Maßstab ausführen

Warum Amazon-EC2-UltraCluster?

Amazon Elastic Compute Cloud (Amazon EC2)-UltraCluster können Sie bei der Skalierung auf Tausende von GPUs oder speziell entwickelten ML-Beschleunigern wie AWS Trainium unterstützen, um bei Bedarf Zugriff auf einen Supercomputer zu erhalten. Sie demokratisieren den Zugang zu Supercomputing-Leistung für Entwickler von Machine Learning (ML), generativer KI und High Performance Computing (HPC) durch ein einfaches nutzungsabhängiges Nutzungsmodell ohne Einrichtungs- oder Wartungskosten. Amazon-EC2-P5-Instances, Amazon-EC2-P4d-Instances und Amazon-EC2-Trn1-Instances werden alle in Amazon-EC2-UltraClustern bereitgestellt.

EC2-UltraCluster bestehen aus Tausenden von beschleunigten EC2-Instances, die sich in einer bestimmten AWS Availability Zone befinden und über Elastic Fabric Adapter (EFA)-Netzwerke in einem nicht blockierenden Netzwerk im Petabit-Bereich miteinander verbunden sind. EC2-UltraCluster bieten auch Zugriff auf Amazon FSx für Lustre, einen vollständig verwalteten gemeinsamen Speicher, der auf dem beliebtesten leistungsstarken, parallelen Dateisystem basiert, um schnell riesige Datensätze On-Dermand und in großem Umfang mit Latenzen von unter einer Millisekunde zu verarbeiten. EC2-UltraCluster bieten Scale-Out-Funktionen für verteiltes ML-Training und eng gekoppelte HPC-Workloads.

Amazon-EC2-P5- und Trn1-Instances verwenden eine EC2-UltraCluster-Architektur der zweiten Generation, die eine Netzwerkstruktur bietet, die weniger Hops im Cluster, eine niedrigere Latenz und eine größere Skalierung ermöglicht.

Vorteile

Mit EC2-UltraClustern können Sie die Trainingszeiten und die Zeit bis zur Problemlösung von Wochen auf nur wenige Tage reduzieren. Dies hilft Ihnen, schneller zu iterieren und Ihre Deep Learning (DL)-, generativen KI- und HPC-Anwendungen schneller auf den Markt zu bringen.

P5-Instances werden in EC2-UltraClustern mit bis zu 20 000 H100-GPUs bereitgestellt, um eine aggregierte Rechenleistung von über 20 Exaflops bereitzustellen. In ähnlicher Weise können Trn1-Instances auf 30 000 Trainium-Beschleuniger skaliert werden, und P4-Instances können auf 10 000 A100-GPUs skaliert werden, um Exascale-Rechenleistung On-Demand bereitzustellen.

EC2-UltraCluster werden auf einer wachsenden Liste von EC2-Instances unterstützt und bieten Ihnen die Flexibilität, die richtige Datenverarbeitungsoption zu wählen, um die Leistung zu maximieren und gleichzeitig die Kosten für Ihren Workload unter Kontrolle zu halten.

Funktionen

Leistungsstarkes Netzwerk

EC2-Instances, die in EC2-UltraClustern bereitgestellt werden, sind mit dem EFA-Netzwerk verbunden, um die Leistung für verteilte Trainingsworkloads und eng gekoppelte HPC-Workloads zu verbessern. P5-Instances liefern bis zu 3 200 Gbit/s; Trn1-Instances liefern bis zu 1 600 Gbit/s; und P4d-Instances bieten bis zu 400 Gbit/s an EFA-Netzwerken. EFA ist auch mit NVIDIA GPUDirect RDMA (P5, P4d) und NeuronLink (Trn1) gekoppelt, um die Beschleuniger-zu-Beschleuniger-Kommunikation mit niedriger Latenz zwischen Servern mit Umgehung des Betriebssystems zu ermöglichen.

Leistungsstarker Speicher

EC2-UltraCluster verwenden FSx für Lustre, einen vollständig verwalteten gemeinsamen Speicher, der auf dem beliebtesten parallelen Hochleistungsdateisystem basiert. Mit FSx für Lustre können Sie riesige Datensätze On-Demand und in großem Umfang schnell verarbeiten und Latenzen unter einer Millisekunde bereitstellen. Die Eigenschaften von FSx für Lustre mit niedriger Latenz und hohem Durchsatz sind für DL-, generative KI- und HPC-Workloads auf EC2-UltraClustern optimiert. FSx für Lustre versorgt die GPUs und ML-Beschleuniger in EC2-UltraClustern mit Daten und beschleunigt so die anspruchsvollsten Workloads. Zu diesen Workloads gehören Trainings von großen Sprachmodellen (LLM), generative KI-Inferenzierung, DL, Genomik und finanzielle Risikomodellierung. Mit Amazon Simple Storage Service (Amazon S3) können Sie auch auf praktisch unbegrenzten kostengünstigen Speicherplatz zugreifen.

Unterstützte Instance

P5-Instances, die von NVIDIA-H100-Tensor-Core-GPUs angetrieben werden, bieten die höchste Leistung in Amazon EC2 für ML-Training und HPC-Anwendungen.

Weitere Informationen

P4d-Instances, die von NVIDIA-A100-Tensor-Core-GPUs angetrieben werden, bieten eine hohe Leistung für ML-Training und HPC-Anwendungen.

Weitere Informationen

Trn1-Instances, die von AWS-Trainium-Beschleunigern angetrieben werden, sind speziell für Hochleistungs-Training für ML konzipiert. Sie bieten Einsparungen von bis zu 50 % der Kosten im Vergleich zu vergleichbaren EC2-Instances.

Weitere Informationen