Amazon EC2 UltraClusters

Esegui applicazioni HPC e ML su larga scala

Perché Amazon EC2 UltraClusters?

Amazon Elastic Compute Cloud (Amazon EC2) UltraClusters consente di scalare fino a migliaia di GPU o acceleratori ML dedicati, come AWS Trainium, per ottenere l'accesso on demand a un supercomputer. Democratizzano l'accesso a prestazioni di supercalcolo per gli sviluppatori di machine learning (ML), IA generativa e calcolo ad alte prestazioni (HPC) attraverso un semplice modello di utilizzo con pagamento in base al consumo senza costi di configurazione o manutenzione. Le istanze P5 di Amazon EC2, le istanze P4d di Amazon EC2 e le istanze Trn1 di Amazon EC2 sono tutte implementate in Amazon EC2 UltraClusters.

Gli EC2 UltraClusters sono costituiti da migliaia di istanze EC2 accelerate collocate in una determinata zona di disponibilità AWS e interconnesse tramite la rete Elastic Fabric Adapter (EFA) in una rete non bloccante nell'ordine dei petabit. Gli EC2 UltraClusters forniscono inoltre l'accesso ad Amazon FSx per Lustre, un'archiviazione condivisa completamente gestita basata sul più diffuso file system parallelo ad alte prestazioni per elaborare rapidamente enormi set di dati on demand e su larga scala con latenze inferiori al millisecondo. Gli EC2 UltraClusters offrono funzionalità di scalabilità orizzontale per la formazione ML distribuita e carichi di lavoro HPC strettamente accoppiati.

Le istanze P5 e Trn 1 di Amazon EC2 utilizzano un'architettura EC2 UltraClusters di seconda generazione che fornisce una struttura di rete per consentire un minor numero di salti nel cluster, una latenza inferiore e una maggiore scalabilità.

Vantaggi

Gli EC2 UltraClusters riducono i tempi di addestramento e i tempi di soluzione da diverse settimane a pochi giorni. Questo consente di iterare a un ritmo più veloce e di portare sul mercato applicazioni di deep learning (DL), IA generativa e HPC più rapidamente.

Le istanze P5 sono implementate in EC2 UltraClusters con un massimo di 20.000 GPU H100 per fornire oltre 20 exaflop di capacità di calcolo aggregata. Analogamente, le istanze Trn1 possono scalare fino a 30.000 acceleratori Trainium, mentre le istanze P4 fino a 10.000 GPU A100 per fornire calcoli exascale on demand.

Gli EC2 UltraClusters sono supportati su un elenco in espansione di istanze EC2 e offrono la flessibilità di scegliere l'opzione di calcolo più adatta per massimizzare le prestazioni e mantenere sotto controllo i costi del carico di lavoro.

Caratteristiche

Rete ad alte prestazioni

Le istanze EC2 implementate in EC2 UltraClusters sono interconnesse con la rete EFA per migliorare le prestazioni per carichi di lavoro di addestramento distribuiti e carichi di lavoro HPC strettamente accoppiati. Le istanze P5 offrono fino a 3.200 Gbps; le istanze Trn1 offrono fino a 1.600 Gbps; le istanze P4d offrono fino a 400 Gbps di rete EFA. EFA è inoltre abbinato a NVIDIA GPUDirect RDMA (P5, P4d) e NeuronLink (Trn1) per consentire la comunicazione da acceleratore ad acceleratore a bassa latenza tra server con bypass del sistema operativo.

Archiviazione ad alte prestazioni

Gli EC2 UltraClusters utilizzano FSx per Lustre, un'archiviazione condivisa completamente gestito basata sul più diffuso file system parallelo ad alte prestazioni. Con FSx per Lustre, è possibile elaborare rapidamente enormi set di dati on demand e su larga scala, con latenze inferiori al millisecondo. Le caratteristiche di bassa latenza e alto throughput di FSx per Lustre sono ottimizzate per DL, IA generativa e carichi di lavoro HPC su EC2 UltraClusters. FSx per Lustre alimenta le GPU e gli acceleratori ML degli EC2 UltraClusters con i dati, accelerando i carichi di lavoro più impegnativi. Questi carichi di lavoro includono addestramento su modelli linguistici di grandi dimensioni (LLM), inferenza dell'IA generativa, DL, genomica e modellazione del rischio finanziario. Inoltre, è possibile accedere a uno spazio di archiviazione economico e virtualmente illimitato con Amazon Simple Storage Service (Amazon S3).

Istanza supportata

Le istanze P5, basate sulle GPU NVIDIA H100 Tensor Core, offrono le massime prestazioni in Amazon EC2 per l'addestramento ML e le applicazioni HPC.

Ulteriori informazioni

Le istanze P4d, basate sulle GPU NVIDIA A100 Tensor Core, offrono prestazioni elevate per l'addestramento ML e le applicazioni HPC.

Ulteriori informazioni

Le istanze Trn1 basate su acceleratori AWS Trainium, sono costruite appositamente per l'addestramento di ML ad alte prestazioni. Offrono fino al 50% di risparmi sui costi di addestramento rispetto alle istanze EC2 paragonabili.

Ulteriori informazioni