AWS Trainium

Ottieni prestazioni elevate per il deep learning e la formazione sull'IA generativa riducendo al contempo i costi

Inizia a usare Trainium usando Neuron

Perché Trainium?

I chip AWS Trainium sono una famiglia di chip di intelligenza artificiale creati appositamente da AWS per l'addestramento e l'inferenza dell'IA per offrire prestazioni elevate riducendo i costi.

Il chip AWS Trainium di prima generazione alimenta le istanze Trn1 di Amazon Elastic Compute Cloud (Amazon EC2), che hanno costi di addestramento fino al 50% inferiori rispetto alle istanze Amazon EC2 comparabili. Molti clienti, tra cui Databricks, Ricoh, NinjaTech AI e Arcee AI, si stanno rendendo conto dei vantaggi in termini di prestazioni e costi delle istanze Trn1.

Il chip AWS Trainium2 offre prestazioni fino a 4 volte superiori rispetto a Trainium di prima generazione. Le istanze Trn2 di Amazon EC2 basate su Trainium2 sono create appositamente per l'IA generativa e sono le istanze EC2 più potenti per l'addestramento e l'implementazione di modelli con un numero di parametri che va da centinaia di miliardi fino a oltre un trilione. Le istanze Trn2 offrono un rapporto prezzo/prestazioni migliore del 30-40% rispetto all'attuale generazione di istanze EC2 P5e e P5en basate su GPU. Le istanze Trn2 sono dotate di 16 chip Trainium2 interconnessi con NeuronLink, la nostra interconnessione chip-to-chip proprietaria. Puoi utilizzare le istanze Trn2 per addestrare e implementare i modelli più impegnativi, che includono modelli linguistici di grandi dimensioni (LLM), modelli multimodali e trasformatori di diffusione, al fine di creare un'ampia gamma di applicazioni di IA generativa di nuova generazione. Gli UltraServer Trn2, un'offerta EC2 completamente nuova (disponibile in anteprima), sono ideali per i modelli più grandi che richiedono più memoria e larghezza di banda di memoria rispetto a quelle fornite dalle istanze EC2 autonome. Il design UltraServer utilizza NeuronLink per connettere 64 chip Trainium2 su quattro istanze Trn2 in un unico nodo, sbloccando nuove funzionalità. Per l'inferenza, gli UltraServer consentono di fornire tempi di risposta leader del settore per creare le migliori esperienze in tempo reale. Per l'addestramento, gli UltraServer aumentano la velocità e l'efficienza dell'addestramento dei modelli, grazie a una comunicazione collettiva più rapida per il parallelismo dei modelli rispetto alle istanze autonome.

Puoi iniziare ad addestrare e implementare i modelli con le istanze Trn2 e Trn1 con il supporto nativo per i framework di machine learning (ML) più diffusi come PyTorch e JAX.

Vantaggi

IA generativa ad alte prestazioni e conveniente

Gli UltraServer e le istanze Trn2 offrono prestazioni rivoluzionarie in Amazon EC2 per l'addestramento e l'inferenza dell'IA generativa. Ogni UltraServer Trn2 ha 64 chip Trainium2 interconnessi con NeuronLink, la nostra interconnessione chip-to-chip proprietaria, e offre fino a 83,2 petaflop di calcolo FP8, 6 TB di HBM3 con 185 terabyte al secondo (TBps) di larghezza di banda della memoria e 12,8 terabit al secondo (Tbps) di rete Elastic Fabric Adapter (EFA). Ogni istanza Trn2 ha 16 chip Trainium2 collegati a NeuronLink e fornisce fino a 20,8 petaflop di elaborazione FP8, 1,5 TB di HBM3 con 46 TBps di larghezza di banda della memoria e 3,2 Tbps di rete EFA. L'istanza Trn1 include fino a 16 chip Trainium e offre fino a 3 petaflop di elaborazione FP8, 512 GB di HBM con 9,8 TBps di larghezza di banda della memoria e fino a 1,6 Tbps di rete EFA.

Supporto nativo per framework e librerie ML

L'SDK AWS Neuron ti consente di estrarre le prestazioni complete dalle istanze Trn2 e Trn1 in modo da poterti concentrare sulla creazione e sull'implementazione di modelli e sull'accelerazione del time-to-market. AWS Neuron si integra in modo nativo con JAX, PyTorch e librerie fondamentali come Hugging Face, PyTorch Lightning e NeMo. AWS Neuron supporta oltre 100.000 modelli sull'hub di modelli Hugging Face, inclusi quelli popolari come la famiglia di modelli Llama di Meta e Stable Diffusion XL. Ottimizza i modelli pronti all'uso per l'addestramento distribuito e l'inferenza, fornendo al contempo approfondimenti per la profilazione e il debug. AWS Neuron si integra con servizi come Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster e Batch AWS, oltre a servizi di terze parti come Ray (Anyscale), Domino Data Lab e Datadog.

Ottimizzazioni di IA all'avanguardia

Per offrire prestazioni elevate e raggiungere gli obiettivi di precisione, i chip Trainium sono ottimizzati per FP32, TF32, BF16, FP16 e il nuovo tipo di dati FP8 (cFP8) configurabile. Per supportare il rapido ritmo dell'innovazione nell'IA generativa, Trainium2 dispone di ottimizzazioni hardware per la carenza 4x (16:4), il microscaling, l'arrotondamento stocastico e motori collettivi dedicati.

Progettato per la ricerca sull'IA

Neuron Kernel Interface (NKI) consente l'accesso diretto all'architettura del set di istruzioni (ISA) utilizzando un ambiente basato su Python con un'interfaccia simile a Triton, che permette di innovare nuove architetture di modelli e kernel di calcolo altamente ottimizzati che superano le tecniche esistenti.

Progettato per la sostenibilità

Le istanze Trn2 sono progettate per essere tre volte più efficienti dal punto di vista energetico rispetto alle istanze Trn1. Le istanze Trn1 sono fino al 25% più efficienti dal punto di vista energetico rispetto a quelle EC2 di calcolo accelerato comparabili. Queste istanze consentono di raggiungere i tuoi obiettivi di sostenibilità durante l'addestramento di modelli di dimensioni ultra-grandi.

Video

Conquista le prestazioni, i costi e la scalabilità dell'IA

AWS Trainium2 per prestazioni IA rivoluzionarie

Storie dei clienti dei chip IA di AWS

Risorse

Perfeziona e implementa i modelli Llama 2 in modo conveniente in Amazon SageMaker JumpStart con AWS Inferentia e AWS Trainium

Addestra Llama2 con AWS Trainium su Amazon Elastic Kubernetes Service (Amazon EKS)

La frugalità incontra la precisione: formazione economica dei modelli GPT NeoX e Pythia con AWS Trainium

Come Amazon Search M5 ha risparmiato il 30% sui costi di addestramento di modelli linguistici di grandi dimensioni (LLM) utilizzando AWS Trainium

Ottimizzazione rapida ed economica di LLaMA 2 con AWS Trainium

Scala i tuoi carichi di lavoro di ML su Amazon ECS con istanze AWS Trainium

Additional resources

Usa AWS Neuron e inizia a usare AWS Trainium da TensorFlow, PyTorch o MXNet

Ulteriori informazioni

Additional resources

Roadmap della funzionalità AWS Neuron

Ulteriori informazioni

Additional resources

Inizia con la formazione su AWS Trainium utilizzando questi semplici tutorial

Ulteriori informazioni

Nozioni di base su Trainium

Inizia subito nella console

Esempi di formazione e tutorial (Trn1 e Trn1n)

Ulteriori informazioni