Istanze Trn1 di Amazon EC2

Addestramento ad alte prestazioni e conveniente di modelli di IA generativa

Perché scegliere le istanze Trn1 di Amazon EC2?

Le istanze Trn1 di Amazon Elastic Compute Cloud (EC2), basate sui chip AWS Trainium, sono create appositamente per l'addestramento di deep learning (DL) ad alte prestazioni di modelli di IA generativa, inclusi modelli linguistici di grandi dimensioni (LLM) e modelli di diffusione latente. Le istanze Trn1 offrono fino al 50% di risparmio sui costi di addestramento rispetto ad altre istanze Amazon EC2 paragonabili. È possibile utilizzare le istanze Trn1 per addestrare modelli di IA generativa e DL con oltre 100 miliardi di parametri su un'ampia gamma di applicazioni, come riepilogo del testo, generazione di codice, risposta a domande, generazione di immagini e video, consigli e rilevamento di frodi.

L’SDK AWS Neuron consente agli sviluppatori di addestrare modelli su AWS Trainium e di implementarli sui chip AWS Inferentia. Si integra in modo nativo con framework come PyTorch e TensorFlow, così che sia possibile continuare a utilizzare i flussi di lavoro e il codice esistenti per addestrare modelli sulle istanze Trn1. Per conoscere l'attuale supporto di Neuron per framework e librerie di machine learning (ML), architetture di modelli e ottimizzazioni hardware, consulta la documentazione di Neuron.

Presentazione delle istanze Amazon EC2 Trn1 con tecnologia AWS Trainium

Vantaggi

Le istanze Trn1 sono progettate appositamente per DL ad alte prestazioni e riducono i tempi di addestramento da mesi a settimane, o addirittura giorni. Con tempi di addestramento ridotti, puoi iterare più velocemente, creare modelli più innovativi e aumentare la produttività. Le istanze Trn1n offrono un tempo di addestramento fino al 20% più veloce rispetto alle istanze Trn1 per i modelli che beneficiano di una maggiore larghezza di banda della rete.

Le istanze Trn1 offrono prestazioni elevate e al contempo risparmi sui costi di addestramento fino al 50% rispetto ad altre istanze Amazon EC2 comparabili.

Usa l'SDK AWS Neuron per estrarre le prestazioni complete delle istanze Trn1. Con Neuron puoi utilizzare i framework ML più diffusi, come PyTorch e TensorFlow, e continuare a utilizzare il codice e i flussi di lavoro esistenti per addestrare modelli su istanze Trn1. Per iniziare rapidamente con le istanze Trn1, consulta esempi di modelli comuni nella documentazione di Neuron.

Le istanze Trn1 supportano fino a 800 Gbps di larghezza di banda della rete Elastic Fabric Adapter (EFAv2) di seconda generazione. Le istanze Trn1n supportano fino a 1600 Gbps di larghezza di banda della rete EFAv2, in modo da fornire prestazioni ancora più elevate per i modelli ad alta intensità di rete. Entrambe le istanze sono implementate in EC2 UltraCluster che consentono di aggiungere fino a 30.000 chip Trainium, interconnessi con una rete non bloccante su scala petabit per fornire 6 exaflop di capacità di calcolo.

Caratteristiche

Le istanze Trn1 sono alimentate da un massimo di 16 chip AWS Trainium appositamente progettati per accelerare l'addestramento DL e fornire fino a 3 petaflop di potenza di elaborazione FP16/BF16. Ogni chip include due NeuronCore di seconda generazione.

Per supportare un parallelismo efficiente di dati e modelli, ogni istanza Trn1 dispone di 512 GB di memoria dell’acceleratore condivisa (HBM) con 9,8 TB/s di larghezza di banda di memoria totale.

Per supportare l'addestramento di modelli ad alta intensità di rete, come Mixture of Experts (MoE) e Generative Pre-Training Transformers (GPT), ogni istanza Trn1n offre fino a 1600 Gbps di larghezza di banda della rete EFAv2. Ogni istanza Trn1 supporta fino a 800 Gbps di larghezza di banda EFAv2. EFAv2 velocizza l'addestramento distribuito offrendo un miglioramento fino al 50% delle prestazioni di comunicazione collettiva rispetto agli EFA di prima generazione. Queste istanze supportano anche fino a 80 Gbps di larghezza di banda Amazon Elastic Block Store (EBS) e fino a 8 TB di archiviazione locale su unità a stato solido (SSD) NVMe per un accesso rapido al carico di lavoro a set di dati di grandi dimensioni.

Per una connettività rapida tra chip Trainium e comunicazioni collettive semplificate, le istanze Trn1 supportano fino a 768 GB/s di NeuronLink, un'interconnessione non bloccante ad alta velocità.

Per offrire prestazioni elevate e raggiungere gli obiettivi di precisione, le istanze Trn1 sono ottimizzate per FP32, TF32, BF16, FP16, UINT8 e il nuovo tipo di dati FP8 (cFP8) configurabile. Per supportare la rapida innovazione di DL e IA generativa, le istanze Trn1 presentano diverse novità che le rendono flessibili ed estensibili per addestrare modelli DL in continua evoluzione. Le istanze Trn1 dispongono di ottimizzazioni hardware e supporto software per forme di input dinamiche. Per consentire il supporto di nuovi operatori in futuro, sono compatibili con operatori personalizzati scritti in C++. Supportano inoltre l'arrotondamento stocastico, un metodo di arrotondamento probabilistico per ottenere prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.

Testimonianze dei partner e dei clienti

Ecco alcuni esempi di come clienti e partner hanno raggiunto i loro obiettivi aziendali con le istanze Trn1 di Amazon EC2.

  • Databricks

    Più di 10.000 organizzazioni in tutto il mondo, tra cui Comcast, Condé Nast e oltre il 50% delle aziende Fortune 500, si affidano a Databricks per unificare dati, analisi e intelligenza artificiale.

    Migliaia di clienti hanno implementato Databricks su AWS, dando la possibilità di utilizzare MosaicML per pre-addestrare, mettere a punto e servire modelli di base per una varietà di casi d'uso. AWS Trainium ci offre la scalabilità e le alte prestazioni necessarie per addestrare i nostri modelli Mosaic MPT e a basso costo. Man mano che addestriamo i nostri modelli Mosaic MPT di nuova generazione, Trainium2 consentirà di creare modelli ancora più velocemente, consentendoci di fornire ai nostri clienti scalabilità e prestazioni senza precedenti in modo che possano portare le proprie applicazioni di IA generativa sul mercato più rapidamente.

    Naveen Rao, VP of Generative AI, Databricks
  • Stockmark Co., Ltd

    Con la missione di "reinventare il meccanismo di creazione di valore e promuovere l'umanità", Stockmark aiuta molte aziende a creare e costruire attività innovative fornendo tecnologie all'avanguardia per l'elaborazione del linguaggio naturale.

    Con 16 nodi di istanze Amazon EC2 Trn1 alimentati dai chip AWS Trainium, abbiamo sviluppato e rilasciato stockmark-13b, un modello linguistico di grandi dimensioni con 13 miliardi di parametri, pre-addestrato da zero su un corpus giapponese di 220 miliardi di token. Il corpus include gli ultimi testi relativi ai domini aziendali fino a settembre 2023. Il modello ha ottenuto il punteggio JSQuAD più alto (0,813) nel benchmark JGLUE (Japanese General Language Understanding Evaluation) rispetto ad altri modelli equivalenti. È disponibile su Hugging Face Hub e può essere utilizzato commercialmente con la licenza MIT. Le istanze Trn1 ci hanno aiutato a ottenere una riduzione dei costi di formazione del 20% rispetto alle istanze GPU equivalenti.

    Kosuke Arima, CTO, Stockmark Co., Ltd.
  • RICOH

    RICOH offre soluzioni per l'ambiente di lavoro e servizi di trasformazione digitale progettati per gestire e ottimizzare il flusso di informazioni tra le aziende.

    La migrazione alle istanze Trn1 è stata piuttosto semplice. Siamo stati in grado di completare l'addestramento del nostro modello di parametri 13B in soli 8 giorni. Sulla base di questo successo, non vediamo l'ora di sviluppare e addestrare il nostro modello di parametri 70B su Trainium e siamo entusiasti del potenziale di questi casi nell'addestramento dei nostri modelli in modo più rapido ed economico.

    Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH
  • HeliXon

    In HeliXon, creiamo soluzioni di intelligenza artificiale di nuova generazione per terapie a base di proteine. Il nostro obiettivo è sviluppare strumenti di intelligenza artificiale che consentano agli scienziati di decifrare la funzione e l'interazione delle proteine, interrogare set di dati genomici su larga scala per l'identificazione dei bersagli, e infine progettare terapie come anticorpi e terapie cellulari. Oggi utilizziamo librerie di distribuzione dell'addestramento come FSDP per parallelizzare l'addestramento dei modelli su diversi server basati su GPU, ma ci vogliono ancora settimane per addestrare un singolo modello. Siamo entusiasti di utilizzare le istanze Trn1 di Amazon EC2, dotate della massima larghezza di banda della rete (800 Gbps) disponibile in AWS per migliorare le prestazioni dei nostri processi di addestramento distribuiti e ridurre i tempi di addestramento dei nostri modelli, riducendo al tempo stesso i costi.

    Jian Peng, CEO, Helixon
  • Money Forward, Inc.

    Money Forward, Inc. offre ad aziende e privati una piattaforma finanziaria equa e aperta.

    Abbiamo lanciato un servizio di chatbot basato sull'IA su larga scala sulle istanze Amazon EC2 Inf1 e ridotto la nostra latenza di inferenza del 97% rispetto a istanze analoghe basate su GPU, riducendo al contempo i costi. Poiché continuiamo a perfezionare periodicamente modelli NLP personalizzati, è importante anche ridurre i tempi e i costi di addestramento dei modelli. Sulla base della nostra esperienza derivante dalla corretta migrazione del carico di lavoro di inferenza su istanze Inf1 e sul nostro lavoro iniziale su istanze Trn1 di EC2 basate su AWS Trainium, prevediamo che le istanze Trn1 forniranno un valore aggiunto nel miglioramento delle prestazioni e dei costi di ML end-to-end.

    Takuya Nakade, CTO, Money Forward Inc.
  • Magic

    Magic è un'azienda di ricerca e prodotti integrati che sta sviluppando un'IA che venga percepita come un collega allo scopo di rendere il mondo più produttivo.

    L'addestramento di modelli autoregressivi di grandi dimensioni basati su Transformer è una componente essenziale del nostro lavoro. Le istanze Trn1 basate su AWS Trainium sono progettate specificamente per questi carichi di lavoro e offrono scalabilità quasi infinita, rete tra nodi veloce e supporto avanzato per tipi di dati a 16 e 8 bit. Le istanze Trn1 ci aiuteranno ad addestrare modelli di grandi dimensioni più velocemente e a un costo inferiore. Siamo particolarmente entusiasti del supporto nativo per l'arrotondamento stocastico BF16 in Trainium, il quale aumenta le prestazioni mentre la precisione numerica è indistinguibile da quella completa.

    Eric Steinberger, Cofounder e CEO, Magic
  • Cactus Communications

    CACTUS offre una suite di prodotti e soluzioni per ricercatori e organizzazioni in grado di migliorare il modo in cui la ricerca viene finanziata, pubblicata, comunicata e scoperta.

    In Cactus Labs sfruttiamo la potenza dell'IA con ricerche incentrate sull'elaborazione del linguaggio naturale, sulla classificazione e sulle raccomandazioni, sull'intelligenza artificiale conversazionale, sui modelli linguistici di grandi dimensioni, sulla visione artificiale, AR/VR e XAI. In linea con il nostro obiettivo di consentire un addestramento più rapido dei modelli di machine learning e permettere ai nostri ricercatori di eseguire più esperimenti, gestendo al contempo i costi dell'infrastruttura, siamo stati lieti di valutare AWS Trainium. Le funzionalità preconfigurate di AWS Trainium, come l'ottimizzazione XLA, l'addestramento in parallelo di dati con più operatori e la memorizzazione nella cache di grafici, ci sono davvero utili per ridurre i tempi di addestramento e aiutarci a eseguire più esperimenti in modo più rapido ed economico.

    Nishchay Shah, CTO e Head of Emerging Products, Cactus Communications
  • Watashiha

    Watashiha offre un servizio di IA chatbot innovativo e interattivo, "OGIRI AI", che incorpora l'elemento umoristico per fornire una risposta divertente all'istante a una domanda.

    Utilizziamo modelli linguistici di grandi dimensioni per incorporare l'umorismo e offrire un'esperienza più pertinente e colloquiale ai nostri clienti sui nostri servizi di intelligenza artificiale. Ciò richiede di pre-addestrare e calibrare questi modelli frequentemente. Abbiamo pre-addestrato un modello giapponese basato su GPT sull'istanza EC2 Trn1.32xlarge, sfruttando il parallelismo di tensori e dati. L'addestramento è stato completato entro 28 giorni con una riduzione dei costi del 33% rispetto alla nostra precedente infrastruttura basata su GPU. Poiché i nostri modelli continuano a crescere rapidamente in termini di complessità, attendiamo con impazienza le istanze Trn1n con il doppio della larghezza di banda della rete di Trn1, così da accelerare l'addestramento di modelli più grandi.

    Yohei Kobashi, CTO, Watashiha, K.K.
  • PyTorch

    In PyTorch acceleriamo il passaggio del machine learning dalla prototipazione per la ricerca alla produzione per i clienti. Abbiamo collaborato a lungo con il team AWS per fornire supporto PyTorch nativo per le nuove istanze Amazon EC2 Trn1 basate su AWS Trainium, create appositamente per l'addestramento di modelli di deep learning. Gli sviluppatori che creano modelli PyTorch possono iniziare l'addestramento sulle istanze Trn1 con modifiche minime al codice. Inoltre, abbiamo collaborato con la comunità OpenXLA per abilitare le librerie distribuite PyTorch per una facile migrazione dei modelli da istanze basate su GPU a istanze Trn1. Siamo entusiasti dell'innovazione che le istanze Trn1 apportano alla comunità PyTorch, tra cui tipi di dati più efficienti, forme dinamiche, operatori personalizzati, arrotondamento stocastico ottimizzato per l'hardware e modalità di debug eager. Tutto ciò rende Trn1 adatto per un'ampia adozione da parte degli sviluppatori di PyTorch, inoltre attendiamo con impazienza futuri contributi congiunti a PyTorch per ottimizzare ulteriormente le prestazioni di addestramento.

    Geeta Chauhan, Applied AI, Engineering Manager, PyTorch
  • Hugging Face

    La missione di Hugging Face è quella di democratizzare il machine learning per aiutare gli sviluppatori di ML di tutto il mondo a risolvere problemi nel mondo reale. E la chiave per farlo è garantire che i modelli più recenti e migliori vengano eseguiti nel modo più rapido ed efficiente possibile sui migliori chip ML del cloud. Siamo incredibilmente entusiasti del potenziale che Inferentia2 diventi il nuovo modo standard per implementare modelli di IA generativa su larga scala. Con Inf1, abbiamo registrato una riduzione dei costi fino al 70% rispetto alle tradizionali istanze basate su GPU e con Inf2 abbiamo riscontrato una latenza fino a 8 volte inferiore per i Transformers simili a BERT rispetto a Inferentia1. Con Inferentia2, la nostra community sarà in grado di adattare facilmente queste prestazioni agli LLM con oltre 100 miliardi di parametri e ai più recenti modelli di diffusione e visione artificiale.

  • Amazon

    "Stiamo addestrando modelli linguistici di grandi dimensioni (LLM) multimodali (testo + immagine), multilingue, con più impostazioni internazionali, pre-addestrati su più attività e che coinvolgono diverse entità (prodotti, domande, marchi, recensioni, ecc.) per migliorare l'esperienza di acquisto dei clienti. Le istanze Trn1 forniscono un modo più sostenibile per addestrare gli LLM, offrendo il miglior rapporto prestazioni/watt rispetto ad altre soluzioni di machine learning accelerato, oltre a garantirci prestazioni elevate a costi più bassi. Abbiamo intenzione di esplorare il nuovo tipo di dati FP8 configurabile e l'arrotondamento stocastico con accelerazione hardware per aumentare ulteriormente l'efficienza dell'addestramento e la velocità di sviluppo.

    Trishul Chilimbi, vicepresidente di Amazon Search

Nozioni di base

Puoi addestrare modelli su istanze Trn1 con facilità utilizzando Amazon SageMaker. Riduci in modo significativo i tempi e i costi di addestramento e ottimizzazione dei modelli ML senza la necessità di gestire l'infrastruttura. Con SageMaker, è possibile utilizzare strumenti integrati per gestire e tenere traccia degli esperimenti di addestramento, scegliere automaticamente gli iperparametri ottimali, eseguire il debug dei processi di addestramento e monitorare l'uso delle risorse di sistema.

Le AWS Deep Learning AMI (DLAMI) forniscono agli esperti e ai ricercatori di deep learning (DL) l'infrastruttura e gli strumenti necessari per velocizzare i processi di deep learning su AWS, su qualsiasi scala. I driver AWS Neuron sono preconfigurati nella DLAMI per addestrare i modelli DL in modo ottimale sulle istanze Trn1.

Adesso è possibile implementare istanze Trn1 in Amazon Elastic Kubernetes Service (EKS), un servizio Kubernetes interamente gestito, e in Amazon Elastic Container Service (ECS), un servizio di orchestrazione di container interamente gestito di Amazon. Neuron è disponibile anche preinstallato nei container AWS per il deep learning. Per saperne di più sull'esecuzione di container sulle istanze Trn1, consulta i tutorial sui container Neuron.

Dettagli del prodotto

Dimensioni istanza Chip Trainium
Acceleratore
Memoria
(GB)
vCPU Istanza
Memoria
(GiB)
Locale
NVMe
Archiviazione
(TB)
Rete
Larghezza di banda
(Gb/s)
EFA e
RDMA
Supporto
EBS
Larghezza di banda
(Gb/s)
On demand
Prezzo all'ora
1 anno
Riservate
Istanza
Effettivo
Orario*
3 anni
Riservate
Istanza
Effettivo
Orario*
trn1.2xlarge 1 32 8 32 0,5 Fino a 12,5 No Fino a 20 1,34 USD 0,79 USD 0,4744 USD
trn1.32xlarge 16 512 128 512 8 800 80 21,50 USD 12,60 USD 7,59 USD

trn1n.32xlarge

16 512 128 512 8 1.600 80 24,78 USD 14,52 USD 8,59 USD