AWS Inferentia

Ottieni prestazioni elevate a costi più bassi in Amazon EC2 per l'inferenza dell'IA generativa e del deep learning

Inizia a usare i chip AWS Inferentia usando AWS Neuron

Perché Inferentia?

I chip AWS Inferentia sono progettati da AWS per fornire prestazioni elevate a costi più bassi in Amazon EC2 per le applicazioni di inferenza di deep learning (DL) e IA generativa.

Il chip AWS Inferentia di prima generazione alimenta le istanze Inf1 di Amazon Elastic Compute Cloud (Amazon EC2), che offrono un throughput fino a 2,3 volte superiore e un costo per inferenza fino al 70% inferiore rispetto alle istanze Amazon EC2 paragonabili. Molti clienti, tra cui Finch AI, Sprinklr, Money Forward e Amazon Alexa, hanno adottato le istanze Inf1 e si sono resi conto dei vantaggi in termini di prestazioni e costi.

Il chip AWS Inferentia2 offre un throughput fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto a Inferentia. Le istanze Amazon EC2 Inf2 basate su Inferentia2 sono ottimizzate per implementare modelli sempre più complessi, come modelli linguistici di grandi dimensioni (LLM) e modelli a diffusione latente su larga scala. Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 e supportano l'inferenza distribuita su scala con connettività ad altissima velocità tra i chip. Molti clienti, tra cui Leonardo.ai, Deutsche Telekom e Qualtrics, hanno adottato istanze Inf2 per le loro applicazioni di DL e IA generativa.

L'SDK di AWS Neuron aiuta gli sviluppatori a implementare i modelli sui chip AWS Inferentia e ad addestrarli sui chip AWS Trainium. Si integra in modo nativo con i framework più diffusi, come PyTorch e TensorFlow, in modo che tu possa continuare a utilizzare il codice e i flussi di lavoro esistenti ed eseguirli sui chip Inferentia.

Vantaggi di AWS Inferentia

Ottimizzato per una velocità di trasmissione effettiva elevata e una bassa latenza

Ogni chip Inferentia di prima generazione dispone di quattro NeuronCore di prima generazione e ogni istanza EC2 Inf1 ha fino a 16 chip Inferentia. Ogni chip Inferentia2 dispone di due NeuronCore di seconda generazione e ogni istanza EC2 Inf2 ha fino a 12 chip Inferentia2. Ogni chip Inferentia2 supporta fino a 190 tera di operazioni in virgola mobile al secondo (TFLOPS) di prestazioni FP16. Inferentia di prima generazione ha 8 GB di memoria DDR4 per chip e dispone anche di una grande quantità di memoria on-chip. Inferentia2 offre 32 GB di HBM per chip, aumentando la memoria totale di 4 volte e la larghezza di banda della memoria di 10 volte rispetto a Inferentia.

Supporto nativo per framework ML

L'SDK AWS Neuron è integrato in modo nativo con framework di ML diffusi come PyTorch e TensorFlow. Con AWS Neuron, è possibile utilizzare questi framework per implementare in modo ottimale i modelli di DL su entrambi i chip AWS Inferentia e Neuron è progettato per ridurre al minimo le modifiche al codice ed eliminare i legami a soluzioni specifiche del fornitore. AWS Neuron ti aiuta a eseguire le applicazioni di inferenza per l'elaborazione del linguaggio naturale e la comprensione, la traduzione linguistica, il riassunto dei testi, la generazione di video e immagini, il riconoscimento vocale, la personalizzazione, il rilevamento delle frodi e altro ancora con chip Inferentia.

Ampia gamma di tipi di dati con lancio automatico

Inferentia di prima generazione supporta tipi di dati FP16, BF16 e INT8. Inferentia2 aggiunge un supporto aggiuntivo per FP32, TF32 e il nuovo tipo di dati FP8 configurabile (cFP8) per offrire agli sviluppatori una maggiore flessibilità, al fine di ottimizzare prestazioni e precisione. AWS Neuron acquisisce i modelli FP32 ad alta precisione e li converte automaticamente in tipi di dati a bassa precisione, ottimizzando la precisione e le prestazioni. Il lancio automatico riduce il time to market eliminando la necessità di riqualificare i prodotti di precisione inferiore.

Funzionalità DL all'avanguardia

Inferentia2 aggiunge ottimizzazioni hardware per dimensioni dinamiche di input e operatori personalizzati scritti in C++. Supporta inoltre l'arrotondamento stocastico, una modalità di arrotondamento probabilistico che consente prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.

Progettato per la sostenibilità

Le istanze Inf2 offrono fino al 50% di prestazioni/watt in più rispetto alle istanze Amazon EC2 paragonabili, poiché, insieme ai chip Inferentia2 sottostanti, sono costruite appositamente per eseguire modelli di DL su scala. Le istanze Inf2 ti consentono di raggiungere i tuoi obiettivi di sostenibilità durante l'implementazione di modelli di dimensioni ultra-grandi.

Video

Dietro le quinte, guarda l'infrastruttura di IA generativa di Amazon

Presentazione delle istanze Amazon EC2 Inf2 basate su AWS Inferentia2

In che modo quattro clienti AWS hanno ridotto i costi del machine learning e favorito l'innovazione con AWS Inferentia

Risorse

Perfeziona e implementa i modelli Llama 2 in modo conveniente in Amazon SageMaker JumpStart con AWS Inferentia e AWS Trainium

Ottimizza Llama 2 utilizzando QLoRA e distribuiscilo su Amazon SageMaker con AWS Inferentia2

Massimizza le prestazioni di Stable Diffusion e riduci i costi di inferenza con AWS Inferentia2

Ottieni prestazioni elevate con il minor costo per l'inferenza di IA generativa utilizzando AWS Inferentia2 e AWS Trainium su Amazon SageMaker

ByteDance consente di risparmiare fino al 60% sui costi di inferenza riducendo la latenza e aumentando la velocità di trasmissione effettiva grazie ad AWS Inferentia

In che modo Amazon Search ha ridotto dell'85% i costi di inferenza ML con AWS Inferentia

Additional resources

Usa AWS Neuron e inizia a usare AWS Inferentia da TensorFlow, PyTorch o MXNet

Ulteriori informazioni

Additional resources

Roadmap della funzionalità AWS Neuron

Ulteriori informazioni

Additional resources

Inizia a usare l'inferenza su AWS Inferentia utilizzando questi semplici tutorial

Ulteriori informazioni

Inizia a usare AWS Inferentia

Inizia subito nella console

Esempi di inferenza/tutorial (Inf2/Trn1)

Ulteriori informazioni