Perché Inferentia?
Gli acceleratori AWS Inferentia sono progettati da AWS per fornire prestazioni elevate a costi più bassi in Amazon EC2 per le applicazioni di inferenza di deep learning (DL) e IA generativa.
L'acceleratore AWS Inferentia di prima generazione alimenta le istanze Inf1 di Amazon Elastic Compute Cloud (Amazon EC2), che offrono una velocità di trasmissione effettiva fino a 2,3 volte superiore e un costo per inferenza fino al 70% inferiore rispetto alle istanze Amazon EC2 paragonabili. Molti clienti, tra cui Finch AI, Sprinklr, Money Forward e Amazon Alexa, hanno adottato le istanze Inf1 e si sono resi conto dei vantaggi in termini di prestazioni e costi.
L’acceleratore AWS Inferentia2 offre una velocità di trasmissione effettiva fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto a Inferentia. Le istanze Amazon EC2 Inf2 basate su Inferentia2 sono ottimizzate per implementare modelli sempre più complessi, come modelli linguistici di grandi dimensioni (LLM) e modelli a diffusione latente su larga scala. Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 e supportano l'inferenza distribuita su scala con connettività ad altissima velocità tra gli acceleratori. Molti clienti, tra cui Leonardo.ai, Deutsche Telekom e Qualtrics, hanno adottato istanze Inf2 per le loro applicazioni di DL e IA generativa.
L'SDK di AWS Neuron aiuta gli sviluppatori a implementare i modelli sugli acceleratori AWS Inferentia e ad addestrarli sugli acceleratori AWS Trainium. Si integra in modo nativo con i framework più diffusi, come PyTorch e TensorFlow, in modo che tu possa continuare a utilizzare il codice e i flussi di lavoro esistenti ed eseguirli sugli acceleratori Inferentia.