Mengapa Inferentia?
Akselerator AWS Inferentia didesain oleh AWS untuk memberikan performa tinggi dengan biaya terendah di Amazon EC2 untuk aplikasi inferensi deep learning (DL) dan AI generatif Anda.
Akselerator AWS Inferentia generasi pertama mendukung instans Inf1 Amazon Elastic Compute Cloud (Amazon EC2), yang menghasilkan throughput hingga 2,3x lebih tinggi dan biaya per inferensi hingga 70% lebih rendah dibandingkan instans Amazon EC2 yang sebanding. Banyak pelanggan, termasuk Finch AI, Sprinklr, Money Forward, dan Amazon Alexa, telah mengadopsi instans Inf1 serta mendapatkan keuntungannya dari sisi performa dan biaya.
Akselerator AWS Inferentia2 memberikan throughput hingga 4x lebih tinggi dan latensi hingga 10x lebih rendah dibandingkan Inferentia. Instans Inf2 Amazon EC2 berbasis Inferentia2 dioptimalkan untuk melakukan deployment model yang semakin kompleks, seperti model bahasa besar (LLM) dan model difusi laten, dalam skala besar. Instans Inf2 merupakan instans pertama yang dioptimalkan inferensi di Amazon EC2 untuk mendukung inferensi terdistribusi penskalaan ke luar dengan konektivitas berkecepatan sangat tinggi di antara akselerator. Banyak pelanggan, termasuk Leonardo.ai, Deutsche Telekom, serta Qualtrics telah mengadopsi instans Inf2 untuk aplikasi DL dan AI generatif mereka.
SDK AWS Neuron membantu developer melakukan deployment model pada akselerator AWS Inferentia (dan melatihnya di akselerator AWS Trainium). SDK AWS Neuron berintegrasi secara native dengan kerangka kerja yang populer, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada serta berjalan di akselerator Inferentia.