¿Por qué usar las instancias Inf2 de Amazon EC2?
Las instancias Inf2 de Amazon Elastic Compute Cloud (Amazon EC2) están diseñadas específicamente para la inferencia de aprendizaje profundo (DL). Ofrecen un alto rendimiento al menor costo en Amazon EC2 para modelos de inteligencia artificial (IA) generativa, incluidos los modelos de lenguaje de gran tamaño (LLM) y los transformadores de visión. Puede usar instancias Inf2 a fin de ejecutar sus aplicaciones de inferencia para resumir texto, generar código, video e imágenes, hacer reconocimiento de voz, personalizar, detectar fraudes, etc.
Las instancias Inf2 usan la tecnología de AWS Inferentia2, el chip de AWS Inferentia de segunda generación. Las instancias Inf2 aumentan el rendimiento de Inf1 al ofrecer un rendimiento de computación 3 veces mayor, una memoria aceleradora total 4 veces mayor, un rendimiento hasta 4 veces mayor y una latencia hasta 10 veces menor. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los chips de Inferentia. Ahora puede implementar modelos de manera eficiente y rentable con cientos de miles de millones de parámetros en múltiples chips en instancias Inf2.
El SDK de AWS Neuron ayuda a los desarrolladores a implementar modelos en los chips de AWS Inferentia (y a entrenarlos en los chips de AWS Trainium). Se integra de forma nativa con marcos como PyTorch y TensorFlow, para que pueda continuar usando sus flujos de trabajo existentes y ejecutarlos en instancias Inf2.
Beneficios
Características
Detalles del producto
Tamaño de la instancia | Chips de Inferentia2 | Memoria del acelerador (GB) |
vCPU | Memoria (GiB) |
Almacenamiento local |
Interconexión entre chips |
Ancho de banda de la red (Gbps) |
Ancho de banda de EBS (Gbps) |
Precio bajo demanda | 1 año de instancias reservadas | 3 años de instancias reservadas |
inf2.xlarge | 1 | 32 | 4 | 16 | Solo EBS | N/D | Hasta 15 | Hasta 10 | 0,76 USD | 0,45 USD | 0,30 USD |
inf2.8xlarge | 1 | 32 | 32 | 128 | Solo EBS | N/D | Hasta 25 | 10 | 1,97 USD | 1,81 USD | 0,79 USD |
inf2.24xlarge | 6 | 192 | 96 | 384 | Solo EBS | Sí | 50 | 30 | 6,49 USD | 3,89 USD | 2,60 USD |
inf2.48xlarge | 12 | 384 | 192 | 768 | Solo EBS | Sí | 100 | 60 | 12,98 USD | 7,79 USD | 5,19 USD |
Testimonios de clientes y socios
Estos son algunos ejemplos de cómo los clientes y socios lograron sus objetivos empresariales con las instancias Inf2 de Amazon EC2.
-
Leonardo.ai
Nuestro equipo de Leonardo aprovecha la IA generativa para permitir a los profesionales y entusiastas de la creatividad producir recursos visuales con una calidad, velocidad y consistencia de estilo incomparables. El rendimiento en relación con el precio de AWS Inf2 nos permite reducir nuestros costos en un 80 %, sin sacrificar el rendimiento, cambiando fundamentalmente la propuesta de valor que podemos ofrecer a los clientes, habilitando nuestras características más avanzadas a un punto de precio más accesible. También alivia las preocupaciones sobre el costo y la disponibilidad de capacidad para nuestros servicios auxiliares de IA, que son cada vez más importantes a medida que crecemos y escalamos. Es una tecnología clave para nosotros a medida que ampliamos los límites de lo que es posible con la IA generativa, lo que permite una nueva era de creatividad y poder expresivo para nuestros usuarios.
Pete Werner, Head of AI en Leonardo.ai -
Runway
En Runway, nuestro conjunto de herramientas mágicas de IA permite a nuestros usuarios generar y editar contenido como nunca antes. Estamos ampliando constantemente los límites de lo que es posible con la creación de contenido con IA y, a medida que nuestros modelos de IA se vuelven más complejos, los costos de infraestructura subyacente para ejecutar estos modelos a gran escala pueden llegar a ser caros. Gracias a nuestra colaboración con las instancias Inf2 de Amazon EC2 impulsadas por AWS Inferentia, podemos ejecutar algunos de nuestros modelos con un rendimiento hasta 2 veces mayor que las instancias comparables basadas en GPU. Esta inferencia de alto rendimiento y bajo costo nos permite introducir más características, implementar modelos más complejos y, sobre todo, ofrecer una mejor experiencia a los millones de creadores que utilizan Runway.
Cristóbal Valenzuela, cofundador y director ejecutivo de Runway -
Qualtrics
Qualtrics diseña y desarrolla software de administración de experiencias.
En Qualtrics, nuestro objetivo es crear tecnología que elimine las deficiencias en la experiencia de los clientes, empleados, marcas y productos. Para lograrlo, desarrollamos complejos modelos de aprendizaje profundo multitarea y multimodal para lanzar nuevas características, como la clasificación de textos, etiquetado de secuencias, análisis del discurso, extracción de frases clave, extracción de temas, agrupación y comprensión de conversaciones de principio a fin. A medida que usamos estos modelos más complejos en más aplicaciones, el volumen de datos no estructurados crece y necesitamos soluciones optimizadas para la inferencia que puedan satisfacer estas demandas, como las instancias Inf2, para ofrecer las mejores experiencias a nuestros clientes. Nos entusiasma la llegada de las nuevas instancias Inf2, ya que no solo nos permitirán lograr mayores rendimientos mientras reducen drásticamente la latencia, sino que también introducirán características como la inferencia distribuida y el soporte mejorado para formas de entrada dinámicas, lo que nos ayudará a escalar para satisfacer las necesidades de implementación a medida que avanzamos hacia modelos más grandes y complejos.
Aaron Colak, Head of Core Machine Learning en Qualtrics -
Finch Computing
Finch Computing es una empresa de tecnología de lenguaje natural que proporciona aplicaciones de inteligencia artificial para clientes gubernamentales, de servicios financieros y de integración de datos.
Para satisfacer las necesidades de nuestros clientes de procesamiento del lenguaje natural en tiempo real, desarrollamos modelos de aprendizaje profundo de última generación que se escalan a grandes cargas de trabajo de producción. Tenemos que proporcionar transacciones de baja latencia y lograr altos rendimientos para procesar orígenes de datos globales. Hasta ahora, migramos muchas cargas de trabajo de producción a instancias Inf1 y logramos una reducción del 80 % en el costo con respecto a las GPU. Hoy en día, estamos desarrollando modelos más grandes y complejos que permitan obtener un significado más profundo del texto escrito. Muchos de nuestros clientes necesitan acceder a esta información en tiempo real y el rendimiento de las instancias Inf2 nos ayudará a ofrecer una latencia más baja y un mayor rendimiento en comparación con las instancias Inf1”. Con las mejoras en el rendimiento de Inf2 y las nuevas características de Inf2, como la compatibilidad con tamaños de entrada dinámicos, mejoramos nuestra rentabilidad, elevamos la experiencia del cliente en tiempo real y ayudamos a nuestros clientes a obtener nuevos conocimientos de sus datos.
Franz Weckesser, Chief Architect en Finch Computing -
Money Forward Inc.
Money Forward Inc. brinda servicios a empresas e individuos con una plataforma financiera abierta y justa. Como parte de esta plataforma, HiTTO Inc., una empresa del grupo Money Forward, ofrece un servicio de chatbot con IA, que usa modelos de procesamiento de lenguaje natural (NLP) personalizados para abordar las diversas necesidades de sus clientes corporativos.
Lanzamos un servicio de chatbot con IA a gran escala en las instancias Inf1 de Amazon EC2 y logramos reducir costos y nuestra latencia de inferencia en un 97 % en comparación con las instancias basadas en GPU. Estamos muy satisfechos de ver nuevas mejoras de rendimiento en los resultados de nuestras pruebas iniciales en las instancias Inf2 de Amazon EC2. Con el mismo modelo de NLP personalizado, AWS Inf2 pudo reducir aún más la latencia 10 veces más que Inf1. A medida que avanzamos hacia modelos con miles de millones de parámetros, Inf2 nos brinda la confianza de poder seguir ofreciendo a nuestros clientes una experiencia de usuario integral superior.
Takuya Nakade, director de tecnología de Money Forward Inc. -
Fileread
En Fileread.ai, estamos creando soluciones para que interactuar con los documentos sea tan fácil como hacerles preguntas, lo que permitirá a los usuarios encontrar lo que buscan entre todos sus documentos y obtener la información correcta más rápidamente. Desde que cambiamos a la nueva instancia Inf2 de EC2, hemos observado una mejora significativa en nuestras capacidades de inferencia de NLP. El ahorro de costos por sí solo ha supuesto un punto de inflexión para nosotros, ya que nos ha permitido asignar los recursos de manera más eficiente sin sacrificar la calidad. Redujimos la latencia de las inferencias en un 33 % y, al mismo tiempo, aumentamos el rendimiento en un 50 %, lo que permitió a nuestros clientes ofrecer plazos de entrega más rápidos. Nuestro equipo quedó impresionado por la velocidad y el rendimiento de Inf2 en comparación con las instancias G5 más antiguas. Está claro que este es el futuro de la implementación de modelos de NLP.
Daniel Hu, director ejecutivo de Fileread -
Yaraku
En Yaraku, nuestra misión es crear una infraestructura que ayude a las personas a comunicarse sin barreras lingüísticas. Nuestro producto estrella, YarakuZen, permite a cualquier persona, desde traductores profesionales hasta personas monolingües, traducir y poseditar textos y documentos con confianza. Para respaldar este proceso, ofrecemos una amplia gama de herramientas sofisticadas basadas en modelos de aprendizaje profundo, que abarcan tareas como traducción, alineación de palabras bitexto, segmentación de oraciones, modelado del lenguaje y muchas otras. Al usar las instancias Inf1, hemos podido acelerar nuestros servicios para satisfacer la creciente demanda y, al mismo tiempo, reducir el costo de inferencia en más de un 50 % en comparación con las instancias basadas en GPU. Ahora estamos avanzando en el desarrollo de modelos más grandes de próxima generación que requerirán las capacidades mejoradas de las instancias Inf2 para satisfacer la demanda y, al mismo tiempo, mantener una latencia baja. Con Inf2, podremos escalar verticalmente nuestros modelos 10 veces más y mantener al mismo tiempo un rendimiento similar, lo que nos permitirá ofrecer niveles de calidad aún más altos a nuestros clientes.
Giovanni Giacomo, NLP Lead en Yaraku -
Hugging Face
La misión de Hugging Face es democratizar el buen ML para ayudar a los desarrolladores de ML de todo el mundo a resolver problemas del mundo real. Y la clave para ello es garantizar que los mejores y más recientes modelos se ejecuten de la manera más rápida y eficiente posible en los mejores chips de ML de la nube. Estamos muy entusiasmados con la posibilidad de que Inferentia2 se convierta en la nueva forma estándar de implementar modelos de IA generativa a escala. Con Inf1, obtuvimos un costo hasta un 70 % menor al de las instancias tradicionales basadas en GPU, y con Inf2 hemos visto una latencia hasta 8 veces menor en los transformadores tipo BERT en comparación con Inferentia1. Con Inferentia2, nuestra comunidad podrá escalar fácilmente este rendimiento a modelos LLM con una escala de más de 100 000 millones de parámetros y también a los últimos modelos de difusión y visión artificial.
-
PyTorch
PyTorch acelera el camino desde la creación de prototipos de investigación hasta las implementaciones de producción para los desarrolladores de ML. Hemos colaborado con el equipo de AWS para proporcionar soporte nativo con PyTorch para las nuevas instancias Inf2 de Amazon EC2 con tecnología de AWS Inferentia2. Dado que más miembros de nuestra comunidad buscan implementar grandes modelos de IA generativa, nos complace asociarnos con el equipo de AWS para optimizar la inferencia distribuida en las instancias de Inf2 con la conectividad de NeuronLink de alta velocidad entre chips. Con Inf2, los desarrolladores que usan PyTorch ahora pueden implementar fácilmente modelos de transformadores de visión y LLM ultragrandes. Además, las instancias Inf2 aportan otras capacidades innovadoras a los desarrolladores de PyTorch, como tipos de datos eficientes, formas dinámicas, operadores personalizados y un redondeo estocástico optimizado para el hardware, lo que las hace ideales para una amplia adopción por parte de la comunidad de PyTorch.
-
Nextira
El desafío histórico de los LLM y, en términos más generales, de las aplicaciones de IA generativa a nivel empresarial son los costos asociados con el entrenamiento y la ejecución de modelos de aprendizaje profundo de alto rendimiento. Junto con AWS Trainium, AWS Inferentia2 elimina los compromisos financieros a los que se enfrentan nuestros clientes cuando necesitan un entreno de alto rendimiento. Ahora, nuestros clientes que buscan ventajas en el entreno y la inferencia pueden lograr mejores resultados por menos dinero. Trainium e Inferentia aceleran la escalabilidad para cumplir incluso los requisitos de aprendizaje continuo más exigentes de las empresas más grandes de la actualidad. Muchos de los clientes de Nextira que ejecutan grandes cargas de trabajo de IA se beneficiarán directamente de estos nuevos chipsets, lo que aumentará la eficiencia en el ahorro de costos y el rendimiento y generará resultados más rápidos en sus mercados.
Jason Cutrer, fundador y CEO de Nextira -
Amazon CodeWhisperer
Amazon CodeWhisperer es un complemento de codificación de IA que genera recomendaciones de código de una sola línea o de funciones completas en tiempo real en su entorno de desarrollo integrado (IDE) para que pueda crear software rápidamente.
Con CodeWhisperer, mejoramos la productividad de los desarrolladores de software al ofrecer recomendaciones de código mediante modelos de IA generativa. Para desarrollar recomendaciones de código altamente eficaces, escalamos nuestra red de DL a miles de millones de parámetros. Nuestros clientes necesitan recomendaciones de código en tiempo real mientras escriben, por lo que las respuestas de baja latencia son fundamentales. Los modelos de IA generativa de gran tamaño requieren una computación de alto rendimiento para ofrecer tiempos de respuesta en una fracción de segundo. Con Inf2, conseguimos la misma latencia que al ejecutar CodeWhisperer en instancias de GPU optimizadas para el entrenamiento de grandes secuencias de entrada y salida. Por lo tanto, las instancias Inf2 nos ayudan a ahorrar en costos y energía, al mismo tiempo que ofrecen la mejor experiencia posible a los desarrolladores.
Doug Seven, director general de Amazon CodeWhisperer -
Amazon Search
El motor de búsqueda de productos de Amazon indexa miles de millones de productos, resuelve una infinidad de consultas de clientes diarias y es uno de los servicios más usados a nivel mundial.
Estoy muy entusiasmado con el lanzamiento de Inf2 en GA. El rendimiento superior de Inf2, junto con su capacidad para gestionar modelos más grandes con miles de millones de parámetros, hace que sea la elección perfecta para nuestros servicios y nos permite abrir nuevas posibilidades en términos de complejidad y precisión de los modelos. Con la importante aceleración y la rentabilidad que ofrece Inf2, su integración en la infraestructura de servicios de Amazon Search puede ayudarnos a satisfacer las crecientes demandas de nuestros clientes. Planificamos potenciar nuestras nuevas experiencias de compra con el uso de LLM generativos con Inf2.
Trishul Chilimbi, vicepresidente en Amazon Search