Instancias Trn1 de Amazon EC2

Entrenamiento rentable y de alto rendimiento de modelos de IA generativa

¿Por qué elegir las instancias Trn1 de Amazon EC2?

Las instancias Trn1 de Amazon Elastic Compute Cloud (EC2), impulsadas por los chips de AWS Trainium, están diseñadas específicamente para el entrenamiento de modelos de IA generativa con aprendizaje profundo (DL) de alto rendimiento, incluidos los modelos de lenguaje de gran tamaño (LLM) y de difusión latente. Las instancias Trn1 ofrecen hasta un 50 % de ahorro en el costo del entrenamiento con respecto a otras instancias de Amazon EC2 comparables. Puede usar instancias Trn1 para entrenar más de 100 000 millones de modelos de DL de parámetros y de IA generativa en un amplio conjunto de aplicaciones, como resúmenes de texto, generación de códigos, respuesta a preguntas, generación de imágenes y videos, recomendaciones y detección de fraudes.

El SDK de AWS Neuron ayuda a los desarrolladores a entrenar modelos en AWS Trainium (e implementar modelos en los chips de AWS Inferentia). Se integra de forma nativa con marcos de trabajo, como PyTorch y TensorFlow, para que pueda seguir utilizando el código y los flujos de trabajo existentes para entrenar modelos en instancias Trn1. Para obtener información sobre el soporte de Neuron actual para marcos y bibliotecas de machine learning (ML), arquitecturas de modelos y optimizaciones de hardware, consulte la documentación de Neuron.

Introducción a las instancias Trn1 de Amazon EC2 impulsadas por AWS Trainium

Beneficios

Las instancias Trn1 se diseñan específicamente para lograr un DL de alto rendimiento y reducir los tiempos de entrenamiento de meses a semanas o incluso días. Con tiempos de entrenamiento más breves, puede iterar más rápido, crear modelos más innovadores y aumentar la productividad. Las instancias Trn1n ofrecen un tiempo de entrenamiento hasta un 20 % más rápido que las instancias Trn1 para los modelos que se benefician de un mayor ancho de banda de la red.

Las instancias Trn1 ofrecen una alto rendimiento y un ahorro de hasta el 50 % en costos de entrenamiento en comparación con otras instancias Amazon EC2 comparables.

Utilice el SDK de AWS Neuron para extraer todo el rendimiento de las instancias Trn1. Con Neuron, puede usar marcos de trabajo de ML populares, como PyTorch y TensorFlow, y seguir usando su código y flujos de trabajo existentes para entrenar modelos en instancias Trn1. Para comenzar rápidamente a usar las instancias Trn1, vea ejemplos de modelos populares en la documentación de Neuron.

Las instancias Trn1 admiten hasta 800 Gbps de ancho de banda de la red Elastic Fabric Adapter (EFAv2) de segunda generación. Las instancias Trn1n admiten hasta 1600 Gbps de ancho de banda de la red de EFAv2 para ofrecer un rendimiento aún mayor para los modelos que hacen un uso intensivo de la red. Ambas instancias se implementan en EC2 UltraClusters que permiten escalar hasta 30 000 chips de Trainium, que están interconectados con una red a escala de petabits sin bloqueo para proporcionar 6 exaflops de rendimiento informático.

Características

Las instancias Trn1 funcionan con hasta 16 chips de AWS Trainium creados específicamente para acelerar el entrenamiento de DL y ofrecer hasta 3 petaflops de potencia informática FP16/BF16. Cada chip incluye dos núcleos NeuronCore de segunda generación.

Para permitir un paralelismo eficiente de datos y modelos, cada instancia Trn1 tiene 512 GB de memoria aceleradora compartida (HBM) con 9,8 TB/s de ancho de banda total de memoria.

Para respaldar el entrenamiento de modelos con uso intensivo de la red, como Mixture of Experts (MoE) y Generative PreTrained Transformers (GPT), cada instancia Trn1n ofrece hasta 1600 Gbps de ancho de banda de la red de EFAv2. Cada instancia Trn1 admite hasta 800 Gbps de ancho de banda de EFAv2. EFAv2 acelera el entrenamiento distribuido al ofrecer una mejora de hasta un 50 % en el rendimiento de las comunicaciones colectivas en comparación con el servicio EFA de primera generación. Estas instancias también admiten hasta 80 Gbps de ancho de banda de Amazon Elastic Block Store (EBS) y hasta 8 TB de almacenamiento en disco duro de estado sólido (SSD) NVMe local para un acceso rápido a la carga de trabajo de grandes conjuntos de datos.

Para una conectividad rápida entre aceleradores y comunicaciones colectivas optimizadas, las instancias Trn1 admiten hasta 768 Gb/s de NeuronLink, una interconexión de alta velocidad sin bloqueos.

Para ofrecer un alto rendimiento y, al mismo tiempo, cumplir con los objetivos de precisión, las instancias Trn1 están optimizadas para FP32, TF32, BF16, FP16, UINT8 y el nuevo tipo de datos FP8 configurable (cFP8). Para respaldar el rápido ritmo de innovación del DL y la IA generativa, las instancias Trn1 cuentan con varias innovaciones que las hacen flexibles y ampliables para entrenar modelos de DL en constante evolución. Las instancias Trn1 cuentan con optimizaciones de hardware y soporte de software para formas de entrada dinámicas. Para permitir la compatibilidad con nuevos operadores en el futuro, admiten operadores personalizados escritos en C++. También admiten el redondeo estocástico, un método de redondeo probabilístico que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.

Testimonios de clientes y socios

Estos son algunos ejemplos de cómo los clientes y socios lograron sus objetivos empresariales con las instancias Trn1 de Amazon EC2.

  • Databricks

    Más de 10 000 organizaciones de todo el mundo (incluidas Comcast, Condé Nast y más del 50 % de las empresas de la lista Fortune 500) confían en los Databricks para unificar sus datos, análisis e inteligencia artificial.

    Miles de clientes implementaron Databricks en AWS, lo que les brinda la capacidad de utilizar MosaicML para preentrenar, refinar y entregar modelos fundacionales para una variedad de casos de uso. AWS Trainium nos brinda la escala y el alto rendimiento necesarios para entrenar nuestros modelos MPT de Mosaic, y a un bajo costo. A medida que entrenamos nuestros modelos MPT de Mosaic de próxima generación, Trainium2 permitirá crear modelos aún más rápido, lo que nos permitirá ofrecer a nuestros clientes una escala y un rendimiento sin precedentes para que puedan lanzar al mercado sus propias aplicaciones de IA generativa con mayor rapidez.

    Naveen Rao, VP of Generative AI de Databricks
  • Stockmark Co., Ltd

    Con la misión de “reinventar el mecanismo de creación de valor y hacer avanzar a la humanidad”, Stockmark ayuda a muchas empresas a crear y construir negocios innovadores al proporcionar tecnología de procesamiento del lenguaje natural de vanguardia.

    Con 16 nodos de instancias Trn1 de Amazon EC2 impulsadas por chips de AWS Trainium, desarrollamos y publicamos stockmark-13b, un modelo de lenguaje de gran tamaño con 13 000 millones de parámetros, previamente entrenado desde cero en un corpus japonés de 220 000 millones de tokens. El corpus incluye los textos más recientes sobre dominios empresariales hasta septiembre de 2023. El modelo obtuvo la puntuación más alta de JSquad (0,813) en el punto de referencia JGLUE (Japanese General Language Understanding Evaluation) en comparación con otros modelos equivalentes. Está disponible en Hugging Face Hub y se puede usar comercialmente con la licencia de MIT. Las instancias Trn1 nos permitieron lograr una reducción del 20 % en los costos de entrenamiento en comparación con las instancias de GPU equivalentes.

    Kosuke Arima, CTO de Stockmark Co., Ltd.
  • RICOH

    RICOH ofrece soluciones para el lugar de trabajo y servicios de transformación digital diseñados para gestionar y optimizar el flujo de información entre las empresas.

    La migración a las instancias Trn1 fue bastante sencilla. Pudimos completar el entrenamiento de nuestro modelo de parámetros 13B en solo 8 días. A partir de este éxito, esperamos desarrollar y entrenar nuestro modelo de parámetros 70B en Trainium y estamos entusiasmados con el potencial de estas instancias para entrenar nuestros modelos de manera más rápida y rentable.

    Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH
  • HeliXon

    En HeliXon, creamos soluciones de IA de última generación para los tratamientos basados en proteínas. Nuestro objetivo es desarrollar herramientas de IA que permitan a los científicos descifrar la función e interacciones de las proteínas, examinen los conjuntos de datos genómicos a gran escala para identificar objetivos y diseñar tratamientos como anticuerpos o terapias celulares. Hoy en día usamos bibliotecas de distribución de entrenamiento como FSDP para poner en paralelo el entrenamiento de modelos con varios servidores basados en GPU; sin embargo, aún tardamos semanas en entrenar un solo modelo. Nos complace usar las instancias Trn1 de Amazon EC2, que cuentan con el ancho de banda de la red más alto (800 Gbps) disponible en AWS para mejorar el rendimiento de nuestros trabajos de entrenamiento distribuido y reducir nuestros tiempos y costos de entrenamiento de modelos.

    Jian Peng, CEO, Helixon
  • Money Forward, Inc.

    Money Forward, Inc. brinda servicios a empresas e individuos con una plataforma financiera abierta y justa.

    Lanzamos un servicio de chatbot con IA a gran escala en las instancias Inf1 de Amazon EC2 y logramos reducir costos y nuestra latencia de inferencia en un 97 % en comparación con las instancias basadas en GPU. Mientras seguimos ajustando los modelos adaptados de NLP periódicamente, también es importante reducir los costos y tiempos de entrenamiento de modelos. Con base en nuestra exitosa experiencia de migración de cargas de trabajo de inferencia a instancias Inf1 y nuestro trabajo inicial en instancias Trn1 de EC2 basadas en AWS Trainium, esperamos que estas instancias agreguen valor adicional a la mejora del costo y rendimiento integral del ML.

    Takuya Nakade, CTO, Money Forward, Inc.
  • Magic

    Magic es un producto integrado y una empresa de investigación que desarrolla IA que es como el colega ideal para hacer que el mundo sea más productivo.

    Entrenar grandes modelos autorregresivos basados en transformadores es un componente fundamental de nuestro trabajo. Las instancias Trn1 impulsadas por AWS Trainium se diseñan específicamente para estas cargas de trabajo y ofrecen escalabilidad casi infinita, conexión rápida a redes internodales y soporte avanzado para tipos de datos de 8 y 16 bits. Las instancias Trn1 nos ayudan a entrenar modelos grandes más rápido y a un costo más bajo. Estamos particularmente contentos con el soporte nativo para redondeo estocástico de BF16 en Trainium, que aumenta el rendimiento mientras la exactitud numérica no se distingue de la precisión total.

    Eric Steinberger, cofundador y director ejecutivo, Magic
  • Cactus Communications

    CACTUS tiene un conjunto de productos y soluciones para investigadores y organizaciones que mejora el financiamiento, publicación, difusión y descubrimiento de la investigación.

    En los laboratorios de Cactus, aprovechamos la potencia de la IA con investigaciones centradas en el procesamiento de lenguaje natural, clasificación y recomendación, IA conversacional, modelos de lenguaje de gran tamaño, visión artificial, AR/VR y XAI. En consonancia con nuestra búsqueda para habilitar un entrenamiento más rápido de los modelos de machine learning, así como permitir a nuestros investigadores llevar a cabo experimentos mientras administran los costos de infraestructura, nos encantó evaluar AWS Trainium. Las características listas para usar de AWS Trainium, como la optimización XLA, el entrenamiento paralelo de datos de varios trabajadores y el almacenamiento de gráficos en caché, son muy útiles, ya que nos ayudan a reducir los tiempos de entrenamiento y a llevar a cabo más experimentos de forma más rápida y accesible.

    Nishchay Shah, director de tecnología y jefe de productos emergentes, Cactus Communication
  • Watashiha

    Watashiha ofrece un servicio de chatbot de IA innovador e interactivo, OGIRI AI, que incorpora sentido del humor para ofrecer una respuesta divertida en el acto a una pregunta.

    Utilizamos modelos de lenguaje de gran tamaño para incorporar el sentido del humor y ofrecer una experiencia conversacional más relevante a nuestros clientes en nuestros servicios de IA. Esto nos obliga a preentrenar y ajustar estos modelos con frecuencia. Entrenamos previamente un modelo japonés basado en GPT en la instancia Trn1.32xlarge de EC2, en el cual aprovechamos el paralelismo de tensores y datos. El entrenamiento se completó en 28 días, con una reducción de costos del 33 % en comparación con nuestra infraestructura anterior basada en GPU. Dado que nuestros modelos son cada vez más complejos, esperamos contar con instancias Trn1n, que tienen el doble de ancho de banda de la red que Trn1, para acelerar el entrenamiento de modelos más grandes.

    Yohei Kobashi, director técnico de Watashiha, K.K.
  • PyTorch

    En PyTorch, aceleramos el proceso de llevar el machine learning de la investigación de prototipos a la producción lista para los clientes. Hemos colaborado ampliamente con el equipo de AWS para ofrecer soporte de PyTorch nativo para las nuevas instancias Trn1 de Amazon EC2 impulsadas por AWS Trainium que se diseñan específicamente para entrenar modelos de aprendizaje profundo. Los desarrolladores que se encargan de diseñar modelos de PyTorch pueden comenzar a entrenar en instancias Trn1 con cambios mínimos al código. Además, hemos trabajado con la comunidad de OpenXLA para habilitar bibliotecas distribuidas de PyTorch para facilitar la migración de modelos de instancias basadas en GPU a instancias Trn1. Estamos muy emocionados por la innovación que traerán las instancias Trn1 a la comunidad de PyTorch, incluidos tipos de datos más eficientes, formas dinámicas, operadores personalizados, redondeo estocástico optimizado para hardware y un modo de depuración ágil. Todo esto hace que las instancias Trn1 estén bien preparadas para que los desarrolladores de PyTorch las adopten ampliamente. Esperamos llevar a cabo contribuciones junto con PyTorch en el futuro para optimizar aún más el rendimiento del entrenamiento.

    Geeta Chauhan, IA aplicada, directora de ingeniería de PyTorch
  • Hugging Face

    La misión de Hugging Face es democratizar el buen ML para ayudar a los desarrolladores de ML de todo el mundo a resolver problemas del mundo real. Y la clave para ello es garantizar que los mejores y más recientes modelos se ejecuten de la manera más rápida y eficiente posible en los mejores chips de ML de la nube. Estamos muy entusiasmados con la posibilidad de que Inferentia2 se convierta en la nueva forma estándar de implementar modelos de IA generativa a escala. Con Inf1, obtuvimos un costo hasta un 70 % menor al de las instancias tradicionales basadas en GPU, y con Inf2 hemos visto una latencia hasta 8 veces menor en los transformadores tipo BERT en comparación con Inferentia1. Con Inferentia2, nuestra comunidad podrá escalar fácilmente este rendimiento a modelos LLM con una escala de más de 100 000 millones de parámetros y también a los últimos modelos de difusión y visión artificial.

  • Amazon

    Actualmente, entrenamos modelos de lenguaje de gran tamaño (LLM) que son multimodales (texto e imagen), multilingües, aplican para varias configuraciones regionales, cuentan con entrenamiento previo en varias tareas y abarcan varias entidades (productos, consultas, marcas, revisiones, etc.) a fin de mejorar la experiencia de compra del cliente. Las instancias Trn1 proporcionan una manera más sostenible de entrenar los LLM a la vez que ofrecen el mejor rendimiento por vatios en comparación con otras soluciones aceleradas de machine learning y nos ofrecen alto rendimiento a menor precio. Planeamos descubrir el nuevo tipo de datos FP8 configurable y el redondeo estocástico acelerado de hardware para aumentar aún más la eficiencia de nuestros entrenamientos y la velocidad de desarrollo.

    Trishul Chilimbi, vicepresidente, Amazon Search

Introducción

Puede entrenar modelos en instancias Trn1 fácilmente a través de Amazon SageMaker. Reduzca significativamente el tiempo y el costo de los entrenamientos, y ajuste modelos de ML sin tener que administrar infraestructuras. Con SageMaker, puede usar herramientas integradas para administrar experimentos de entrenamiento y hacer un seguimiento, elegir automáticamente hiperparámetros óptimos, depurar trabajos de entrenamiento y supervisar el uso de recursos del sistema.

Las AMI de aprendizaje profundo de AWS (DLAMI) ofrecen a los investigadores y profesionales de aprendizaje profundo (DL) la infraestructura y las herramientas necesarias para agilizar el DL en AWS a cualquier escala. Los controladores de AWS Neuron vienen preconfigurados en las DLAMI para entrenar los modelos de DL de forma óptima en instancias Trn1.

Ahora puede implementar instancias Trn1 en Amazon Elastic Kubernetes Service (EKS), un servicio de Kubernetes completamente administrado, así como en Amazon Elastic Container Service (ECS), un servicio de orquestación de contenedores completamente administrado. Neuron también está disponible de manera preinstalada en los contenedores de aprendizaje profundo de AWS. Para obtener más información sobre cómo ejecutar contenedores en instancias Trn1, consulte los tutoriales sobre contenedores de Neuron.

Detalles del producto

Tamaño de la instancia Chips de Trainium
Acelerador
Memoria
(GB)
CPU virtuales Instancia
Memoria
(GiB)
Local
NVMe
Almacenamiento
(TB)
Red
Ancho de banda
(Gbps)
EFA y
RDMA
Soporte
EBS
Ancho de banda
(Gbps)
Bajo demanda
Precio por hora
1 año
Reservadas
Instancia
Efectiva
Por hora*
3 años
Reservadas
Instancia
Efectiva
Por hora*
trn1.2xlarge 1 32 8 32 0,5 Hasta 12,5 No Hasta 20 1,34 USD 0,79 USD 0,4744 USD
trn1.32xlarge 16 512 128 512 8 800 80 21,50 USD 12,60 USD 7,59 USD

trn1n.32xlarge

16 512 128 512 8 1600 80 24,78 USD 14,52 USD 8,59 USD