Instâncias Trn1 do Amazon EC2

Treinamento econômico e de alta performance dos modelos generativos de IA

Por que usar as instâncias Trn1 do Amazon EC2?

As instâncias Trn1 do Amazon Elastic Compute Cloud (EC2), equipadas com chips AWS Trainium, são criadas especificamente para o treinamento de aprendizado profundo (DL) de alta performance dos modelos de IA generativa, incluindo grandes modelos de linguagem (LLMs) e modelos de difusão latente. As instâncias Trn1 oferecem até 50% de redução de custo de treinamento em comparação com outras instâncias do Amazon EC2. Você pode usar instâncias Trn1 para treinar mais de 100 B de parâmetros de modelos DL e de IA generativa em um amplo conjunto de aplicações, como resumo de texto, geração de código, resposta a perguntas, geração de imagens e vídeos, recomendação e detecção de fraudes.

O SDK do AWS Neuron ajuda os desenvolvedores a treinar modelos no AWS Trainium (e a implantar modelos nos chips do AWS Inferentia). Ele se integra nativamente a estruturas, como PyTorch e TensorFlow, para que você possa continuar usando seu código e fluxos de trabalho existentes para treinar modelos nas instâncias Trn1. Para saber mais sobre o suporte atual do Neuron para estruturas e bibliotecas de machine learning (ML), arquiteturas de modelos e otimizações de hardware, acesse a documentação do Neuron.

Introdução às instâncias Trn1 do Amazon EC2 com a tecnologia AWS Trainium

Benefícios

As instâncias Trn1 são criadas especificamente para o DL de alta performance e reduzem os tempos de treinamento de meses para semanas ou até dias. Com tempos de treinamento reduzidos, você pode iterar mais rapidamente, criar modelos mais inovadores e aumentar a produtividade. As instâncias Trn1n oferecem um tempo de treinamento até 20% mais rápido do que as instâncias Trn1 para modelos que se beneficiam do aumento da largura de banda da rede.

As instâncias Trn1 oferecem alta performance e até 50% de economia do custo de treinamento em relação a outras instâncias comparáveis do Amazon EC2.

Use o SDK do AWS Neuron para obter a performance total das instâncias Trn1. Com o Neuron, você pode usar estruturas de ML conhecidas, como PyTorch e TensorFlow, e continuar usando o código e fluxos de trabalho existentes para treinar modelos nas instâncias Trn1. Para começar rapidamente com as instâncias Trn1, consulte exemplos de modelos conhecidos na documentação do Neuron.

As instâncias Trn1 suportam até 800 Gbps de largura de banda da rede do Elastic Fabric Adapter (EFAv2) de segunda geração. As instâncias Trn1n suportam até 1.600 Gbps de largura de banda da rede do EFAv2 para oferecer performance ainda melhor para os modelos com uso intensivo de rede. As duas instâncias são implantadas em UltraClusters do EC2 que permitem escalar até 30.000 chips Trainium, interconectados com uma rede de escala de petabits sem bloqueio, para fornecer 6 exaflops de performance de computação.

Recursos

As instâncias Trn1 são alimentadas por até 16 chips AWS Trainium criados especificamente para acelerar o treinamento de DL e fornecer até 3 petaflops de potência computacional FP16/BF16. Cada chip inclui dois NeuronCores de segunda geração.

Para oferecer suporte ao paralelismo eficiente de dados e modelos, cada instância Trn1 tem 512 GB de memória aceleradora compartilhada (HBM) com 9,8 TB/s de largura de banda total da memória.

Para apoiar o treinamento de modelos de rede intensiva, como a mistura de especialistas (MoE) e o Transformador generativo pré-treinado (GPT), cada instância Trn1n fornece até 1600 Gbps de largura de banda da rede EFAv2. Cada instância Trn1 suporta até 800 Gbps de largura de banda do EFAv2. O EFAv2 acelera o treinamento distribuído oferecendo uma melhoria de até 50% na performance das comunicações coletivas em relação ao EFA de primeira geração. Essas instâncias também suportam até 80 Gbps de largura de banda do Amazon Elastic Block Store (EBS) e até 8 TB de armazenamento local de unidade de estado sólido (SSD) NVMe para acesso rápido de workloads a grandes conjuntos de dados.

Para conectividade rápida entre chips Trainium e comunicações coletivas simplificadas, instâncias Trn1 suportam até 768 GB/s de NeuronLink, uma interconexão de alta velocidade e sem bloqueio.

Para oferecer alta performance e cumprir as metas de precisão, as instâncias Trn1 são otimizadas para FP32, TF32, BF16, FP16, UINT8 e o novo tipo de dados FP8 (cFP8) configurável. Para apoiar o ritmo acelerado da inovação de DL e da IA generativa, as instâncias Trn1 têm várias inovações que as tornam flexíveis e extensíveis para treinar modelos de DL em constante evolução. As instâncias Trn1 têm otimizações de hardware e suporte de software para formas de entrada dinâmicas. Para permitir suporte a novos operadores no futuro, elas oferecem suporte a operadores personalizados criados em C++. Elas também oferecem suporte ao arredondamento estocástico, um método de arredondamento probabilístico para atingir alta performance e maior precisão em comparação com os modos de arredondamento herdados.

Depoimentos de clientes e parceiros

Aqui estão alguns exemplos de como clientes e parceiros alcançaram suas metas de negócios com as instâncias Trn1 do Amazon EC2.

  • Databricks

    Mais de 10.000 organizações em todo o mundo — incluindo a Comcast, a Condé Nast e mais de 50% das empresas da Fortune 500 — confiam no Databricks para unificar seus dados, análises e inteligência artificial.

    Milhares de clientes implementaram o Databricks na AWS, oferecendo a eles a capacidade de usar o MosaicML para pré-treinar, ajustar e servir modelos básicos para uma variedade de casos de uso. O AWS Trainium nos oferece a escala e o alto desempenho necessários para treinar nossos modelos Mosaic MPT, e a um custo baixo. À medida que treinamos nossos modelos Mosaic MPT de próxima geração, o Trainium2 possibilitará a construção de modelos ainda mais rapidamente, o que nos permitirá oferecer aos nossos clientes escala e desempenho sem precedentes para que eles possam lançar suas próprias aplicações de IA generativa no mercado mais rapidamente.

    Naveen Rao, vice-presidente de IA generativa, Databricks
  • Stockmark Co., Ltd

    Com a missão de “reinventar o mecanismo de criação de valor e promover a humanidade”, a Stockmark ajuda muitas empresas a criar e construir negócios inovadores fornecendo tecnologia de processamento de linguagem natural de ponta.

    Com 16 nós de instâncias Trn1 do Amazon EC2 com tecnologia de chips AWS Trainium, desenvolvemos e lançamos o stockmark-13b, um grande modelo de linguagem com 13 bilhões de parâmetros, pré-treinado do zero em um corpus japonês de 220 bilhões de tokens. O corpus inclui os textos mais recentes do domínio comercial até setembro de 2023. O modelo alcançou a maior pontuação do JSQuAD (0,813) no benchmark JGLUE (Japanese General Language Understanding Evaluation) em comparação com outros modelos equivalentes. Ele está disponível no Hugging Face Hub e pode ser usado comercialmente com a licença MIT. As instâncias Trn1 nos ajudaram a alcançar uma redução de 20% no custo de treinamento em comparação com instâncias de GPU equivalentes.

    Kosuke Arima, diretor de tecnologia da Stockmark Co., Ltd.
  • RICOH

    A RICOH oferece soluções de local de trabalho e serviços de transformação digital projetados para gerenciar e otimizar o fluxo de informações entre empresas.

    A migração para instâncias Trn1 foi bastante simples. Conseguimos concluir o treinamento do nosso modelo de parâmetros 13B em apenas 8 dias. Com base nesse sucesso, estamos ansiosos para desenvolver e treinar nosso modelo de parâmetros 70B no Trainium e estamos entusiasmados com o potencial dessas instâncias em treinar nossos modelos de forma mais rápida e econômica.

    Yoshiaki Umetsu, diretor do Centro de Desenvolvimento de Tecnologia Digital da RICOH
  • HeliXon

    Na HeliXon, construímos soluções de IA de próxima geração para terapias baseadas em proteínas. Nosso objetivo é desenvolver ferramentas de IA que capacitem os cientistas a decifrar a função e a interação das proteínas, interrogar conjuntos de dados genômicos em grande escala para identificação de alvos e projetar terapias, como anticorpos e terapias celulares. Hoje, usamos bibliotecas de distribuição de treinamento, como o FSDP, para paralelizar o treinamento de modelos em muitos servidores baseados em GPU, mas isso ainda requer semanas para treinar um único modelo. Estamos entusiasmados em usar as instâncias Trn1 do Amazon EC2 que oferecem a maior largura de banda da rede (800 Gbps) disponível na AWS para melhorar a performance dos nossos trabalhos de treinamento distribuídos e reduzir os tempos de treinamento de modelos, além de reduzir os custos de treinamento.

    Jian Peng, CEO da Helixon
  • Money Forward, Inc.

    A Money Forward, Inc. presta serviços a empresas e indivíduos com uma plataforma financeira aberta e justa.

    Lançamos um serviço de chatbot de IA em grande escala nas instâncias Inf1 do Amazon EC2 e reduzimos nossa latência de inferência em 97% em relação a instâncias comparáveis baseadas em GPU, além de reduzir os custos. Como continuamos ajustando modelos personalizados de PNL periodicamente, também é importante reduzir os tempos e custos de treinamento de modelos. Com base em nossa experiência de migração bem-sucedida da workload de inferência em instâncias Inf1 e em nosso trabalho inicial em instâncias Trn1 do EC2 baseadas no AWS Trainium, esperamos que as instâncias Trn1 forneçam valor adicional para melhorar a performance e o custo de ML de ponta a ponta.

    Takuya Nakade, CTO da Money Forward, Inc.
  • Magic

    A Magic é uma empresa integrada de produtos e pesquisas que desenvolve IA para tornar o mundo mais produtivo.

    O treinamento de grandes modelos baseados em transformadores autorregressivos é um componente essencial do nosso trabalho. As instâncias Trn1 com a tecnologia AWS Trainium são projetadas especificamente para essas workloads, oferecendo escalabilidade quase infinita, redes rápidas entre nós e suporte avançado a tipos de dados de 16 e 8 bits. As instâncias Trn1 nos ajudarão a treinar modelos grandes com mais rapidez e menor custo. Estamos especialmente entusiasmados com o suporte nativo ao arredondamento estocástico BF16 no Trainium, aumentando a performance, enquanto a precisão numérica é inseparável da precisão total.

    Eric Steinberger, co-fundador e CEO da Magic
  • Cactus Communications

    A CACTUS tem um conjunto de produtos e soluções para pesquisadores e organizações que melhoram a forma como a pesquisa é financiada, publicada, comunicada e descoberta.

    Na Cactus Labs, aproveitamos o poder da IA, com pesquisas focadas em processamento de linguagem natural, recomendação de classificação, IA conversacional, modelos de linguagem grande, visão computacional, AR/VR e XAI. De acordo com nossa busca para permitir um treinamento mais rápido de modelos de machine learning, além de permitir que nossos pesquisadores realizem mais experimentos enquanto gerenciam o custo da infraestrutura, tivemos o prazer de avaliar o AWS Trainium. Os atributos prontos para uso do AWS Trainium, como otimização de XLA, treinamento paralelo de dados de vários trabalhadores e armazenamento em cache de gráficos, são realmente úteis para reduzir os tempos de treinamento e nos ajudar a realizar mais experimentos com mais rapidez e economia.

    Nishchay Shah, CTO e chefe de produtos emergentes, Cactus Communications
  • Watashiha

    O Watashiha oferece um serviço de chatbot de IA inovador e interativo, o “OGIRI AI”, que incorpora humor para fornecer uma resposta divertida e imediata para uma pergunta.

    Usamos grandes modelos de linguagem para incorporar humor e oferecer uma experiência mais relevante e coloquial aos clientes em nossos serviços de IA. Isso exige o pré-treinamento e o ajuste desses modelos com frequência. Fizemos o pré-treinamento de um modelo japonês baseado em GPT na instância Trn1.32xlarge do EC2, usando o paralelismo dos tensores e dados. O treinamento foi concluído em 28 dias com uma redução de custo de 33% em relação à nossa infraestrutura anterior baseada em GPU. Como nossos modelos continuam crescendo rapidamente em complexidade, esperamos que as instâncias Trn1n tenham o dobro da largura de banda da rede da Trn1 para acelerar o treinamento de modelos maiores.

    Yohei Kobashi, CTO da Watashiha, K.K.
  • PyTorch

    Na PyTorch, aceleramos a transformação do machine learning desde a prototipagem de pesquisas até a produção pronta para os clientes. Colaboramos amplamente com a equipe da AWS para fornecer suporte nativo ao PyTorch para as novas instâncias Trn1 do Amazon EC2, com tecnologia do AWS Trainium desenvolvidas especificamente para o treinamento de modelos de aprendizado profundo. Desenvolvedores que criam modelos PyTorch podem começar a treinar em instâncias Trn1 com o mínimo de alterações de código. Além disso, trabalhamos com a comunidade OpenXLA para habilitar as bibliotecas distribuídas do PyTorch para facilitar a migração de modelos de instâncias baseadas em GPU para instâncias Trn1. Estamos entusiasmados com a inovação que as instâncias Trn1 trazem para a comunidade PyTorch, incluindo tipos de dados mais eficientes, formas dinâmicas, operadores personalizados, arredondamento estocástico otimizado por hardware e modo de depuração rápida. Tudo isso torna a Trn1 adequada para ampla adoção por desenvolvedores da PyTorch e esperamos futuras contribuições conjuntas à PyTorch para otimizar ainda mais a performance do treinamento.

    Geeta Chauhan, IA aplicada, gerente de engenharia, PyTorch
  • Hugging Face

    A missão da Hugging Face é democratizar o bom ML para ajudar os desenvolvedores de ML em todo o mundo a resolver problemas do mundo real. E a chave para isso é garantir que os melhores e mais recentes modelos funcionem da forma mais rápida e eficiente possível nos melhores chips de ML na nuvem. Estamos muito entusiasmados com o potencial da Inferentia2 de se tornar a nova forma padrão de implantar modelos de IA generativa em grande escala. Com o Inf1, observamos um custo até 70% menor do que as instâncias tradicionais baseadas em GPU e, com o Inf2, observamos uma latência até oito vezes menor para transformadores do tipo BERT em comparação com o Inferentia1. Com o Inferentia2, nossa comunidade poderá escalar facilmente essa performance para LLMs na escala de mais de 100 bilhões de parâmetros, e também para os modelos mais recentes de difusão e visão computacional.

  • Amazon

    Estamos treinando grandes modelos de linguagem (LLM) que são multimodais (texto + imagem), multilíngues, multilocais, pré-treinados em várias tarefas e que abrangem várias entidades (produtos, consultas, marcas, avaliações etc.) para melhorar a experiência de compra do cliente. As instâncias Trn1 fornecem uma maneira mais sustentável de treinar LLMs, oferecendo a melhor performance/watt em comparação com outras soluções aceleradas de machine learning e nos oferecem alta performance com o menor custo. Planejamos explorar o novo tipo de dados FP8 configurável e o arredondamento estocástico acelerado por hardware para aumentar ainda mais a eficiência do nosso treinamento e a velocidade do desenvolvimento.

    Trishul Chilimbi, vice-presidente de pesquisa da Amazon

Conceitos básicos

Você pode treinar modelos nas instâncias Trn1 facilmente usando o Amazon SageMaker. Reduza significativamente o tempo e o custo para treinar e ajustar modelos de machine learning (ML) sem a necessidade de gerenciar a infraestrutura. Com o SageMaker, você pode usar ferramentas integradas para gerenciar e monitorar experimentos de treinamento, escolher automaticamente os hiperparâmetros ideais, depurar trabalhos de treinamento e monitorar o uso dos recursos do sistema.

As AMIs de deep learning da AWS (DLAMI) fornecem aprendizado profundo (DL) a profissionais e pesquisadores com a infraestrutura e as ferramentas necessárias para acelerar o DL na AWS em qualquer escala. Os drivers do AWS Neuron vêm pré-configurados nas DLAMI para treinar os modelos de DL de forma otimizada nas instâncias Trn1.

Agora você pode implantar instâncias Trn1 no Amazon Elastic Kubernetes Service (EKS), um serviço Kubernetes totalmente gerenciado, e no Amazon Elastic Container Service (ECS), um serviço de orquestração de contêineres totalmente gerenciado. O Neuron também está disponível pré-instalado nos contêineres de aprendizado profundo da AWS. Para saber mais sobre como executar contêineres em instâncias Trn1, consulte os tutoriais de contêineres do Neuron.

Detalhes do produto

Tamanho da instância Chips Trainium
Acelerador
Memória
(GB)
vCPUs Instância
Memória
(GiB)
Local
NVMe
Armazenamento
(TB)
Rede
Largura de banda
(Gbps)
EFA e
RDMA
Suporte
EBS
Largura de banda
(Gbps)
Sob demanda
Preço por hora
1 ano
Reservada
Instância
Efetiva
Por hora*
3 anos
Reservada
Instância
Efetiva
Por hora*
trn1.2xlarge 1 32 8 32 0,5 Até 12,5 Não Até 20 USD 1,34 USD 0,79 USD 0,4744
trn1.32xlarge 16 512 128 512 8 800 Sim 80 USD 21,50 USD 12,60 USD 7,59

trn1n.32xlarge

16 512 128 512 8 1.600 Sim 80 USD 24,78 USD 14,52 USD 8,59