Instâncias Inf2 do Amazon EC2
Alta performance com o menor custo no Amazon EC2 para inferência de IA generativa
As instâncias Inf2 do Amazon Elastic Compute Cloud (Amazon EC2) foram criadas especificamente para inferência de aprendizado profundo (DL). Elas oferecem alta performance com o menor custo no Amazon EC2 para modelos de inteligência artificial (IA) generativa, incluindo grandes modelos de linguagem (LLMs) e transformadores de visão. Você pode usar as instâncias Inf2 para executar suas aplicações de inferência para fazer resumos de textos, geração de código, geração de vídeo e imagem, reconhecimento de fala, personalização, detecção de fraudes e muito mais.
As instâncias Inf2 são viabilizadas pelo AWS Inferentia2, o chip do AWS Inferentia de segunda geração. As instâncias Inf2 aumentam a performance de Inf1 oferecendo performance computacional três vezes melhor, memória total do acelerador quatro vezes maior, throughput até quatro vezes maior e latência até dez vezes menor. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte à inferência distribuída do aumento da escala com conectividade de altíssima velocidade entre chips Inferentia. Agora você pode implantar modelos de forma eficiente e econômica com centenas de bilhões de parâmetros em vários chips nas instâncias Inf2.
O SDK do AWS Neuron ajuda os desenvolvedores a implantar modelos nos chips do AWS Inferentia (e a treiná-los nos chips do AWS Trainium). Ele se integra nativamente às infraestruturas como PyTorch e TensorFlow para que você possa continuar usando os fluxos de trabalho e os códigos de aplicações existentes e executá-los nas instâncias Inf2.
Como funciona
-
Com usar o AWS DLAMI
-
Como usar o Amazon EKS
-
Como usar o Amazon ECS
-
Como usar o Amazon SageMaker
-
Com usar o AWS DLAMI
-
Como usar o Amazon EKS
-
Como usar o Amazon ECS
-
Como usar o Amazon SageMaker
Benefícios
Implemente modelos de IA generativa com mais de 100 bilhões de parâmetros em grande escala
As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte à inferência distribuída em escala. Agora você pode implantar modelos de forma eficiente com centenas de bilhões de parâmetros em vários chips Inferentia em instâncias Inf2, usando a conectividade de altíssima velocidade entre os chips.
Aumente a performance e reduza significativamente os custos de inferência
As instâncias Inf2 foram projetadas para oferecer alta performance com o menor custo no Amazon EC2 para suas implantações de DL. Eles oferecem throughput até quatro vezes maior e latência até dez vezes menor do que as instâncias Inf1 do Amazon EC2. As instâncias Inf2 oferecem uma relação preço-performance até 40% melhor do que outras instâncias comparáveis do Amazon EC2.
Use as estruturas e bibliotecas de ML atuais
Use o SDK do AWS Neuron para extrair a performance total das instâncias Inf2. Com o Neuron, você pode usar suas estruturas existentes, como PyTorch e TensorFlow, e otimizar a performance imediatamente para modelos em repositórios conhecidos, como o Hugging Face. O Neuron suporta integrações de runtime com ferramentas de serviço como TorchServe e TensorFlow Serving. Ele também ajuda a otimizar a performance com ferramentas integradas de perfil e depuração, como o Neuron-Top, e integra-se a ferramentas de visualização conhecidas, como o TensorBoard.
Alcance suas metas de sustentabilidade com uma solução de eficiência energética
As instâncias Inf2 oferecem uma performance/watt até 50% melhor do que outras instâncias comparáveis do Amazon EC2. Essas instâncias e os chips Inferentia2 subjacentes usam processos de silicone avançados e otimizações de hardware e software para oferecer alta eficiência energética ao executar modelos DL em escala. Use as instâncias Inf2 para ajudar você a atingir suas metas de sustentabilidade ao implantar modelos ultragrandes.
Atributos
Até 2,3 petaflops com o AWS Inferentia2
As instâncias Inf2 são alimentadas por até 12 chips AWS Inferentia2 conectados ao NeuronLink de altíssima velocidade para comunicações coletivas simplificadas. Elas oferecem até 2,3 petaflops de computação e throughput até quatro vezes maior e latência dez vezes menor do que as instâncias Inf1.
Memória aceleradora de alta largura de banda de até 384 GB
Para acomodar grandes modelos de DL, instâncias Inf2 oferecem até 384 GB de memória aceleradora compartilhada (32 GB HBM em cada chip Inferentia2, quatro vezes maior que a Inferentia de primeira geração) com 9,8 TB/s de largura de banda total de memória (dez vezes mais rápida do que a Inferentia de primeira geração).
Interconexão NeuronLink
Para uma comunicação rápida entre chips Inferentia2, as instâncias Inf2 suportam 192 GB/s do NeuronLink, uma interconexão de ultra-alta velocidade e sem bloqueio. Inf2 é a única instância otimizada para inferência que oferece essa interconexão, um recurso que só está disponível em instâncias de treinamento mais caras. Para modelos ultragrandes que não cabem em um único chip, os dados fluem diretamente entre chips com o NeuronLink, ignorando completamente a CPU. Com o NeuronLink, Inf2 suporta inferência distribuída mais rápida e melhora o throughput e a latência.
Otimizada para novos tipos de dados com transmissão automática
A Inferentia2 suporta FP32, TF32, BF16, FP16, UINT8 e o novo tipo de dados configurável FP8 (cFP8). O AWS Neuron pode usar modelos FP32 e FP16 de alta precisão e os transmite automaticamente para tipos de dados de menor precisão, ao mesmo tempo em que otimiza a precisão e a performance. A transmissão automática reduz o tempo de comercialização, eliminando a necessidade de reciclagem de menor precisão e permitindo inferências de melhor performance com tipos de dados menores.
Otimizações de DL de última geração
Para suportar o ritmo acelerado da inovação de DL, as instâncias Inf2 têm várias inovações que as tornam flexíveis e extensíveis para implantar modelos de DL em constante evolução. As instâncias Inf2 têm otimizações de hardware e suporte de software para formas de entrada dinâmicas. Para permitir suporte a novos operadores no futuro, elas oferecem suporte a operadores personalizados criados em C++. Elas também oferecem suporte ao arredondamento estocástico, um método de arredondamento probabilístico para atingir alta performance e maior precisão em comparação com os modos de arredondamento herdados.
Detalhes do produto
Tamanho de instância | Chips Inferentia2 | Acelerador Memória (GB) |
vCPU | Memória (GiB) |
Local Armazenamento |
Inter-Chip Interconexão |
Rede Largura de banda (Gbps) |
EBS Largura de banda (Gbps) |
Preço sob demanda | Instâncias reservadas de 1 ano | Instâncias reservadas de 3 anos |
inf2.xlarge | 1 | 32 | 4 | 16 | Somente EBS | N/D | Até 15 | Até 10 | USD 0,76 | USD 0,45 | USD 0,30 |
inf2.8xlarge | 1 | 32 | 32 | 128 | Somente EBS | N/D | Até 25 | 10 | USD 1,97 | USD 1,81 | USD 0,79 |
inf2.24xlarge | 6 | 192 | 96 | 384 | Somente EBS | Sim | 50 | 30 | USD 6,49 | USD 3,89 | USD 2,60 |
inf2.48xlarge | 12 | 384 | 192 | 768 | Somente EBS | Sim | 100 | 60 | USD 12,98 | USD 7,79 | USD 5,19 |
Depoimentos de clientes
"Nossa equipe na Leonardo aproveita a IA generativa para permitir que profissionais criativos e entusiastas produzam recursos visuais com qualidade, velocidade e consistência de estilo incomparáveis. Quanto ao preço/desempenho do AWS Inf2, utilizando o AWS Inf2 conseguimos reduzir nossos custos em 80%, sem sacrificar o desempenho, alterando fundamentalmente o valor que podemos oferecer aos clientes, fazendo com que nossos atributos mais avançados ficassem com um preço mais acessível. Isso também alivia as preocupações com a disponibilidade de custo e capacidade para nossos serviços auxiliares de IA, que são cada vez mais importantes à medida que crescemos e escalamos. É uma tecnologia facilitadora fundamental para nós, à medida que continuamos a expandir os limites do que é possível com a IA generativa, permitindo uma nova era de criatividade e poder expressivo para nossos usuários."
Pete Werner, chefe de IA, Leonardo.ai
"Na Runway, nosso pacote AI Magic Tools permite que os usuários gerem e editem conteúdo como nunca antes. Estamos constantemente ultrapassando os limites do que é possível com a criação de conteúdo baseada em IA e, à medida que nossos modelos de IA se tornam mais complexos, os custos de infraestrutura subjacentes para executar esses modelos em grande escala podem se tornar altos. Por meio da nossa colaboração com as instâncias Inf2 do Amazon EC2 desenvolvidas pelo AWS Inferentia, podemos executar alguns de nossos modelos com throughput até duas vezes maior do que instâncias comparáveis baseadas em GPU. Essa inferência de alta performance e baixo custo nos permite introduzir mais recursos, implantar modelos mais complexos e, por fim, oferecer uma experiência melhor para milhões de criadores que usam o Runway."
Cristóbal Valenzuela, cofundador e CEO da Runway
A Qualtrics projeta e desenvolve software de gerenciamento de experiências.
“Na Qualtrics, nosso foco é criar tecnologia que preencha lacunas de experiência para clientes, funcionários, marcas e produtos. Para isso, estamos desenvolvendo modelos complexos de DL multimodal e multitarefa para lançar novos atributos, como classificação de texto, marcação de sequências, análise de discurso, extração de frases-chave, extração de tópicos, agrupamento e compreensão de conversas de ponta a ponta. À medida que utilizamos esses modelos mais complexos em mais aplicações, o volume de dados não estruturados aumenta e precisamos de mais soluções otimizadas para inferência de performance que possam atender a essas demandas, como as instâncias Inf2, para oferecer as melhores experiências aos nossos clientes. Estamos entusiasmados com as novas instâncias Inf2, pois elas não só nos permitirão alcançar maiores throughputs e reduzir drasticamente a latência, mas também introduzir recursos como inferência distribuída e suporte aprimorado ao formato de entrada dinâmico, o que nos ajudará a escalar para atender às necessidades de implantação à medida que avançamos para modelos grandes e mais complexos."
Aaron Colak, diretor de machine learning principal da Qualtrics
A Finch Computing é uma empresa de tecnologia de linguagem natural que fornece aplicações de inteligência artificial para clientes governamentais, de serviços financeiros e integradores de dados.
“Para atender às necessidades de processamento de linguagem natural em tempo real dos nossos clientes, desenvolvemos modelos de DL de última geração que escalam para grandes workloads de produção. Precisamos fornecer transações de baixa latência e obter altas throughputs para processar feeds de dados globais. Já migramos muitas workloads de produção para instâncias Inf1 e obtivemos uma redução de 80% no custo em relação a GPUs. Agora, estamos desenvolvendo modelos maiores e mais complexos que promovem um significado mais profundo e esclarecedor do texto escrito. Muitos de nossos clientes precisam acessar esses insights em tempo real, e a performance das instâncias Inf2 nos ajudará a oferecer menor latência e maior throughput em relação às instâncias Inf1. Com as melhorias de performance e os novos atributos da Inf2, como suporte para tamanhos dinâmicos de entrada, estamos melhorando o custo-benefício, elevando a experiência do cliente em tempo real e ajudando nossos clientes a obter novos insights de seus dados.”
Franz Weckesser, arquiteto chefe da Finch Computing
A Money Forward, Inc. presta serviços a empresas e indivíduos com uma plataforma financeira aberta e justa. Como parte dessa plataforma, a HiTTO Inc., empresa do grupo Money Forward, oferece um serviço de chatbot de IA, que usa modelos de processamento de linguagem natural (PLN) personalizados para abordar diversas necessidades dos seus clientes corporativos.
“Lançamos um serviço de chatbot de IA em grande escala nas instâncias Inf1 do Amazon EC2 e reduzimos nossa latência de inferência em 97% em relação a instâncias comparáveis baseadas em GPU, além de reduzir os custos. Ficamos muito satisfeitos em ver mais melhorias na performance em nossos resultados de testes iniciais nas instâncias Inf2 do Amazon EC2. Usando o mesmo modelo personalizado de PLN, a Inf2 da AWS conseguiu reduzir em dez vezes a latência em relação à Inf1. À medida que adotamos modelos maiores de vários bilhões de parâmetros, a Inf2 nos dá a confiança de que podemos continuar oferecendo aos nossos clientes uma experiência de usuário de ponta a ponta superior."
Takuya Nakade, CTO da Money Forward, Inc.
“Na Fileread.ai, estamos criando soluções para tornar a interação com seus documentos tão fácil quanto fazer perguntas, permitindo que os usuários encontrem o que procuram em todos os documentos e obtenham as informações certas com mais rapidez. Desde a mudança para a nova instância Inf2 do EC2, observamos uma melhoria significativa em nossos recursos de inferência de PLN. Só a economia de custos já foi um divisor de águas para nós, permitindo alocar recursos com mais eficiência sem sacrificar a qualidade. Reduzimos nossa latência de inferência em 33% e aumentamos a throughput em 50%, oferecendo aos nossos clientes entregas mais rápidas. Nossa equipe ficou impressionada com a velocidade e a performance da Inf2 em comparação com as instâncias G5 mais antigas, e está claro que esse é o futuro da implantação de modelos de PLN."
Daniel Hu, CEO da Fileread
“Na Yaraku, nossa missão é construir a infraestrutura que ajude as pessoas a se comunicarem rompendo as barreiras linguísticas. Nosso principal produto, o YarakuZen, permite que qualquer pessoa, de tradutores profissionais a indivíduos monolíngues, traduza e edite textos e documentos com confiança. Para apoiar esse processo, oferecemos uma ampla variedade de ferramentas sofisticadas baseadas em modelos de DL, abrangendo tarefas como tradução, alinhamento de palavras em colunas, segmentação de frases, modelagem de linguagem e muitas outras. Usando as instâncias Inf1, conseguimos acelerar nossos serviços para atender à crescente demanda e, ao mesmo tempo, reduzir o custo de inferência em mais de 50% em comparação às instâncias baseadas em GPU. Agora estamos avançando para o desenvolvimento de modelos maiores de próxima geração que exigirão os recursos aprimorados das instâncias Inf2 para atender à demanda e, ao mesmo tempo, manter a baixa latência. Com a Inf2, poderemos aumentar a escala de nossos modelos em dez vezes, mantendo uma throughput semelhante, o que nos permite oferecer níveis ainda mais altos de qualidade aos nossos clientes."
Giovanni Giacomo, líder de PLN da Yaraku
Veja os depoimentos de parceiros da AWS
“A missão da Hugging Face é democratizar o bom ML para ajudar os desenvolvedores de ML em todo o mundo a resolver problemas do mundo real. E a chave para isso é garantir que os melhores e mais recentes modelos funcionem da forma mais rápida e eficiente possível nos melhores chips de ML na nuvem. Estamos muito entusiasmados com o potencial da Inferentia2 de se tornar a nova forma padrão de implantar modelos de IA generativa em grande escala. Com o Inf1, observamos um custo até 70% menor do que as instâncias tradicionais baseadas em GPU e, com a Inf2, observamos uma latência até oito vezes menor para transformadores do tipo BERT em comparação com a Inferentia1. Com a Inferentia2, nossa comunidade poderá escalar facilmente essa performance para LLMs na escala de mais de 100 bilhões de parâmetros e também para os modelos mais recentes de difusão e visão computacional.”
“A PyTorch acelera o caminho da prototipagem de pesquisa para implantações de produção voltada aos desenvolvedores de ML. Colaboramos com a equipe da AWS para fornecer suporte nativo à PyTorch para as novas instâncias Inf2 do Amazon EC2 baseadas no AWS Inferentia2. À medida que mais membros da nossa comunidade buscam implantar grandes modelos de IA generativa, estamos entusiasmados com a parceria com a equipe da AWS para otimizar a inferência distribuída nas instâncias Inf2 com conectividade NeuronLink de alta velocidade entre chips. Com Inf2, os desenvolvedores que usam PyTorch agora podem implantar facilmente LLMs ultragrandes e modelos transformadores de visão. Além disso, as instâncias Inf2 trazem outros recursos inovadores para os desenvolvedores da PyTorch, incluindo tipos de dados eficientes, formas dinâmicas, operadores personalizados e arredondamento estocástico otimizado para hardware, tornando-as adequadas para ampla adoção pela comunidade PyTorch.”
“Weights & Biases (W&B) fornece ferramentas de desenvolvimento para engenheiros de ML e cientistas de dados criarem modelos melhores com mais rapidez. A plataforma W&B fornece aos profissionais de ML uma ampla variedade de insights para melhorar a performance dos modelos, incluindo a utilização da infraestrutura computacional subjacente. Colaboramos com a equipe da AWS para adicionar o suporte ao Amazon Trainium e ao Inferentia2 ao nosso painel de métricas do sistema, fornecendo dados valiosos, muito necessários durante a experimentação e o treinamento do modelo. Isso permite que os profissionais de ML otimizem seus modelos para aproveitar ao máximo o hardware desenvolvido especificamente pela AWS para treinar seus modelos com mais rapidez e menor custo."
Phil Gurbacki, vice-presidente de produtos da Weights & Biases
“A OctoML ajuda os desenvolvedores a reduzir custos e criar aplicações de IA escaláveis ao empacotar seus modelos de DL para serem executados em hardware de alta performance. Passamos os últimos anos desenvolvendo especialização nas melhores soluções de software e hardware e integrando-as em nossa plataforma. Nossas raízes como designers de chips e hackers de sistemas tornam o AWS Trainium e Inferentia ainda mais empolgantes para nós. Vemos esses chips como um fator determinante para o futuro da inovação de IA na nuvem. O lançamento das instâncias Inf2 no GA é especialmente oportuno, pois estamos vendo o surgimento do conhecido LLM como um componente essencial das aplicações de IA de próxima geração. Estamos entusiasmados em poder disponibilizar essas instâncias em nossa plataforma para ajudar os desenvolvedores a usar facilmente seus benefícios de alta performance e redução de custos."
Jared Roesch, CTO e cofundador da OctoML
"O desafio histórico com LLMs e, mais amplamente, com aplicações de IA generativa em nível corporativo, são os custos associados ao treinamento e à execução de modelos de DL de alta performance. Junto com o AWS Trainium, o AWS Inferentia2 remove as concessões financeiras que nossos clientes fazem quando precisam de treinamento de alta performance. Agora, nossos clientes que buscam vantagens em treinamento e inferência podem obter melhores resultados com menor custo. O Trainium e o Inferentia aceleram a escala para atender até mesmo aos requisitos de DL mais exigentes das maiores empresas da atualidade. Muitos clientes da Nextira que executam grandes workloads de IA se beneficiarão diretamente com esses novos chipsets, aumentando a eficiência na redução de custos e na performance, além de levar a resultados mais rápidos em seus mercados."
Jason Cutrer, fundador e CEO da Nextira
Serviços da Amazon que usam as instâncias Inf2 do Amazon EC2
O Amazon CodeWhisperer é um complemento de codificação de IA que gera recomendações de código de linha única ou de função completa em tempo real no seu ambiente de desenvolvimento integrado (IDE) para ajudar você a criar software rapidamente.
“Com o CodeWhisperer, estamos melhorando a produtividade dos desenvolvedores de software fornecendo recomendações de código usando modelos generativos de IA. Para desenvolver recomendações de código altamente eficazes, escalamos nossa rede de DL para bilhões de parâmetros. Nossos clientes precisam de recomendações de código em tempo real enquanto digitam, portanto, respostas de baixa latência são essenciais. Os modelos de IA generativos de grande porte exigem computação de alta performance para fornecer tempos de resposta em uma fração de segundo. Com a Inf2, estamos oferecendo a mesma latência da execução do CodeWhisperer no treinamento de instâncias de GPU otimizadas para grandes sequências de entrada e saída. Assim, as instâncias Inf2 estão nos ajudando a economizar custos e energia, ao mesmo tempo em que oferecem a melhor experiência possível para os desenvolvedores.”
Doug Seven, gerente geral da Amazon CodeWhisperer
O mecanismo de pesquisa de produtos da Amazon indexa bilhões de produtos, atende a bilhões de consultas de clientes diariamente e é um dos serviços mais usados no mundo.
“Estou muito empolgado com o lançamento da Inf2 GA. A performance superior da Inf2, juntamente com sua capacidade de lidar com modelos maiores com bilhões de parâmetros, a torna a escolha perfeita para nossos serviços e nos permite desbloquear novas possibilidades em termos de complexidade e precisão do modelo. Com a significativa aceleração e a eficiência de custos oferecidas pela Inf2, integrá-las à infraestrutura de atendimento do Amazon Search poderá nos ajudar a atender às crescentes demandas de nossos clientes. Planejamos potencializar nossas novas experiências de compra usando LLMs generativos usando a Inf2.”
Trishul Chilimbi, vice-presidente de pesquisa da Amazon
Conceitos básicos
Como usar o Amazon SageMaker
Implemente modelos nas instâncias Inf2 com mais facilidade usando o Amazon SageMaker e reduza significativamente os custos de implantação de modelos de ML e aumente a performance sem necessidade de gerenciar a infraestrutura. O SageMaker é um serviço totalmente gerenciado e se integra às ferramentas MLOps. Portanto, você pode escalar a implantação do seu modelo, gerenciar modelos com mais eficiência na produção e reduzir a carga operacional.
Como usar as AMIs de deep learning da AWS
As AMIs de deep learning da AWS (DLAMI) disponibilizam a profissionais e pesquisadores de DL a infraestrutura e as ferramentas necessárias para acelerar o aprendizado profundo na nuvem em qualquer escala. Os drivers do AWS Neuron vêm pré-configurados no DLAMI para implantar seus modelos de DL de forma otimizada nas instâncias Inf2.
Como usar os contêineres de aprendizado profundo da AWS
Agora você pode implantar instâncias Inf2 no Amazon Elastic Kubernetes Service (Amazon EKS), um serviço Kubernetes totalmente gerenciado, e no Amazon Elastic Container Service (Amazon ECS), um serviço de orquestração de contêineres totalmente gerenciado. O Neuron também está disponível pré-instalado nos contêineres de aprendizado profundo da AWS. Para saber mais sobre como executar contêineres nas instâncias Inf2, consulte os tutoriais de contêineres do Neuron.
Cadastre-se para obter uma conta da AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.
Aprenda com tutoriais de 10 minutos
Explore e aprenda com tutoriais simples.
Comece a criar no console
Comece a criar usando os guias detalhados que ajudam a iniciar seu projeto da AWS.