Infraestrutura do AWS Machine Learning

Infraestrutura de alto desempenho, econômica e com baixo consumo de energia para aplicativos de ML

De empresas da Fortune 500 a startups, organizações de vários setores estão adotando cada vez mais o machine learning (ML) para uma ampla variedade de casos de uso, incluindo processamento de linguagem natural (PLN), visão computacional, assistentes de voz, detecção de fraudes e mecanismos de recomendação. Além disso, grandes modelos de linguagem (LLMs) que têm centenas de bilhões de parâmetros estão revelando novos casos de uso de IA generativa, por exemplo, geração de imagens e textos. Com o crescimento dos aplicativos de ML, vem o aumento do uso, do gerenciamento e do custo dos recursos de computação, armazenamento e rede. Identificar e escolher a infraestrutura de computação certa é essencial para reduzir o alto consumo de energia, reduzir os custos excessivos e evitar a complexidade durante o treinamento e a implantação de modelos de ML na produção. Para ajudar você a acelerar sua inovação de ML, a AWS oferece a combinação ideal de aceleradores e ferramentas de ML de alto desempenho, econômicos e com baixo consumo de energia, de uso específico e otimizados para aplicativos de ML.

Benefícios

Fácil de usar

Fácil de usar

Acesse aceleradores de ML de uso específico, como o AWS Trainium e o AWS Inferentia, para treinar e implantar modelos de base (FMs) e integrá-los às suas aplicações usando AWS Managed Services, como Amazon SageMaker e Amazon Bedrock. O SageMaker fornece aos cientistas de dados e desenvolvedores de ML modelos de base pré-treinados que podem ser totalmente personalizados para seu caso de uso e dados específicos e implantados na produção. A Bedrock oferece aos clientes uma experiência sem servidor para criar aplicativos de IA generativa usando FMs por meio de uma API.

Alto desempenho

Alto desempenho

Você pode potencializar seu aplicativo de ML com a infraestrutura de ML de maior desempenho da AWS. As instâncias P4d do Amazon EC2 e Trn1 do Amazon EC2 são ideais para treinamento de ML de alto desempenho. Para inferência, as instâncias Inf2 do Amazon EC2, alimentadas pelo Inferentia2 de segunda geração, oferecem um throughput 4 vezes maior e latência até 10 vezes menor do que as instâncias baseadas no Inferentia da geração anterior.

Econômico

Econômico

Com uma ampla variedade de serviços de infraestrutura, é possível escolher a infraestrutura certa para o seu orçamento. As instâncias Trn1 do Amazon EC2 baseadas no AWS Trainium oferecem 50% de economia nos custos de treinamento, e as instâncias Inf2 do Amazon EC2 baseadas no AWS Inferentia2 oferecem um desempenho de preço até 40% melhor do que instâncias comparáveis do Amazon EC2. Você pode reinvestir essas economias para acelerar a inovação e expandir seus negócios.

Suporte nativo para frameworks de ML

Sustentável

A AWS está empenhada em atingir a meta da Amazon de carbono líquido zero até 2040. O Amazon SageMaker, um serviço de ML totalmente gerenciado, oferece aceleradores de ML otimizados para eficiência energética e consumo reduzido de energia, ao mesmo tempo em que treina e implementa modelos de ML na produção. As instâncias do Amazon EC2 alimentadas por aceleradores de ML, como o AWS Trainium e o AWS Inferentia2, oferecem até 50% melhor desempenho por watt do que outras instâncias comparáveis do Amazon EC2.

Escala

Escalável

Os clientes da AWS têm acesso a computação, rede e armazenamento virtualmente ilimitados para que possam escalar. Conforme a necessidade, você pode aumentar ou diminuir a escala verticalmente de um acelerador de GPU ou ML para milhares e de terabytes para petabytes de armazenamento. Usando a nuvem, não é necessário investir em todas as infraestruturas possíveis. Em vez disso, aproveite as vantagens de redes, armazenamento e computação elásticas.

Workloads sustentáveis de ML

As instâncias de computação da AWS são compatíveis com os principais frameworks de ML, como TensorFlow e PyTorch. Elas também oferecem suporte a modelos e toolkits, como o Hugging Face, para uma ampla variedade de casos de uso de ML. As AMIs do AWS Deep Learning (AWS DLAMIs) e os AWS Deep Learning Containers (AWS DLCs) são pré-instalados com otimizações para frameworks e toolkits de ML para acelerar o aprendizado profundo na nuvem.

Soluções

Infraestrutura de ML

*Dependendo dos seus requisitos de inferência, você pode explorar outras instâncias no Amazon EC2 para inferência baseada em CPU.

Histórias de sucesso

  • Pepperstone
  • Logotipo da Pepperstone

    A Pepperstone usa a infraestrutura de ML da AWS para oferecer uma experiência comercial global perfeita para mais de 40.000 visitantes únicos por mês. Eles usam o Amazon SageMaker para automatizar a criação e a implantação de modelos de ML. Ao migrar para o SageMaker, eles conseguiram reduzir o atrito entre as equipes de DevOps e ciência de dados e reduzir o tempo de treinamento do modelo de ML de 180 horas para 4,3 horas.

  • Finch Computing
  • Logotipo da Finch Computing

    A Finch Computing usa o AWS Inferentia com o PyTorch na AWS para criar modelos de ML para realizar tarefas de PLN, como tradução de idiomas e desambiguação de entidades, reduzindo assim seus custos de inferência em mais de 80% em comparação com as GPUs.

  • Amazon Robotics
  • Logotipo da Amazon Robotics

    A Amazon Robotics usou o Amazon SageMaker para desenvolver um modelo sofisticado de machine learning que substituiu a verificação manual nos centros de distribuição da Amazon. A Amazon Robotics usou o Amazon SageMaker e o AWS Inferentia para reduzir os custos de inferência em quase 50%

  • Money Forward
  • Logotipo da Money Forward

    A Money Forward lançou um serviço de chatbot de IA em grande escala nas instâncias Inf1 do Amazon EC2 e reduziu a latência de inferência em 97% em relação a instâncias comparáveis baseadas em GPU, além de reduzir os custos. Com base em sua migração bem-sucedida para instâncias Inf1, eles também estão avaliando instâncias Trn1 do EC2 baseadas no AWS Trainium para melhorar o desempenho e o custo de ML de ponta a ponta.

  • Rad AI
  • Logotipo da Rad AI

    O Rad AI usa IA para automatizar fluxos de trabalho de radiologia e ajudar a agilizar os relatórios de radiologia. Com as novas instâncias P4d do Amazon EC2, o Rad AI oferece inferência mais rápida e tem a capacidade de treinar modelos com uma velocidade 2,4x maior e maior precisão.

  • Amazon Alexa
  • Logotipo do Amazon Alexa
    “A IA e a inteligência baseada em ML do Amazon Alexa, desenvolvidas com a tecnologia Amazon Web Services, estão disponíveis hoje em mais de 100 milhões de dispositivos, e nossa promessa para os clientes é que a Alexa ficará cada vez mais inteligente, mais conversacional, mais proativa e até mesmo mais prazerosa. O cumprimento dessa promessa requer aperfeiçoamentos contínuos nos tempos de resposta e nos custos de infraestrutura de machine learning, que é a razão pela qual estamos muito satisfeitos com o uso de instâncias Inf1 do Amazon EC2 para reduzir a latência de inferência e o custo por inferência no recurso de conversão de texto em fala da Alexa. Com as instâncias Inf1 do Amazon EC2, poderemos melhorar o serviço ainda mais para as dezenas de milhões de clientes que usam a Alexa todos os meses.”

    Tom Taylor, VP sênior, Amazon Alexa.

  • Autodesk
  • Logotipo da Autodesk
    “O Autodesk está aprimorando a tecnologia cognitiva do nosso assistente virtual baseado em IA, o Autodesk Virtual Agent (AVA), com o uso do Inferentia. O AVA responde a mais de 100.000 perguntas de clientes por mês empregando técnicas de Natural Language Understanding (NLU – Compreensão da linguagem natural) e de aprendizado profundo para extrair o contexto, a finalidade e o significado das consultas. No projeto piloto do Inferentia, conseguimos alcançar throughputs 4,9 vezes superiores em relação ao G4dn para nossos modelos de NLU, e não vemos a hora de executar mais workloads nas instâncias Inf1 baseadas no Inferentia.”

    Binghui Ouyang, cientista de dados sênior da Autodesk

  • Sprinklr
  • Logotipo da Sprinklr
    “A Sprinklr fornece uma plataforma unificada de gerenciamento da experiência do cliente (Unified-CXM) que combina diferentes aplicações para marketing, publicidade, pesquisa, atendimento ao cliente, vendas e engajamento em mídias sociais. O objetivo é sempre ter uma menor latência, o que significa uma melhor experiência para o cliente. Usando as instâncias Inf1 do Amazon EC2, conseguimos conquistar esse objetivo.”

    Jamal Mazhar, VP de infraestrutura e DevOps da Sprinklr

Otimize sua infraestrutura de ML com a AWS