Instâncias DL1 do Amazon EC2
As instâncias DL1 do Amazon EC2 alimentadas por aceleradores Gaudi da Habana Labs (uma empresa da Intel) oferecem modelos de aprendizado profundo de baixo custo de treinamento para processamento de linguagem natural, detecção de objetos e casos de uso de reconhecimento de imagem. As instâncias DL1 oferecem uma relação preço-performance até 40% melhor para treinar modelos de aprendizado profundo em comparação com as instâncias do EC2 baseadas em GPU da geração atual.
As instâncias DL1 do Amazon EC2 incluem oito aceleradores Gaudi com 32 GiB de memória de alta largura de banda (HBM) por acelerador, 768 GiB de memória de sistema, processadores Intel Xeon escalável de segunda geração personalizados, 400 Gbps de taxa de transferência de redes e 4 TB de armazenamento NVMe local.
As instâncias DL1 incluem o SDK Habana SynapseAI®, que é integrado aos principais frameworks de machine learning, como TensorFlow e PyTorch.
É fácil começar a usar instâncias DL1 com AMIs do Amazon Deep Learning e o AWS Deep Learning Containers, ou com o Amazon EKS e o ECS para aplicações em contêineres. O suporte para instâncias DL1 no Amazon SageMaker estará disponível em breve.
Benefícios
Baixo custo de treinamento para modelos de aprendizado profundo
As instâncias DL1 oferecem uma relação preço-performance até 40% melhor para treinar modelos de aprendizado profundo em comparação com as instâncias do EC2 baseadas em GPU da geração mais recente. Essas instâncias contam com aceleradores Gaudi, desenvolvidos especificamente para treinar modelos de aprendizado profundo. Também é possível economizar mais usando o EC2 Savings Plan para reduzir consideravelmente o custo de treinamento de seus modelos de aprendizado profundo.
Facilidade de uso e portabilidade de código
Desenvolvedores de todos os níveis de especialização podem começar a usar facilmente as instâncias DL1. Podem continuar usando seus próprios serviços de gerenciamento de fluxo de trabalho com AMIs do AWS DL e DL Containers para começar a usar as instâncias DL1. Usuários avançados também podem desenvolver kernels personalizados para otimizar a performance de seu modelo usando Tensor Processing Cores programáveis da Gaudi. (TPCs). Com ferramentas Habana SynapseAI®, poderão migrar facilmente seus modelos existentes, em execução em instâncias baseadas em GPU ou CPU, para instâncias DL1, com alterações mínimas de código.
Suporte para os principais frameworks e modelos de ML
As instâncias DL1 são compatíveis com os principais frameworks de ML, como TensorFlow e PyTorch, permitindo que você continue usando os fluxos de trabalho de ML de sua preferência. É possível acessar modelos otimizados, como Mask R-CNN para detecção de objetos e BERT para processamento de linguagem natural no repositório do Habana no GitHub para criar, treinar e implantar seus modelos rapidamente. A vasta biblioteca de kernel Tensor Processing Core (TPC) da SynapseAI oferece suporte a uma ampla variedade de operadores e a vários tipos de dados para atender a uma gama de necessidades de modelo e performance.
Recursos
Alimentadas por aceleradores Gaudi da Habana Labs
As instâncias DL1 são alimentadas por aceleradores Gaudi da Habana Labs (uma empresa Intel), que contam com oito TPCs totalmente programáveis e 32 GiB de memória de alta largura de banda por acelerador. Têm uma arquitetura de computação heterogênea para maximizar a eficiência do treinamento e um mecanismo centralizado configurável para operações matemáticas de matriz. Também são as únicas do setor com integração nativa de dez portas 100 Gigabit Ethernet em cada acelerador Gaudi para comunicação de baixa latência entre aceleradores.
SDK Habana SynapseAI®
O SDK SynapseAI® é composto por um compilador gráfico e tempo de execução, biblioteca de kernel TPC, firmware, drivers e ferramentas. É integrado aos principais frameworks, como TensorFlow e PyTorch. As bibliotecas de comunicação ajudam a aumentar a escala na vertical rapidamente para vários aceleradores usando as mesmas operações que você usa atualmente para instâncias baseadas em GPU. Essa escalabilidade determinística resulta em maior utilização e aumento de eficiência em uma variedade de topologias de rede neural. Migre e execute perfeitamente seus modelos existentes em instâncias DL1 com alterações mínimas de código usando as ferramentas do SynapseAI®.
Redes e armazenamento de alta performance
As instâncias DL1 oferecem 400 Gbps de taxa de transferência de redes e conectividade com o Amazon Elastic Fabric Adapter (EFA) e o Amazon Elastic Network Adapter (ENA) para aplicações que necessitam de acesso a redes de alta velocidade. Para acesso rápido a grandes conjuntos de dados, as instâncias DL1 também oferecem 4 TB de armazenamento NVMe local e taxa de transferência de leitura de 8 GB/s.
Desenvolvidas no AWS Nitro System
As instâncias DL1 são desenvolvidas no AWS Nitro System, que é uma coleção sofisticada de fundamentos que transferem muitas das funções tradicionais de virtualização para hardware e software dedicados para entregar altos níveis de performance, disponibilidade e segurança, além de reduzir a sobrecarga da virtualização.
Detalhes do produto
Tamanho de instância |
vCPU |
Memória da instância (GiB) |
Aceleradores Gaudi |
Largura de banda de rede (Gbps) |
Acelerador entre pares bidirecional (Gbps) |
Armazenamento de instâncias (GB) | Largura de banda do EBS (Gbps) | Sob demanda (preço/hora) | Instância reservada por 1 ano, por hora* | Instância reservada por 3 anos, por hora* |
dl1.24xlarge |
96 |
768 |
8 |
400 |
100 |
4 x 1000 SSD NVMe |
19 | USD 13,11 | USD 7,87 | USD 5,24 |
*Preços informados para as regiões Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon).
Depoimentos de clientes
A Seagate Technology é líder mundial na oferta de soluções de armazenamento e gerenciamento de dados há mais de 40 anos. Os engenheiros de ciência de dados e machine learning da Seagate desenvolveram um sistema de detecção de defeitos de aprendizado profundo (DL) avançado e o implantaram globalmente nas instalações de fabricação da empresa. Em um projeto de prova de conceito recente, o Habana Gaudi excedeu as metas de performance ao treinar um dos modelos de segmentação semântica de DL usados atualmente na produção da Seagate.
“Esperamos que a vantagem considerável na relação preço-performance das instâncias DL1 do Amazon EC2, com aceleradores Habana Gaudi, futuramente possam ser uma adição atrativa aos clusters de computação da AWS. Como a Habana Labs continua a evoluir e permite uma cobertura mais ampla de operadoras, há um potencial de expansão para outros casos de uso empresariais, aproveitando assim mais economia de custos.”
Darrell Louder,diretor sênior de engenharia de operação, tecnologia e análise avançada, Seagate
A Leidos é reconhecida como um dos 10 principais fornecedores de TI no setor de saúde, oferecendo uma ampla gama de soluções personalizáveis e escaláveis para hospitais e sistemas de saúde, organizações biomédicas e todas as agências federais dos EUA voltadas para a saúde.
“Uma das diversas tecnologias que atualmente estamos viabilizando para o avanço da saúde é o uso de machine learning e aprendizado profundo para diagnóstico de doenças com base em dados de imagens médicas. Nossos robustos conjuntos de dados exigem treinamento oportuno e eficiente para ajudar pesquisadores que buscam solucionar alguns dos mistérios médicos de maior urgência. Diante da necessidade da Leidos e de seus clientes de um treinamento rápido, fácil e com bom custo-benefício para modelos de aprendizado profundo, tivemos o prazer de começar esta jornada com a Intel e a AWS para usar instâncias DL1 do Amazon EC2 baseadas em processadores de IA Habana Gaudi. Ao utilizar instâncias DL1, esperamos ver um aumento na velocidade e eficiência do treinamento do modelo, consequentemente reduzindo o risco e o custo de pesquisa e desenvolvimento.”
Chetan Paul, CTO de saúde e serviços humanos, Leidos
A Intel criou a tecnologia 3D Athlete Tracking, que analisa vídeos de atletas em ação em tempo real para embasar os processos de treinamento de performance e aprimorar as experiências do público durante as competições.
“Treinar nossos modelos em instâncias DL1 do Amazon EC2, alimentadas por aceleradores Gaudi da Habana Labs, nos permitirá processar com precisão e confiabilidade milhares de vídeos e gerar dados de performance associados, reduzindo o custo de treinamento. Com instâncias DL1, agora podemos treinar na velocidade e com o custo necessários para atender, de maneira produtiva, atletas, equipes e emissoras de todos os níveis em diversos esportes.”
Rick Echevarria, vice-presidente, grupo de vendas e marketing, Intel
A RiskFuel fornece avaliações em tempo real e sensibilidades a risco para empresas que gerenciam carteiras financeiras, ajudando-as a aumentar a precisão e a performance das negociações.
“Dois fatores nos conduziram às instâncias DL1 do Amazon EC2 baseadas em aceleradores de IA Habana Gaudi. Primeiro, queremos garantir que nossos clientes bancários e de seguros possam executar modelos da Riskfuel que utilizam hardware mais recente. Felizmente, achamos que a migração de nossos modelos para instâncias DL1 foi simples e direta. Na verdade, bastou apenas alterar algumas linhas de código. Segundo, os custos com treinamento representam uma grande parte de nossos gastos, e a promessa de melhoria de até 40% na relação preço-performance oferece um benefício potencialmente considerável para nossos resultados financeiros.”
Ryan Ferguson, CEO, Riskfuel
A Fractal é líder mundial em inteligência artificial e análise e potencializa decisões de empresas da Fortune 500.
“A IA e o aprendizado profundo estão na essência de nossa capacidade de visão de máquina, permitindo que os clientes de todos os setores que atendemos tomem decisões melhores. Para melhorar a precisão, os conjuntos de dados estão se tornando maiores e mais complexos, o que demanda modelos maiores e mais complexos. Isso está impulsionando a necessidade de melhorar a relação preço-performance computacional. As novas instâncias DL1 do Amazon EC2 prometem treinamento com custo consideravelmente menor do que as instâncias do EC2 baseadas em GPU. Esperamos que isso torne o treinamento de modelos de IA na nuvem muito mais competitivo e acessível do que antes para uma ampla gama de clientes.”
Srikanth Velamakanni, CEO do grupo, Fractal
Comece a usar
AWS Deep Learning AMIs (DLAMI) e AWS Deep Learning Containers (DLC)
O AWS Deep Learning AMIs (DLAMI) e o AWS Deep Learning Containers (DLC) fornecem a cientistas de dados, profissionais de ML e pesquisadores imagens de máquinas e contêineres pré-instaladas com framework de aprendizado profundo para que você comece a usar mais facilmente, permitindo ignorar o processo complicado de criar e otimizar seus ambientes de software a partir do zero. O SDK SynapseAI para os aceleradores Gaudi é integrado ao AMIs e DLCs do AWS DL, permitindo que você comece a usar rapidamente as instâncias DL1.
Amazon Elastic Kubernetes Service (EKS) ou Elastic Container Service (ECS)
Os clientes que preferem gerenciar suas próprias workloads em contêineres por meio de serviços de orquestração de contêineres podem implantar as instâncias DL1 com o Amazon EKS ou o ECS.
Recursos adicionais
Documentação do Habana® Gaudi® v0.15
Fórum do desenvolvedor Habana®
Repositório GitHub da Habana®
Comece a usar a AWS
Cadastre-se para obter uma conta da AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.
Aprenda com tutoriais de 10 minutos
Explore e aprenda com tutoriais simples.
Comece a criar no console
Comece a criar usando os guias detalhados que ajudam a iniciar seu projeto da AWS.