O que é o SageMaker HyperPod?
O Amazon SageMaker HyperPod remove o trabalho árduo e não especializado relacionado ao desenvolvimento e à otimização da infraestrutura de machine learning (ML). Ele é configurado previamente com as bibliotecas de treinamento distribuído do SageMaker, que dividem automaticamente as workloads de treinamento entre mais de mil aceleradores de IA, permitindo que as workloads sejam processadas em paralelo para obtenção de uma performance aprimorada do modelo. O SageMaker HyperPod garante que seu treinamento de FM não seja interrompido ao salvar pontos de verificação periodicamente. Ele detecta automaticamente falhas de hardware quando ocorrem, repara ou substitui a instância com problema, e retoma o treinamento a partir do último ponto de verificação salvo, removendo a necessidade de você gerenciar manualmente esse processo. O ambiente resiliente permite o treinamento contínuo de modelos por semanas ou meses em um ambiente distribuído, sem interrupções, economizando até 40% do tempo de treinamento. Além disso, o SageMaker HyperPod é altamente personalizável, permitindo a execução e a escalabilidade eficientes das workloads de FM, além de facilitar o compartilhamento da capacidade de computação entre diferentes workloads, desde o treinamento em grande escala até a inferência.
Benefícios do SageMaker HyperPod
Verificação e reparo automáticos da integridade do cluster
Se alguma instância apresentar defeito durante uma workload de treinamento, o SageMaker HyperPod detecta e troca automaticamente nós defeituosos por outros saudáveis. Para detectar hardware defeituoso, o SageMaker HyperPod executa regularmente uma série de verificações de integridade da GPU e da rede.
Escalabilidade e otimização da utilização de recursos
É possível gerenciar e operar clusters do SageMaker HyperPod com uma experiência administrativa consistente baseada em Kubernetes. Isso permite que você execute e escale de forma eficiente as workloads de FM, desde o treinamento e a otimização até a experimentação e a inferência. Você pode compartilhar a capacidade de computação e alternar entre o Slurm e o EKS para diferentes tipos de workloads com facilidade.
Observabilidade avançada para performance aprimorada
É possível usar as ferramentas de ML integradas no SageMaker HyperPod para aprimorar a performance dos modelos. Por exemplo, o Amazon SageMaker com TensorBoard ajuda a reduzir o tempo de desenvolvimento ao possibilitar a visualização da arquitetura do modelo para identificar e corrigir problemas de convergência, e o Amazon SageMaker Debugger captura métricas e perfis de trabalhos de treinamento em tempo real. A integração com o Amazon CloudWatch Container Insights disponibiliza informações mais detalhadas sobre a performance, a integridade e a utilização dos clusters.
Bibliotecas de treinamento distribuído de alta performance
Com as bibliotecas de treinamento distribuído do SageMaker, é possível executar trabalhos de treinamento em aprendizado profundo altamente escaláveis e econômicos ao usar o paralelismo de dados e o paralelismo de modelos personalizados. O SageMaker HyperPod é pré-configurado com bibliotecas distribuídas do SageMaker. Com apenas algumas linhas de código, você pode habilitar o paralelismo de dados em seus scripts de treinamento. O SageMaker HyperPod agiliza a execução de treinamentos distribuídos ao dividir automaticamente seus modelos e conjuntos de dados de treinamento em instâncias de GPU da AWS.
Programação e orquestração de workloads
A interface de usuário do SageMaker HyperPod é altamente personalizável usando o Slurm ou o Amazon EKS. Você pode selecionar e instalar qualquer estrutura ou ferramenta necessária. Todos os clusters são provisionados com o tipo e o número de instâncias que você escolher, e são retidos para uso em todas as workloads.