Qu’est-ce qu’Amazon SageMaker HyperPod ?
Amazon SageMaker HyperPod permet d’éliminer les tâches fastidieuses liées à la création et à l’optimisation d’une infrastructure de machine learning (ML). Le service est préconfiguré avec les bibliothèques d’entraînement distribué de SageMaker. Ainsi, vous pouvez répartir automatiquement les charges de travail d’entraînement sur plus d’un millier d’accélérateurs d’IA de manière à traiter les charges de travail en parallèle, ce qui permet d’améliorer les performances du modèle. SageMaker HyperPod garantit la continuité de votre entraînement FM en enregistrant régulièrement des points de contrôle. Il détecte les défaillances matérielles, répare ou remplace l’instance défectueuse et reprend automatiquement l’entraînement au dernier point de contrôle enregistré, vous évitant ainsi d’avoir à gérer manuellement ce processus. L’environnement résilient vous permet d’entraîner des modèles pendant des semaines ou des mois sans interruption dans un système distribué, et de réduire jusqu’à 40 % le temps nécessaire à l’entraînement. SageMaker HyperPod est également hautement personnalisable, ce qui vous permet d’exécuter et de mettre à l’échelle efficacement les charges de travail de modèle de fondation, et de partager facilement la capacité de calcul entre les différentes charges de travail, de l’entraînement à grande échelle jusqu’à l’inférence.
Avantages de SageMaker HyperPod
Bibliothèques d’entraînement distribué haute performance
Grâce aux bibliothèques d’entraînement distribué de SageMaker, vous pouvez exécuter des tâches d’entraînement de deep learning en parallèle, sur plusieurs modèles ou en répartissant vos données, de manière personnalisée, hautement évolutive et à moindres coûts. SageMaker HyperPod est préconfiguré avec les bibliothèques distribuées SageMaker. Avec seulement quelques lignes de code, vous pouvez activer le parallélisme des données dans vos scripts d'entraînement. SageMaker HyperPod accélère l'exécution d'entraînements distribués en répartissant automatiquement vos modèles et vos jeux de données d'entraînement entre les instances GPU AWS.
Planification et orchestration des charges de travail
L’interface utilisateur de SageMaker HyperPod est hautement personnalisable à l’aide de Slurm ou d’Amazon EKS. Vous pouvez sélectionner et installer tous les cadres ou outils nécessaires. Tous les clusters sont provisionnés avec le type et le nombre d'instances que vous choisissez, et ils sont conservés pour votre utilisation sur toutes les charges de travail.
Surveillance de l'état et réparation du cluster automatiques
Si des instances deviennent défectueuses pendant une charge de travail d'entraînement, SageMaker HyperPod détecte automatiquement les nœuds défectueux et les remplace par des nœuds sains. Pour détecter le matériel défectueux, SageMaker HyperPod effectue régulièrement une série de surveillances de l'état du GPU et du réseau.
Observabilité avancée pour de meilleures performances
Vous pouvez utiliser les outils de machine learning intégrés à SageMaker HyperPod pour améliorer les performances du modèle. Par exemple, Amazon SageMaker avec TensorBoard vous permet de gagner du temps de développement en visualisant l’architecture du modèle afin d’identifier et de résoudre les problèmes de convergence, tandis qu’Amazon SageMaker Debugger capture des métriques et établit le profil des tâches d’entraînement en temps réel. L’intégration à Amazon CloudWatch Container Insights fournit des données analytiques plus détaillées sur les performances, l’état et l’utilisation des clusters.
Capacité de mise à l’échelle et utilisation des ressources optimisée
Vous pouvez gérer et exploiter des clusters SageMaker HyperPod grâce à une expérience administrateur fiable basée sur Kubernetes. Ainsi, qu’il s’agisse d’entraînement, d’ajustement, d’expérimentation ou d’inférence, vous êtes en mesure d’exécuter et de mettre à l’échelle efficacement les charges de travail de modèle de fondation. Vous pouvez facilement partager la capacité de calcul et basculer entre Slurm et EKS selon le type de charge de travail.