Elastic Fabric Adapter (EFA) est une interface réseau pour les instances Amazon EC2 qui permet aux clients d'exécuter des applications nécessitant de hauts niveaux de communications entre les nœuds à grande échelle sur AWS. Son interface matérielle de contournement du système d'exploitation (OS) sur mesure améliore les performances des communications entre instances, ce qui est essentiel à la mise à l'échelle de ces applications. Avec EFA, les applications de calcul haute performance (HPC) utilisant l'interface MPI (Message Passing Interface) et les applications de machine learning (ML) utilisant la bibliothèque de communications collectives NVIDIA (NCCL) peuvent s'adapter à des milliers de CPU ou de GPU. Par conséquent, vous bénéficiez des performances applicatives des clusters HPC locaux avec l'élasticité à la demande et la flexibilité du cloud AWS.
EFA est disponible en option en tant que fonctionnalité réseau EC2 que vous pouvez activer gratuitement sur toute instance EC2 prise en charge. De plus, il fonctionne avec les interfaces, les API et les bibliothèques les plus couramment utilisées pour les communications entre nœuds, ce qui vous permet de migrer vos applications HPC vers AWS avec peu ou pas de modifications.
Avantages
Résultats plus rapides
Le mécanisme de mise en réseau unique par contournement du système d'exploitation d'EFA fournit un canal à faible latence et à faible instabilité pour les communications entre instances. Cela permet à vos applications HPC ou de machine learning distribuées étroitement couplées de s'adapter à des milliers de cœurs, accélérant ainsi l'exécution de vos applications.
Configuration flexible
Vous pouvez activer la prise en charge d'EFA sur une liste croissante d'instances EC2 et bénéficier de la flexibilité qui vous permet de choisir la configuration de calcul adaptée à votre application. Modifiez simplement les configurations de votre cluster en fonction de vos besoins et activez la prise en charge d'EFA sur vos nouvelles instances de calcul. Aucune réservation ni planification préalable n'est requise.
Migration fluide
EFA utilise l'interface et les API libfabric pour les communications. Étant donné que presque tous les modèles de programmation HPC prennent en charge cette interface, vous pouvez migrer vos applications HPC existantes vers le cloud avec peu ou pas de modifications.
Performance d'EFA
EFA fournit une mise à l'échelle 4 fois supérieure à celle d'ENA pour une simulation CFD standard, comme le montre le graphique ci-dessus.
Solveur pour cette analyse comparative fourni par Metacomp Technologies
Fonctionnement
Cas d'utilisation
Dynamique des fluides numériques
Les avancées des algorithmes de dynamique des fluides numériques (CFD) permettent aux ingénieurs de simuler des phénomènes d'écoulement de plus en plus complexes, et le HPC contribue à réduire les délais d'exécution. Avec EFA, les ingénieurs peuvent désormais faire évoluer leurs travaux de simulation afin d'expérimenter des paramètres plus ajustables en vue d'obtenir des résultats plus rapides et plus précis.
Modélisation météorologique
Les modèles météorologiques complexes nécessitent une bande passante mémoire élevée, des interconnexions rapides et des systèmes de fichiers parallèles robustes pour fournir des résultats précis. Plus l'espacement dans la grille du modèle est étroit, plus les résultats sont précis et plus le modèle nécessite des ressources de calcul importantes. EFA propose une interconnexion rapide qui permet aux applications de modélisation météorologique de tirer parti des capacités de mise à l'échelle pratiquement illimitées du cloud AWS et d'obtenir des prévisions plus précises en moins de temps.
Machine Learning
L'entraînement des modèles de deep learning peut être considérablement accéléré grâce à l'informatique distribuée sur les GPU. Les principaux cadres de deep learning tels que Caffe, Caffe2, Chainer, MxNet, TensorFlow et PyTorch ont déjà intégré la technologie NCCL afin de tirer parti de ses collectifs multi-GPU pour les communications entre nœuds. EFA est optimisé pour NCCL sur AWS, améliorant ainsi le débit et la capacité de mise à l'échelle de ces modèles de formation, ce qui permet d'obtenir des résultats plus rapidement.
Ressources
Mise en route avec Elastic Fabric Adapter (EFA)
En savoir plus sur tous les services AWS à utiliser pour créer une solution HPC sur AWS