O Elastic Fabric Adapter (EFA) é uma interface de rede para instâncias do Amazon EC2 que permite aos clientes executar aplicações que exigem altos níveis de comunicação entre nós em grande escala na AWS. Sua interface de hardware personalizada fora do sistema operacional (SO) aumenta a performance das comunicações entre instâncias, o que é essencial para escalar esses aplicativos. Com o EFA, aplicativos de computação de alta performance (HPC) usando a Message Passing Interface (MPI) e aplicativos de machine learning (ML) usando a NVIDIA Collective Communications Library (NCCL) podem escalar para milhares de CPUs ou GPUs. Como resultado, você obtém a performance de clusters de HPC locais com a elasticidade e a flexibilidade sob demanda da Nuvem AWS.
O EFA está disponível como um recurso de redes opcional do EC2 e pode ser habilitado em qualquer instância compatível com o EC2 sem custo adicional. Além disso, ele funciona com as interfaces, as APIs e as bibliotecas mais usadas para comunicações entre nós a fim de que você possa migrar suas aplicações de HPC para a AWS com pouca ou nenhuma modificação.
Benefícios
Resultados mais rápidos
O mecanismo exclusivo da rede de bypass do SO do EFA fornece um canal de baixa latência e baixa variação de sinal para comunicações entre instâncias. Sendo assim, suas aplicações de HPC fortemente acopladas ou de machine learning distribuídas são escaladas para milhares de núcleos, fazendo com que as aplicações sejam executadas com maior rapidez.
Configuração flexível
É possível habilitar o suporte do EFA em uma lista crescente de instâncias do EC2 e obter flexibilidade para escolher a configuração de computação adequada para sua workload. Basta alterar as configurações de cluster conforme suas necessidades são alteradas e habilitar o suporte do EFA em suas novas instâncias de computação. Reservas prévias ou planejamentos antecipados não são necessários.
Migração sem complicações
O EFA usa a interface Libfabric e as APIs Libfabric para realizar comunicações. Como quase todos os modelos de programação de HPC oferecem suporte a essa interface, é possível migrar suas aplicações de HPC existentes para a nuvem com pouca ou nenhuma modificação.
Performance do EFA
O EFA fornece uma melhoria de quatro vezes na escala em relação ao ENA para uma simulação de CFD padrão, conforme apresentado no gráfico acima.
O solucionador para esta avaliação comparativa foi fornecido pela Metacomp Technologies.
Como funciona
Casos de uso
Fluidodinâmica computacional
Os avanços nos algoritmos da dinâmica dos fluidos computacional (CFD) possibilitam que os engenheiros simulem fenômenos de fluxo cada vez mais complexos e a HPC ajuda a reduzir os tempos de resposta. Com o EFA, os engenheiros de projeto passaram a aumentar a escala dos trabalhos de simulação horizontalmente para experimentar parâmetros mais ajustáveis, o que conduz a resultados mais rápidos e precisos.
Modelagem climática
Modelos climáticos complexos requerem alta largura de banda de memória, interconexões rápidas e sistemas de arquivos paralelos robustos para fornecer resultados precisos. Quanto mais próximo o espaçamento da grade no modelo, mais precisos serão os resultados e mais recursos computacionais serão requeridos pelo modelo. O EFA oferece uma interconexão rápida que permite que as aplicações de modelagem climática aproveitem os recursos de escalabilidade virtualmente ilimitados da Nuvem AWS e obtenham previsões mais precisas em menos tempo.
Machine Learning
O treinamento de modelos de aprendizado profundo pode ser significativamente acelerado com a computação distribuída em GPUs. As principais estruturas de aprendizado profundo, como Caffe, Caffe2, Chainer, MxNet, TensorFlow e PyTorch, já integraram a NCCL para aproveitar seus grupos de várias GPUs para comunicações entre nós. O EFA é otimizado para a NCCL na AWS, o que aprimora o throughput e a escalabilidade desses modelos de treinamento e conduz a resultados mais rápidos.
Recursos
Conceitos básicos do Elastic Fabric Adapter (EFA)
Saiba mais sobre os serviços da AWS que você pode usar para criar uma solução de HPC na AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.