Elastic Fabric Adapter

大規模執行高效能運算 (HPC) 和機器學習 (ML) 應用程式

Elastic Fabric Adapter (EFA) 是 Amazon EC2 執行個體適用的網路介面,可讓客戶在 AWS 上大規模執行需要高層級節點間通訊的應用程式。其客製化的作業系統 (OS) 略過硬體介面,可提升執行個體間通訊的效能,這對於擴充這些應用程式至關重要。有了 EFA,使用訊息傳遞界面 (MPI) 的高效能運算 (HPC) 應用程式和使用 NVIDIA Collective Communications Library (NCCL) 的機器學習 (ML) 應用程式都可以擴展至數千個 CPU 或 GPU。因此,您可以獲得內部部署 HPC 叢集的應用程式效能,還有 AWS 雲端的隨需彈性和靈活性。

EFA 可作為選用 EC2 聯網功能,您可以在任何支援的 EC2 執行個體上啟用,無需額外費用。此外,它還和最常用於節點間通訊的介面、API 和程式庫相容,因此您幾乎 (甚至完全) 無需對您的 HPC 應用程式進行任何修改,即可將其遷移到 AWS。

優勢

更快得到結果

EFA 的獨特 OS 略過聯網機制為執行個體間的通訊提供了一條低延遲、低抖動通道。這讓您緊密耦合的 HPC 或分散式機器學習應用程式能夠擴展到數千個核心,提升應用程式的執行速度。

具有靈活的組態

您可以在不斷增長的 EC2 執行個體清單上啟用 EFA 支援,並靈活地為您的工作負載選擇適當的運算組態。只要隨需求變化改變您的叢集組態即可,也可以在新的運算執行個體上啟用 EFA 支援。無需事先保留或前期規劃。

無縫遷移

EFA 使用 Libfabric 介面和 Libfabric API 進行通訊。由於幾乎所有的 HPC 程式設計模型都支援此介面,所以您可以將現有 HPC 應用程式遷移到雲端,只需少許修改,甚至無需任何修改。

EFA 效能

與使用 ENA 進行標準 CFD 模擬相比,EFA 可在擴展方面提供 4 倍於前者的改進,如上圖所示。

此基準測試的求解器由 Metacomp Technologies 提供

AWS Customer CFD Direct 為計算流體動力學維護熱門的 OpenFOAM 平台,同時產生 CFD Direct From the Cloud (CFDDFC)。CFDDFC 是一種 AWS Marketplace 產品/服務,讓您可以在 AWS 上輕鬆地執行 OpenFOAM。他們一直在測試並為 EFA 設定基準,最近還在一篇題為《OpenFOAM HPC with AWS EFA》的部落格文章中分享了他們的測量資料。在文章中,他們報告了針對汽車四周外部空氣動力學的模擬。該模擬將以額外線性方式擴展至超過 200 個核心,並在達到 1000 個核心 (每個核心約有 10 萬個模擬儲存格) 時,逐漸降為線性擴展。
 

運作方式

使用案例

計算流體動力學

計算流動動力學 (CFD) 演算法的進步讓工程師能夠模擬愈加複雜的流體現象,而 HPC 則有助於縮短周轉時間。藉助 EFA,設計工程師現在可擴展其模擬工作,以試驗更多可調校的參數,從而更快取得更準確的結果。

天氣建模

複雜的天氣模型需要高記憶體頻寬、快速互連和穩健的平行檔案系統,以產生準確的結果。模型上的網格間隔越小,結果便越準確,模型所需的運算資源就越多。憑藉 EFA 所提供的快速互連,天氣建模應用程式可利用幾乎無限制的 AWS 雲端擴展能力,在更短時間內產生更準確的預測。

機器學習

GPU 上的分散式運算可大幅加快深度學習模型的訓練速度。領先的深度學習架構 (如 Caffe、Caffe2、Chainer、MxNet、TensorFlow 和 PyTorch) 整合了 NCCL,以便利用其多個節點之間的多 GPU 集合通訊。EFA 針對 AWS 上的 NCCL 進行了最佳化,改善了這些訓練模型的輸送量和可擴展性,從而可更快取得結果。

資源

現已推出 – 適用於緊密耦合 HPC 工作負載的 Elastic Fabric Adapter (EFA)
2019 年 4 月 29 日
 
AWS re:Invent 2018:透過 EC2 與 Elastic Fabric Adapter 擴展 HPC 應用程式
在這場 reInvent 2018 演講中,我們介紹了 Elastic Fabric Adapter 並討論了 EFA 如何在 Amazon EC2 中增強執行個體間的聯網
深入了解 OpenMPI 和 Elastic Fabric Adapter (EFA)
在這場技術演講中,我們將深入了解 OpenMPI 及其對 Amazon EC2 之 EFA 的特定支援,向您介紹如何充分利用您的程式碼並架構可提高效能的解決方案。

Elastic Fabric Adapter (EFA) 入門

在本教學中,您會建立支援 EFA 的 AMI 和支援 EFA 的安全群組,然後啟動支援 EFA 的執行個體到使用該 AMI 和安全群組的叢集置放群組。
 
進一步了解適用於 HPC 的 AWS 服務

了解您可以用於在 AWS 上建置 HPC 解決方案的所有 AWS 服務

進一步了解 
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
AWS 上的 HPC 入門

在 AWS 上建置您的第一個 HPC 叢集

登入