Project Ceiba

构建全球最大的云端人工智能超级计算机

在云端构建全球最大的人工智能超级计算机

Ceiba 项目是 AWS 和 NVIDIA 之间的一项开创性合作,其目标是在云端构建最大的人工智能(AI)超级计算机,以此突破人工智能的界限。这台尖端的超级计算机完全在 AWS 上托管,将为 NVIDIA 在人工智能领域的研发工作提供支持。

推动前沿创新

NVIDIA 研发团队将利用 Project Ceiba 的强大功能推动各个前沿领域实现进步,包括大型语言模型(LLM)、图形(图像、视频和 3D 生成)、模拟、数字生物学、机器人、自动驾驶汽车、借助 NVIDIA Earth-2 进行气候预测等等。这一开创性举措将助力 NVIDIA 不断推进生成式人工智能的发展,同时推动其在不同领域的广泛应用,进而塑造人工智能的未来。

设计模式

可扩展的人工智能基础设施

Project Ceiba 将通过 NVIDIA DGX Cloud 架构使用。DGX Cloud 是一个面向开发人员的端到端、可扩展人工智能平台,其提供基于最新 NVIDIA 架构构建的可扩展容量,并且每一层都与 AWS 共同设计。DGX Cloud 将于今年晚些时候在 AWS 上推出,届时 AWS 将成为第一家提供基于 NVIDIA Blackwell 架构的 DGX Cloud(搭载 GB200)的云服务提供商。Project Ceiba 基于 AWS 专门构建的人工智能基础设施构建,旨在为此类规模的超级计算机提供其所需的巨大规模、更高安全性以及卓越性能。

设计模式

EFLOPS 的浮点运算,比当今世界上最快的超级计算机 Frontier 强约 375 倍

的每个超级芯片吞吐量,支持闪电般快速的数据传输和处理

NVIDIA Blackwell GPU,业界首创的超级计算机

功能

这一联合项目树立了几个行业里程碑:
Project Ceiba 的配置包括 20736 个 NVIDIA GB200 Grace Blackwell 超级芯片。这台业界首创的超级计算机使用 NVIDIA 最新的 GB200 NVL72(采用第五代 NVLink 的液冷机架级系统)构建,可扩展到 20736 个 Blackwell GPU,与 10368 个NVIDIA Grace CPU 相连。这台超级计算机每秒能够处理 414 百亿亿次 AI 浮点运算,比目前世界上最快的超级计算机“Frontier”还要强大 375 倍左右。即使把全世界目前的超级计算能力全部相加,也达不到每秒 414 百亿亿次浮点运算所代表计算力的 1%。从这个角度来看,这相当于让 60 多亿台世界上最先进的笔记本电脑同时工作。更进一步说,如果地球上的每个人每秒进行一次计算,他们将需要 1660 多年的时间才能完成 Project Ceiba 只需一秒钟就能完成的计算。

Project Ceiba 是第一个利用第四代 AWS Elastic Fabric Adapter(EFA)联网所支持的大规模横向扩展功能的系统,为每个超级芯片提供了前所未有的 1600 Gbps 的低延迟、高带宽网络吞吐量,实现了闪电般快速的数据传输和处理。 

液冷技术已经存在了多年。玩家会在其个人游戏计算机上使用此技术。虽然它不是一项新技术,但在 Project Ceiba 之前,AWS 特意选择了空冷技术而不是液冷技术,因为前者具有成本效益。为了应对功率密度挑战,并提供在 Project Ceiba 中这种无与伦比的计算能力,AWS 率先在数据中心大规模使用液冷技术来提供更高效、更可持续的高性能计算解决方案。

Project Ceiba 将整合业界领先的安全功能,这些功能经过专门设计,即使是最为敏感的 AI 数据也能得到保护。NVIDIA 的 Blackwell GPU 架构提供了与 AWS Nitro System 和 EFA 技术集成的 GPU 之间的安全通信,将为生成式人工智能工作负载提供安全的端到端加密数据。这种联合解决方案可以解密敏感的 AI 数据并将其加载到 GPU 中,同时保持与基础设施运营商的完全隔离。同时还要验证用于处理数据的应用程序的真实性。使用 Nitro System,客户可以通过 AWS Key Management System(KMS)以加密方式验证其应用程序,并且只有在必要的检查通过时才解密数据,从而确保数据流经生成式人工智能工作负载时得到端到端加密。阅读此博客并访问安全 AI 网页,了解更多信息。