AWS 并行计算服务常见问题

一般性问题

AWS 并行计算服务 (AWS PCS) 是一项托管服务,可让您轻松地运行和扩展高性能计算(HPC)工作负载,并使用 Slurm 在 AWS 上构建科学和工程模型。使用 AWS PCS 构建集成 AWS 计算、存储、联网和可视化的计算集群。运行模拟或构建科学和工程模型。使用内置的管理和可观测性功能,精简和简化您的集群操作。让您的用户能够在熟悉的环境中运行应用程序和作业,从而使他们能够专注于研究和创新。

AWS PCS 目前已在以下区域推出:美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(俄勒冈州)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)以及欧洲地区(斯德哥尔摩)。

AWS PCS 目前支持 Slurm,Slurm 是一种流行的开源作业调度器和工作负载管理器。

Slurm 是一种流行的开源调度器,用于管理分布式 HPC 工作负载。

AWS PCS 的工作原理是预置托管的 Slurm 控制器、操作扩展逻辑并为您启动计算节点。

不使用 AWS PCS,则需要在预置的头节点上运行 Slurm 控制器,启动多个计算节点,并管理实例集操作以扩展容量,满足作业队列中的需求。使用 AWS PCS,您可以轻松定义作业队列和计算偏好。该服务旨在管理 Slurm 控制器,并以高度可用和安全的配置处理实例集扩展。这有助于减轻运营负担,便于您专注于模拟或科学,而不是管理 AWS 基础设施。

AWS PCS 在您的账户中预置 Amazon Elastic Compute Cloud (Amazon EC2) 实例。这意味着您可以利用 Amazon EC2 购买选项(按需、竞价)和定价结构(实例节省计划、其他折扣),并通过 AWS PCS 优化容量。

AWS PCS 使用 Amazon EC2、Amazon Elastic Block Store (Amazon EBS)、Elastic Fabric Adapter(EFA)、Amazon Elastic File System (Amazon EFS)、Amazon FSx, NICE DCV 和 Amazon Simple Storage Service (Amazon S3) 等服务来构建环境,以配置计算、可视化、存储和网络基础设施,进而在 AWS 上运行 HPC 工作负载。

AWS PCS 使用服务相关角色和托管的 AWS Identity and Access Management(AWS IAM)策略实现细粒度访问控制。它向 Amazon CloudWatch 提供指标和应用程序日志,并向 AWS CloudTrail 发送可审计的事件。该服务支持对 Amazon EC2 实例进行基于 LDAP 的用户身份验证和授权。它可以与 EC2 Image Builder 集成,用于亚马逊机器映像(AMI)构建自动化。最后,该服务支持 AWS CloudFormation,您可以据此部署和管理 AWS PCS 集群和相关基础设施。

AWS PCS 专为各种科学和工程工作负载而设计,例如计算流体动力学、天气建模、有限元分析、电子设计自动化和储层模拟。AWS PCS 旨在为垂直领域(如机械、能源、航空航天、电子、石油和天然气、天气和公共部门)的传统 HPC 客户提供支持,这些客户运行计算或数据密集型模拟以验证其模型和设计。

科学与工程建模和模拟以及高性能数据分析 (HPDA) 工作负载适合 AWS PCS。

您可以单击此处查看 AWS PCS SLA。

功能

AWS PCS 支持您使用 AWS PCS 所在地区的几乎所有可用的 EC2 实例类型。

如果您已制定节省计划,该计划将自动应用到 AWS PCS 在您的账户中启动的 EC2 实例中。如果您有一个或多个容量预留,则可以配置 AWS PCS 以通过 API 参数进行使用。
 

是的,您可以借助 PCS 运行使用 GPU、AWS Tranium 和 AWS Inferentia 实例类型的工作负载。

AWS PCS 支持 Amazon EFS、Amazon EBS、适用于 Lustre 的 Amazon FSx、适用于 NetApp ONTAP 的 Amazon FSx、适用于 OpenZFS 的 Amazon FSx、Amazon S3、适用于 Amazon S3 的 Mountpoint 和 Amazon File Cache。您也可以连接到自我管理的存储资源。 参阅文档

AWS PCS 支持各种具有高级联网选项的 EC2 实例,包括使用 EFA。该服务支持隔离子网、AWS PrivateLink 和 Amazon Virtual Private Cloud (Amazon VPC) 端点 

使用 AWS PCS,您可以创建计算和登录节点组,在单个可用区或多个可用区启动 EC2 实例。

支持,您可以配置您的 AWS PCS 计算节点组以使用 Microsoft Active Directory、Microsoft Entra ID 和 OpenLDAP 等目录服务。

符合。您可以从任何符合 AWS PCS AMI 规范的 AMI 开始并在其上安装 AWS PCS 客户端。您可以查阅相关文档了解 AWS PCS AMI 规范。我们还提供了一个 AMI 示例,您可以使用它来试用该项服务,如文档中所述。

AWS PCS 与 Amazon Linux 2、Ubuntu 22.04、Red Hat Enterprise Linux 9 (RHEL9) 和 Rocky Linux 9 兼容。

符合。您可以基于 Amazon Linux 2 和 Ubuntu 22.04 Deep Learning AMI(DLAMI)为 AWS PCS 构建自定义 AMI

能,AWS PCS 在集群和计算节点组级别上设置 AWS 标签,因此您可以按这些粒度跟踪 Amazon EC2 的历史支出。

能,您可以将本地节点作为 AWS PCS 集群中的登录节点,并让用户直接将作业提交到其 AWS PCS 集群,利用该集群在 AWS 上运行工作负载。AWS PCS 目前不支持 Slurm 联合调度或多集群操作。

CloudWatch 通过每隔一段时间从集群收集指标来监控 AWS PCS 集群的运行状况和性能。您可以访问历史数据,深入了解集群在一段时间内的性能。使用 CloudWatch,还可以监控 AWS PCS 启动的 EC2 实例,以满足您的扩展要求。

入门

要开始使用,请访问 AWS PCS 控制台。 要访问此服务,您必须拥有 AWS 账户。如果没有账户,系统将会提示您创建一个。登录后,访问 AWS PCS 文档页面,获取入门指南。