概览
NVIDIA NIM 推理微服务与 AWS 托管服务 [例如 Amazon Elastic Compute Cloud(Amazon EC2)、Amazon Elastic Kubernetes Service(Amazon EKS)和 Amazon SageMaker] 紧密集成,支持大规模部署生成式人工智能模型。NVIDIA NIM 是 AWS Marketplace 中提供的 NVIDIA AI Enterprise 的一部分,是一组易于使用的微服务,旨在加速生成式人工智能的部署。这些预构建的容器支持广泛的生成式人工智能模型,从开源社区模型到 NVIDIA AI Foundation 和自定义模型。NIM 微服务通过单个命令部署,使用行业标准 API 和几行代码即可轻松集成到生成式人工智能应用程序中。NIM 旨在促进大规模无缝生成式人工智能推理,确保生成式人工智能应用程序可以在任何地方部署。
优势
性能
作为 NVIDIA AI Enterprise 软件套件的一部分,NIM 经过详尽的调校,可确保每个模型的高性能配置。通过使用 NIM,可显著改善吞吐量和延迟。例如,与最佳开源替代方案相比,NVIDIA Llama 3.1 8B Instruct NIM 的吞吐量提高了 2.5 倍,首个令牌生成时间(TTFT)缩短了 4 倍,令牌间延迟(ITL)加快了 2.2 倍。
统计数据
开启 NIM 时 Llama 3.1 8B Instruct 上的 TTFT 速度比关闭 NIM 时更快
开启 NIM 时 Llama 3.1 8B Instruct 上的 ITL 速度比关闭 NIM 时更快
功能
预先构建的容器
NIM 提供各种预先构建的容器和 Helm 图表,其中包括经过优化的生成式人工智能模型。NIM 与 Amazon EKS 无缝集成,提供高性能且经过成本优化的服务基础设施模型。
标准化 API
通过用于在 AWS 上构建强大的助手、聊天机器人和生成式人工智能助手的行业标准 API,简化基于生成式人工智能的应用程序的开发、部署和扩展。这些 API 与标准部署流程兼容,这意味着团队可以快速轻松地更新应用程序。
模型支持
部署针对特定行业或使用案例进行微调的自定义生成式人工智能模型。NIM 支持多个领域的生成式人工智能使用案例,包括 LLM、视觉语言模型(VLM)以及语音、图像、视频、3D、药物研发、医学成像等模型。
适用于特定领域
NIM 包括适用于特定领域的 NVIDIA CUDA 库和专用代码,涵盖语音、语言和视频处理等领域。
推理引擎
使用 Triton Inference Server、TensorRT、TensorRT-LLM 和 PyTorch NIM 进行优化,可最大限度地提高吞吐量并降低延迟,从而降低扩展推理工作负载时的运行成本。
如何开始使用 AWS 上的 NVIDIA NIM
使用在 AWS 上运行的 NVIDIA AI Enterprise 部署生产级 NIM 微服务
快速简便的生成式人工智能部署
首先,用户可以使用 NVIDIA API 目录(网址:ai.nvidia.com)中的加速生成式人工智能模型,在 AWS 上设置优化的推理工作负载。当准备好部署时,组织可以使用 NVIDIA NIM 自托管模型并在 AWS 上安全地运行它们,从而让他们拥有自己的定制所有权并完全控制他们的知识产权(IP)和生成式人工智能应用程序。
客户可以从 AWS Marketplace 购买 NVIDIA AI Enterprise 许可证,然后前往 NVIDIA NGC 访问 NIM 目录、下载容器并将其带到 AWS。使用 AWS Batch、AWS ParallelCluster、适用于 Lustre 的 Amazon FSx 和 Amazon Simple Storage Service(Amazon S3)在 Amazon Elastic Compute Cloud(Amazon EC2)、Amazon EKS 和 Amazon SageMaker 上部署 NIM。