Amazon SageMaker HyperPod 客户

各种规模的顶级人工智能初创企业和组织都在 SageMaker HyperPod 上大规模训练和部署基础模型
  • Hugging Face

    Hugging Face 一直在使用 SageMaker HyperPod 创建重要的新型开放基础模型,例如 StarCoder、IDEFICS 和 Zephyr,这些模型的下载量已达数百万次。SageMaker HyperPod 专门构建的弹性和性能功能使我们的开放科学团队能够专注于创新和发布对基础模型构建方式的重要改进,而不是管理基础设施。我们特别喜欢 SageMaker HyperPod 的一点是,它能够检测 ML 硬件故障,并不中断正在进行的模型训练的情况下快速更换有故障的硬件。由于我们的团队需要快速创新,因此自动化作业恢复功能帮助我们最大限度地减少了基础模型训练过程中的中断,让我们在短短一年内节省了数百小时的训练时间。

    Hugging Face 的产品主管 Jeff Boudier
  • Perplexity AI

    我们一直在寻找合适的机器学习基础设施来提高生产力和降低成本,以便构建高性能的大型语言模型。在进行了几次成功的实验后,我们从其他云提供商转向 AWS,以便使用 Amazon SageMaker HyperPod。在过去的四个月里,我们一直在使用 HyperPod 构建和微调 LLM,为 Perplexity 对话式问答引擎 — 一个可以回答问题并以引文形式提供参考文献的引擎提供支持。由于 SageMaker HyperPod 会自动监控集群运行状况并修复 GPU 故障,因此我们的开发人员能够专注于模型构建,而不需要花时间管理和优化底层基础设施。SageMaker HyperPod 内置的数据和模型并行库帮助我们优化了 GPU 训练时间,并将训练吞吐量提高了一倍。因此,我们的训练实验现在可以以两倍的速度运行,这意味着我们的开发人员可以更快地进行迭代,从而加速为客户开发新的生成式人工智能体验。

    Perplexity AI 的联合创始人兼首席执行官 Aravind Srinivas
  • Articul8 AI

    Amazon SageMaker HyperPod 为我们提供了极大的帮助,让我们能够更高效地管理和运营计算资源,同时尽可能地减少停机时间。我们是基于 Slurm 的 HyperPod 服务的早期采用者,并受益于其易用性和弹性特性,使生产力提高了 35%,并快速扩大了我们的 GenAI 运营规模。作为一家以 Kubernetes 为核心的公司,我们很高兴地宣布,Amazon EKS 现已支持 SageMaker HyperPod。这对我们来说是一项颠覆性的技术,因为它与我们现有的训练流程无缝集成,使我们更容易管理和操作我们的大规模 Kubernetes 集群。此外,这也对我们的最终客户有帮助,因为我们现在能够将此功能打包并产品化到我们的 GenAI 平台中,使我们的客户能够以更简化的方式运行自己的训练和微调工作负载。

    Arun Subramaniyan,Articul8 AI 创始人兼首席执行官
  • Thomson Reuters

    阅读博客

    Thomson Reuters 是全球人工智能和内容驱动型技术公司。该公司一直在测试 Amazon SageMaker HyperPod 中的任务治理能力,旨在解决有关工作负载优先级方面的关键挑战。通过任务治理功能,他们可以在兼顾自己正在进行的模型开发项目的同时管理推理请求等客户工作负载,确保在不中断内部研究的情况下优先处理客户的紧急请求,从而提高资源利用率和客户满意度。

  • Thomson Reuters

    阅读博客

    “我们能够使用 Amazon SageMaker HyperPod 满足大型语言模型的训练要求。通过在 SageMaker HyperPod 上使用 Amazon EKS,我们能够扩展容量并轻松运行训练作业,从而在法律摘要和分类等领域发挥 LLM 的优势。”

    John Duprey,Thomson Reuters 实验室杰出工程师

    30 多年来,Thomson Reuters 一直站在人工智能开发的最前沿,我们致力于提供有意义的解决方案,帮助我们的客户更快地交付结果,更好地获取可信信息。为了加速我们在生成式人工智能方面的创新,除了与 LLM 提供商合作外,我们还在探索如何利用我们独特的专有内容和人类专业知识来更有效地训练定制模型。SageMaker HyperPod 的分布式训练库能帮助我们提高大规模模型训练的性能,而且它的弹性功能可以帮助我们节省在基础设施监控和管理上花费的时间。在 SageMaker HyperPod 上训练我们的基础模型将加快我们的上市速度,并帮助我们快速为客户提供优质的解决方案。

    Thomson Reuters 的人工智能和实验室负责人 Joel Hron
  • Thomson Reuters

    我们能够使用 Amazon SageMaker HyperPod 满足大型语言模型的训练要求。通过在 SageMaker HyperPod 上使用 Amazon EKS,我们能够纵向扩展容量并轻松运行训练作业,从而在法律摘要和分类等领域发挥 LLM 的优势。

    John Duprey,Thomson Reuters 实验室杰出工程师
  • Stability AI

    作为领先的开源生成式人工智能公司,我们的目标是最大限度地提高现代人工智能的可访问性。我们正在构建具有数百亿个参数的基础模型,而这需要能够扩展优化训练性能的基础设施。借助 SageMaker HyperPod 的托管基础设施和优化库,我们可以将训练时间和成本减少 50% 以上。它使我们的模型训练更具弹性和性能,可以更快地构建最先进的模型。

    Stability AI 的创始人兼首席执行官 Emad Mostaque
  • Observea

    作为一家快速发展的初创企业和人工智能研究公司,SageMaker HyperPod 对 Amazon EKS 的支持对于加快我们的产品上市起到了重要作用。借助 SageMaker Hyperpod,我们成功推出了一个稳定且安全的平台,提供容器化的高性能计算(HPC)应用程序,作为面向我们的最终客户的服务,这些最终客户包括顶尖大学的人工智能研究项目、人工智能初创企业和传统企业。通过使用 SageMaker HyperPod,我们的客户和内部团队不再需要为 Kubernetes 控制面板的操作和配置而担心,并且 SageMaker HyperPod 提供支持复杂 HPC 工作负载的网络性能和优化配置。借助 SageMaker HyperPod 中的 EKS 支持,我们可以减少在基础设施管理中进行千篇一律的繁重工作所花费的时间,并将运营成本降低 30% 以上。

    Vamsi Pandari,Observea 创始人
  • Recursal AI

    整个过程得到了简化。通过使用 SageMaker HyperPod,我们可以利用集群弹性功能,在硬件出现故障时识别问题并自动从上次保存的检查点恢复训练作业。我们以 Kubernetes 为共同主线运行非常多样化的工作负载,包括应用程序、推理和训练。对于我们来说,带有 SageMaker HyperPod 的 Amazon EKS 非常有效:节点会进入我们的集群。

    Recursal 的基础设施/数据主管 Nathan Wilce
  • Hippocratic AI

    Hippocratic AI 是一家人工智能公司,开发了医疗保健行业首个以安全为重点的大型语言模型(LLM)。为了训练主要的 LLM 和监管模型,Hippocratic AI 需要强大的计算资源。然而,这种资源的需求量本就很大,难以获得。Amazon SageMaker HyperPod 灵活的训练计划让该公司能够更轻松地访问 Amazon Elastic Compute Cloud(Amazon EC2)P5 实例。Hippocratic AI 还利用 Grafana 等 AWS 服务来跟踪重要的 GPU 利用率指标。使用 Amazon EC2 P5 实例后,Hippocratic AI 将模型训练速度提高了四倍,也将解决方案继续了扩展,足以顾及数百个用例。该实例帮助他们获得所需的计算资源并快速训练模型。

  • Articul8

    Amazon SageMaker HyperPod 任务治理功能有助于最大程度提高各个团队和项目的 GPU 利用率。作为一家快速成长的生成式人工智能初创企业,Articul8 AI 不断优化自己的计算环境,尽力高效地分配加速计算资源。借助 SageMaker HyperPod 中的自动任务优先级划分和资源分配功能,该公司显著提高了 GPU 利用率,更通过优化训练、微调和推理等任务,减少了空闲时间,加速了模型开发过程。自动将资源转移到高优先级任务的能力提高了该公司团队的生产力,让他们能够更快地将新的生成式人工智能创新技术推向市场,速度远超以往。

  • NinjaTech

     

    NinjaTech AI 是一家生成式人工智能公司,提供一体化的 SuperAgent 来实现无限的生产力。SuperAgent 使用 Amazon SageMaker HyperPod 灵活的训练计划来加速包括 Llama 3.1 405B 模型在内的多种内部模型的微调工作,降低了模型训练成本,也实现了流程自动化。该公司旨在为想要使用由其 SuperAgent 技术支持的各种人工智能座席的用户提供无缝体验。为了实现这一目标,他们需要一个能够自动预测用户意图并判断最适合意图的人工智能座席的模型。这种机制需要通过反复整合客户反馈和新功能来频繁更新模型,每轮 LoRA 微调时都涉及 1000 万至 1 亿个口令。对于一家初创企业来说,获取和运营高性能计算资源具有挑战性,因为它面临高昂的成本和严峻的带宽问题。在涉及快速网络和快速存储以及加速计算的多节点集群中,这种情况更加严重。此外,训练过程非常耗时,涉及了模型下载、分布式训练、检查点、监控、自动修复、合并和量化等步骤。HyperPod 灵活的训练计划在训练开展之前为该公司提供了可靠且实惠的计算资源,既满足了公司具体的计算和时间要求,又保障了高效的模型训练。

  • OpenBabylon

    OpenBabylon 是一家为代表性不足的语言自定义大型语言模型的人工智能公司。该公司的开发人员和数据科学家数月来一直在使用 SageMaker HyperPod 灵活的训练计划,简化了他们对 GPU 资源的访问,便于开展大规模实验。他们使用多节点 SageMaker HyperPod 的分布式训练功能,进行了 100 次大型模型训练实验,在英语到乌克兰语的翻译方面取得了领先结果。该公司按时且经济高效地实现了此项突破性成果,证明了 SageMaker HyperPod 能够按时、按预算成功交付复杂项目。

  • Salesforce

    Salesforce 的研究人员当时正在寻找无需担心基础设施,也不必耗费数周时间针对每个新模型优化训练堆栈,就能快速开始基础模型训练和微调的方法。借助 Amazon SageMaker HyperPod 配方,Salesforce 的研究人员可以在自定义基础模型时快速进行原型设计。现在,Salesforce 的人工智能研究团队能够在几分钟内通过各种预训练和微调配方开始工作,也能够以高性能运行前沿模型。

Amazon SageMaker HyperPod 合作伙伴

 

与拥有深厚技术知识和成熟客户成功经验的 AWS 合作伙伴一起推动创新并释放更大的商业价值

  • Accenture

    我们将扩大与 AWS 的合作,成为 Amazon SageMaker HyperPod 任务治理的启动合作伙伴。我们与 AWS 的合作将使我们能够引导客户实现最新的技术突破,同时帮助降低生成式人工智能应用的成本。通过将 SageMaker HyperPod 中的集中治理功能与我们在生成式人工智能项目中的经验相结合,我们可以帮助企业更快地实现生成式人工智能的价值,改善客户体验,并提高投资回报率。

    Accenture AWS Business Group 全球负责人兼高级董事总经理 Jennifer Jackson
  • Slalom

    我们很高兴能与 AWS 合作,成为 Amazon SageMaker HyperPod 任务治理的启动合作伙伴。通过与 AWS 合作,我们现在可以帮助客户快速采用最新的技术进步,并降低生成式人工智能应用的成本。通过将 SageMaker HyperPod 中的集中治理功能与 Slalom 广泛的人工智能和云体验相结合,我们可以提供卓越的客户体验,同时提高投资回报率。

    Slalom Amazon 卓越中心(CoE)董事总经理 Jeff Kempiners
  • Rackspace Technology

    我们很高兴能与 AWS 合作,成为 SageMaker HyperPod 任务治理的启动合作伙伴。通过合作,我们可以帮助客户降低生成式人工智能应用的成本,同时紧跟最新的技术进步。通过将 SageMaker HyperPod 的集中治理功能与 Rackspace 深厚的人工智能和云专业知识相结合,我们可以改变客户体验,同时提高客户的投资回报率。

    Rackspace Technology 人工智能、技术和可持续性总裁 Srini Koushik