AWS Trainium 客户

了解客户如何使用 AWS Trainium 构建、训练和微调深度学习模型。
  • Anthropic

    Anthropic 每天都有数百万人依靠 Claude 完成工作。我们宣布与 AWS 合作取得两项重大进展:首先是 Claude 3.5 Haiku 的新“延迟优化模式”,通过 Amazon Bedrock 在 Trainium2 上的运行速度提高了 60%。其次是 Rainier 项目,这是由数十万个 Trainium2 芯片组成的新集群,可提供数百个百亿亿次运算,是我们以前集群规模的五倍多。Rainier 项目将帮助推动我们的研究和下一代规模扩展。对于我们的客户而言,这意味着更智能、更低价和更快速。我们不仅要构建更快的人工智能,还要构建可扩展的可信赖人工智能。

    Anthropic 首席计算官 Tom Brown
  • Databricks

    借助 Databricks 的 Mosaic AI,组织能够构建和部署高质量的代理系统。它原生建立在数据湖仓之上,让客户能够轻松安全地使用企业数据自定义模型,并提供更准确的输出和特定领域的输出。得益于 Trainium 的高性能和经济高效,客户能够以低成本在 Mosaic AI 上扩展模型训练。随着全球所有客户群对 Mosaic AI 的需求不断扩大,Trainium2 的可用性将为 Databricks 及其客户带来重大益处。Databricks 是全球最大的数据和人工智能公司之一,其计划使用 TRN2 为其客户交付更好的结果,并将总拥有成本降低多达 30%。

    Databricks 生成式人工智能副总裁 Naveen Rao
  • poolside

    在 poolside,我们将建立由人工智能推动大多数具有经济价值的工作和科学进步的世界。我们相信,软件开发将是神经网络中第一个达到人类级智能的主要能力,因为在这个领域,我们可以完美结合搜索和学习方法。为实现这一点,我们正在构建基础模型、API 和助手,助力开发人员手动(或通过键盘)释放生成式人工智能的强大力量。启用这项技术的主要关键是我们用于构建和运行产品的基础设施。借助 AWS Trainium2,我们的客户将能够以与其他人工智能加速器不同的性价比扩展 poolside 的使用。此外,我们计划使用 Trainium2 UltraServers 训练未来的模型,与 EC2 P5 实例相比,预计可节省 40% 的成本。

    poolside 首席技术官兼联合创始人 Eiso Kant
  • Itaú Unibanco

    Itaü Unibanco 的目的是改善人与金钱的关系,对人们的生活产生积极影响,同时扩大转型机会。Itaü Unibanco 相信每位客户都是独一无二的,我们力争通过直观的数字化旅程满足客户的需求,利用人工智能的强大力量不断适应消费者习惯。

    我们已在各种任务中测试过 AWS Trainium 和 Inferentia,从标准推理到微调应用程序,不一而足。借助这些人工智能芯片的性能,我们得以在研发中实现重要的里程碑。对于批量和在线推理任务,与 GPU 相比,我们的吞吐量提高了 7 倍。性能的提升推动了更多使用案例在整个组织中的扩展。最新一代的 Trainium2 芯片为 GenAI 带来突破性的功能,为 Itau 的创新打开了大门。

    Itaü Unibanco 数据科学主管 Vitor Azeka
  • NinjaTech AI

    Ninja 是一款一体化人工智能代理,可提供无限的生产力:只需一次订阅,即可无限访问全世界优质的人工智能模型以及顶级人工智能技能,如写作、编码、头脑风暴、图像生成、在线研究。Ninja 是代理平台,提供“SuperAgent”服务,该服务使用代理混合,具有世界一流的准确性,可与前沿基础模型相媲美(在某些类别中甚至更胜一筹)。Ninja 的代理技术需要最高性能的加速器,以提供客户期望的独特实时体验。 

    AWS TRN2 的推出让我们兴奋不已,因为我们相信,它将为基于 Llama 3.1 405B 的核心模型 Ninja LLM 提供最佳的单位令牌成本性能和目前可能的最快速度。Trn2 的低延迟、极具竞争力的价格和按需可用性令人惊叹;我们对 Trn2 的到来感到无比兴奋!

    NinjaTech AI 创始人兼首席执行官 Babak Pahlavan
  • Ricoh

    RICOH 机器学习团队开发工作场所解决方案和数字化转型服务,旨在管理和优化企业解决方案中的信息流。

    迁移到 Trn1 实例简单又快捷。我们利用由 4096 个 Trainium 芯片组成的集群,仅用 8 天时间就可完成 130 亿参数 LLM 的预训练! 在我们的小型模型取得成功后,我们基于 Llama-3-Swallow-70B 对更大的新 LLM 进行微调,与使用 AWS 中最新的 GPU 计算机相比,利用 Trainium,我们的训练成本得以降低 50%,能效提高 25%。我们很高兴能利用最新一代 AWS AI 芯片 Trainium2,继续以最低成本为客户提供最佳性能。

    Ricoh 数字技术开发中心主任 Yoshiaki Umetsu
  • Arcee AI

    Arcee AI 提供企业级生成式人工智能平台 Arcee Orchestra,该平台由我们行业领先的小语言模型(SLM)提供支持。Arcee Orchestra 可帮助客户轻松构建代理式人工智能工作流,自动将任务路由到专门的 SLM,以提供详细、可信的响应,且数据无需离开其 VPC。使用 AWS Trainium 和 Inferentia 实例,我们能够为客户提供无与伦比的性价比。例如,在使用基于 Inferentia2 的实例时,与次优的基于 GPU 的实例相比,我们的 SuperNova-Lite 80 亿参数模型可在不影响性能的前提下,将推理工作负载的成本效益提高 32%。我们很高兴能利用最新一代 AWS AI 芯片 Trainium2,继续以最低成本为客户提供最佳性能。

    Arcee AI 首席宣传官 Julien Simon
  • PyTorch

    我最喜欢 AWS Neuron NxD Inference 库的一点是它与 PyTorch 模型的无缝集成。NxD 的方法简单快捷,且对用户友好。我们的团队能够在很短的时间内以最小的代码改动上线 HuggingFace PyTorch 模型。启用连续批处理和推测解码等高级功能非常简单。这种易用性可提高开发人员的工作效率,让团队能够将更多精力放在创新上,减少对集成挑战的关注。

    Meta PyTorch 合作伙伴工程主管 Hamid Shojanazeri
  • Refact.ai

    Refact.ai 提供全面的人工智能工具,例如由检索增强生成(RAG)驱动的代码自动完成,以提供更准确的建议,以及使用专有和开源模型的上下文感知聊天。

    与 EC2 G5 实例相比,客户发现 EC2 Inf2 实例的性能可提高多达 20%,每美元令牌数可提升 1.5 倍。Refact.ai 的微调功能可进一步增强客户了解和适应组织独特代码库和环境的能力。我们也很高兴提供 Trainium2 的功能,这将为我们的工作流程带来更快、更高效的处理能力。这项先进的技术将帮助我们的客户提高开发人员的工作效率,同时保持代码库的严格安全标准,从而加快软件开发流程。

    Refact.ai 首席执行官兼创始人 Oleg Klimov
  • Karakuri Inc.

    KARAKURI 构建人工智能工具,以提高基于 Web 的客户支持效率并简化客户体验。这些工具包括配备生成式人工智能功能的人工智能聊天机器人、常见问题解答集中工具和电子邮件回复工具,所有这些都可以提高客户支持的效率和质量。利用 AWS Trainium,我们成功地训练了 KARAKURI LM 8x7B Chat v0.1。对我们这样的初创企业而言,我们需要优化构建时间以及训练 LLM 所需的成本。在 AWS Trainium 和 AWS 团队的支持下,我们能够在短时间内开发出实用级 LLM。此外,通过采用 AWS Inferentia,我们得以构建快速且经济高效的推理服务。我们对 Trainium2 充满信心,因为它将彻底改变我们的训练流程,将我们的训练时间缩短 2 倍,并将效率提升到新的高度!

    Karakuri Inc 联合创始人 Tomofumi Nakayama
  • ELYZA

    ELYZA 是一家开发大型语言模型(LLM)、支持公司使用生成式人工智能并提供人工智能 SaaS 的 GenAI 公司。借助 Amazon 的 inferentia2 加速器,我们能够实现高吞吐量和低延迟,同时显著降低成本,这对于构建 LLM 演示服务至关重要。通过将这一基础设施与推测解码技术相结合,我们成功地将原有推理速度提高了一倍。与 Inferentia2 相比,Trainium2 的推理能力有了惊人的提升,这显示出了巨大的前景,我们迫不及待地想看看它将如何推动我们的工作取得变革性成果。

    ELYZA 首席技术官 Kota Kakiuchi
  • Stockmark Inc.

    Stockmark 以“重塑价值创造机制,推动人类进步”为使命,通过提供前沿的自然语言处理技术,帮助众多企业创建和打造创新业务。Stockmark 的新数据分析和收集服务 Anews and SAT 是一项数据结构服务,通过组织存储在组织中的各种形式的信息,显著提高生成式人工智能的使用,它要求我们重新思考如何构建和部署模型,以支持这些产品。借助 256 个 Trainium 加速器,我们开发并发布了 stockmark-13b,这是一个具有 130 亿个参数的大型语言模型,在包含 2200 亿个令牌的日语语料库数据集上从头开始进行了预训练。Trn1 实例帮助我们将训练成本降低了 20%。利用 Trainium,我们成功开发出了一款 LLM,能够以前所未有的准确性和速度为专业人士解答关键业务问题。鉴于各公司在确保模型开发所需的充足计算资源方面普遍面临挑战,这一成就尤其值得一提。在见识过 Trn1 实例的惊人速度和成本降低后,我们很期待看到 Trainium2 将为我们的工作流程和客户带来的更多益处。

    Stockmark Inc. 首席技术官兼联合创始人 Kosuke Arima
  • Brave

    Brave 是一款独立的浏览器和搜索引擎,致力于将用户隐私和安全置于优先地位。我们拥有 7000 多万用户,提供行业领先的保护措施,让 Web 更安全、更方便用户使用。与其他放弃以用户为中心的平台不同,Brave 始终致力于将隐私、安全和便利性放在首位。主要功能包括拦截有害脚本和跟踪器、由 LLM 提供支持的人工智能辅助页面摘要、内置 VPN 服务等。我们不断努力提高搜索服务和人工智能模型的速度和成本效益。为了支持这一点,我们很高兴能够利用包括 Trainium2 在内的 AWS AI 芯片的最新功能以改善用户体验,因为我们可以扩展到每月处理数十亿个搜索查询。

    Brave Software 工程副总裁 Subu Sathyanarayana
  • Anyscale

    Anyscale 是研发 Ray 的公司,Ray 是一款人工智能计算引擎,可为企业的机器学习和生成式人工智能计划提供动力。借助由 RayTurbo 驱动的 Anyscale 统一人工智能平台,通过优化资源利用率,客户可将数据处理速度提高多达 4.5 倍,使用 LLM 进行批量推理的成本降低 10 倍,扩展速度加快 5 倍,迭代速度加快 12 倍,在线模型推理可节省 50% 的成本。

    Anyscale 致力于为企业提供最佳工具,使其能够高效、低成本地扩展人工智能工作负载。我们的 RayTurbo 运行时原生支持 AWS Trainium 和 Inferentia 芯片,因此我们的客户可以获得高性能、低成本的模型训练和服务选择。现在,我们很高兴能与 AWS 合作开发 Trainium2,为我们的客户带来快速创新的新机遇,并大规模提供高性能的变革性人工智能体验。

    Anyscale 联合创始人 Robert Nishihara
  • Datadog

    Datadog 是云应用程序的可观测性和安全平台,为客户提供 AWS Trainium 和 Inferentia 监控,以优化模型性能、提高效率和降低成本。Datadog 的集成提供对机器学习操作和底层芯片性能的全面可见性,从而能够主动解决问题和无缝扩展基础设施。我们很高兴能扩展与 AWS 的合作关系,推出 AWS Trainium2,帮助用户削减高达 50% 的人工智能基础设施成本,并提高模型训练和部署性能。

    Datadog 公司产品副总裁 Yrieix Garnier
  • Hugging Face

    Hugging Face 是面向人工智能构建者的领先开放平台,在 500 多万研究人员、数据科学家、机器学习工程师和软件开发人员组成的社区中共享 200 多万个模型、数据集和人工智能应用程序。在过去几年中,我们一直与 AWS 合作,通过 Optimum Neuron 开源库让开发人员更轻松地体验 AWS Inferentia 和 Trainium 在性能和成本效益方面的优势,这些开源库集成在 Hugging Face 推理端点中,现在又在我们新的 HUGS 自部署服务中进行了优化,可在 AWS Marketplace 上使用。随着 Trainium2 的推出,我们的用户将获得更高的性能,从而更快地开发和部署模型。

    Hugging Face 产品主管 Jeff Boudier
  • Lightning AI

    作为 PyTorch Lightning 和 Lightning Studios 的创建者,Lightning AI 为企业级人工智能提供最直观的一体化人工智能开发平台。Lightning 提供全代码、低代码和无代码工具,用于快速构建代理、人工智能应用程序和生成式人工智能解决方案,犹如闪电一般。该平台设计灵活,可利用超过 300 万开发人员社区的专业知识和支持,在您的云端或我们的云端无缝运行。

    Lightning 现在原生支持 AWS 人工智能芯片、Trainium 和 Inferentia,这些都集成在 Lightning Studios 以及 PyTorch Lightning、Fabric 和 LitServe 等开源工具中。这让用户能够无缝进行大规模预训练、微调和部署,以零切换开销优化成本、可用性和性能,并提高 AWS AI 芯片(包括最新一代 Trainium2 芯片)的性能和成本优势,从而以更低的成本提供更高的性能。

    Lightning AI 首席技术官 Luca Antiga
  • Domino Data Lab

    借助 Domino 的统一人工智能平台,企业数据科学团队能够大规模构建和运营人工智能。领先企业能够在技术复杂性、成本和治理之间取得平衡,掌握广泛的人工智能创新选择。通过 AWS Trainium 和 Inferentia,我们为客户提供不折不扣的高性能和高效率。随着 AWS Trainium2 的推出,我们的客户能够以更高的性能和更低的成本训练和部署模型。Domino 对 AWS Trainium2 的支持为我们的客户提供了更多的选择,使他们能够以更低的成本和更节省资源的方式训练和部署模型。

    Domino 数据实验室首席执行官兼联合创始人 Nick Elprin
  • Helixon

    在 HeliXon,我们为基于蛋白质的疗法构建了下一代 AI 解决方案。我们的目标是开发人工智能工具,使科学家能够破译蛋白质功能和相互作用,查询大规模基因组数据集以识别目标,并设计抗体和细胞疗法等疗法。今天,我们使用像 FSDP 这样的训练分发库在许多基于 GPU 的服务器上并行化模型训练,但这仍然需要我们花费数周时间来训练一个模型。我们很高兴能够利用 Amazon EC2 Trn1 实例,它具有 AWS 中可用的最高网络带宽(800 Gbps),可提高我们分布式训练作业的性能并减少我们的模型训练时间,同时降低我们的训练成本。

    Helixon 首席执行官 Jian Peng
  • Money Forward, Inc.

    Money Forward, Inc. 为企业和个人提供开放和公平的金融平台。

    我们在 Amazon EC2 Inf1 实例上推出了大规模 AI 聊天机器人服务,与基于 GPU 的同类实例相比,我们的推理延迟降低了 97%,同时还降低了成本。由于我们会定期对定制的 NLP 模型进行微调,因此减少模型训练时间和成本也很重要。根据我们在 Inf1 实例上成功迁移推理工作负载的经验以及我们在基于 AWS Trainium 的 EC2 Trn1 实例上的初步工作,我们预计 Trn1 实例将在提高端到端 ML 性能和成本方面提供额外价值。

    Money Forward, Inc. 首席技术官 Takuya Nakade
  • Magic

    Magic 是一家综合产品和研究公司,开发如同事一般的 AI,让世界变得更有效率。

    训练基于 Transformer 的大型自回归模型是我们工作的重要组成部分。AWS Trainium 支持的 Trn1 实例专为这些工作负载而设计,提供近乎无限的可扩展性、快速的节点间网络以及对 16 位和 8 位数据类型的高级支持。Trn1 实例将帮助我们以更低的成本更快地训练大型模型。Trainium 中对 BF16 随机舍入的原生支持让我们感到十分兴奋,它提高了性能,同时数值准确度与全精度没有区别。

    Magic 联合创始人兼首席执行官 Eric Steinberger
  • CACTUS LABS

    CACTUS 为研究人员和组织提供了一套产品和解决方案,以改善研究的资助、出版、交流和发现方式。

    在 Cactus Labs,我们利用 AI 的力量,重点研究自然语言处理、排名和推荐、对话式 AI、大型语言模型、计算机视觉、AR/VR 和 XAI。为了实现更快地训练机器学习模型以及使我们的研究人员能够在管理基础设施成本的同时进行更多实验,我们很高兴评估 AWS Trainium。AWS Trainium 的开箱即用功能,例如 XLA 优化、多工作人员数据并行训练和图形缓存,对我们减少训练时间非常有用,并且可以帮助我们更快、更便宜地运行更多实验。

    Cactus Communication 首席技术官兼新兴产品负责人 Nishchay Shah
  • Watashiha

    Watashiha 提供了一种创新的交互式 AI 聊天机器人服务 “OGIRI AI”,它融入了幽默感,可以当场为问题提供有趣的答案。

    我们使用大语言模型来增添幽默感,并在我们的 AI 服务上为客户提供更具相关性的对话式体验。这要求我们经常对这些模型进行预先训练和微调。我们利用张量和数据并行性在 EC2 Trn1.32xlarge 实例上预先训练了基于 GPT 的日语模型。训练在 28 天内完成,与之前基于 GPU 的基础设施相比,成本降低了 33%。随着我们模型的复杂性不断快速增长,我们期待使用网络带宽是 Trn1 两倍的 Trn1n 实例来加快较大模型的训练速度。

    Yohei Kobashi,Watashiha, K.K. 首席技术官
  • Amazon

    Amazon 的产品搜索引擎为数十亿种产品编制了索引,每天处理数十亿次客户查询,是世界上使用最频繁的服务之一。

    我们正在训练多模式(文本 + 图像)、多语言、多语言环境、针对多个任务进行预训练并跨越多个实体(产品、查询、品牌、评论等)的大型语言模型(LLM),以改善客户的购物体验。与其他加速机器学习解决方案相比,Trn1 实例提供了一种更可持续的方式来训练 LLM,它提供了最佳的性能功耗比,并以最低的成本为我们提供了高性能。我们计划探索新的可配置 FP8 数据类型和硬件加速随机舍入,以进一步提高我们的训练效率和开发速度。

    Trishul Chilimbi,Amazon Search 副总裁