Amazon Bedrock 防护机制
实施根据您的应用程序要求和负责任的人工智能政策定制的保障措施使用 Amazon Bedrock 防护机制构建负责任的人工智能应用程序
除基础模型的原生保护之外,Amazon Bedrock 防护机制还提供额外的可定制保护措施,从而提供业内最佳的安全保护,包括:
- 阻止高达 85% 的有害内容
- 过滤超过 75% 的 RAG 和汇总工作负载幻觉响应
- 支持客户在单个解决方案中自定义和应用安全性、隐私和真实性保护措施
为您的所有应用程序提供一致的 AI 安全级别
Amazon Bedrock 护栏可根据特定使用案例的策略,帮助评估用户输入和 FM 响应,无论底层 FM 如何,均提供额外的保障措施。 Amazon Bedrock 护栏是唯一一个由大型云提供商提供的负责任的人工智能功能,它能帮助客户在单个解决方案中,为自己的生成式人工智能应用程序构建和自定义安全、隐私和真实性保护措施,并兼容 Amazon Bedrock 中的所有大型语言模型(LLM)以及经过微调的模型。 客户可以创建多个防护机制,每个防护机制均配置不同的控件组合,并可以在不同的应用程序和应用场景中使用这些防护机制。 Amazon Bedrock 防护机制还可以与 Amazon Bedrock 代理和 Amazon Bedrock 知识库集成,以构建符合您负责任的人工智能策略的生成式人工智能应用程序。此外,Amazon Bedrock 护栏还提供 ApplyGuardrail API,帮助评估用户输入以及由非 Bedrock 内的任何自定义 FM 或第三方 FM 生成的模型响应。
在生成式人工智能应用程序中屏蔽不良话题
组织认识到需要管理生成式人工智能应用程序中的交互,以提供有针对性及安全的用户体验。他们希望进一步自定义交互,继续关注与业务相关的话题,并与公司政策保持一致。Amazon Bedrock 护栏有助于通过简短的自然语言描述在应用程序的上下文中定义一组要避免的主题。 Amazon Bedrock 护栏有助于检测和屏蔽属于受限主题的用户输入和 FM 响应。例如,银行助理可以设计成避开与投资建议相关的话题。
根据您的负责任的 AI 策略筛除有害内容
Amazon Bedrock 防护机制提供带有可配置阈值的内容筛除条件,用于筛除仇恨、侮辱、性、暴力、不当行为(包括犯罪活动)和防护提示攻击(即提示注入和越狱)等有害内容。大多数 FM 已经提供了内置保护措施,以防止产生有害响应。除这些保护措施外,Amazon Bedrock 防护机制还允许您配置不同内容类别的阈值,以筛除有害的交互。增加过滤器的强度会增加筛除的严苛度。它们会自动评估用户输入和模型响应,以检测并帮助阻止属于受限类别的内容。例如,电子商务网站可以设计其在线助手,以避免使用仇恨言论或侮辱等不当语言。
编辑敏感信息(PII)以保护隐私
Amazon Bedrock 护栏可帮助您检测用户输入和 FM 响应中的敏感内容,比如个人身份信息(PII)。您可以从预定义的 PII 列表中进行选择,也可以使用正则表达式(regex)定义敏感信息类型。根据使用案例,您可以选择性地拒绝包含敏感信息的输入或编辑 FM 响应中的敏感信息。例如,在呼叫中心根据客户和座席的对话记录生成摘要时,您可以编辑用户的个人信息。
使用自定义词汇过滤器屏蔽不当内容
Amazon Bedrock 护栏有助于配置一组自定义词汇或短语,以便在用户与生成式人工智能应用程序的交互中对其进行检测和屏蔽。这也将有助于检测和屏蔽亵渎内容,以及特定的自定义词汇,例如竞争对手的名字或其他令人反感的词汇。
使用情境化基础检查检测模型响应中的幻觉
组织需要部署真实可信的生成式人工智能应用程序,以保持和增加用户的信任。但是,使用基础模型构建的应用程序可能会由于幻觉而生成不正确的信息。例如,基础模型可能生成偏离源信息的响应、合并多条信息或创造新信息。Amazon Bedrock 护栏支持情境化基础检查:如果源信息中的响应不合理(例如事实上不准确或新信息)以及与用户查询或指令无关,则可以帮助检测和筛除幻觉。情境化基础检查有助于检测 RAG、摘要和对话应用程序的幻觉,其中源信息可用作验证模型响应的参考。
找到今天要查找的内容了吗?
请提供您的意见,以便帮助我们提高网站内容的质量。