Amazon Bedrock 评估

评估基础模型,包括自定义和导入的模型,找到契合自己需求的模型。您还可以在 Amazon Bedrock 知识库中评估您的检索或端到端 RAG 工作流程。

概览

Amazon Bedrock 提供一系列评测工具来帮助您加速采用生成式人工智能应用程序。您可以使用模型评测功能,评测、比较并为您的用例选择基础模型。通过评测检索或检索和生成函数,确保基于 Amazon Bedrock 知识库构建的 RAG 应用程序做好投产准备。

用户界面截图

评测类型

基于正确性、完整性和危害性等指标,使用您自定义的提示数据集通过 LLM as a Judge 评测模型输出。

使用内置提示数据集或自带数据集,基于传统自然语言算法和各种指标(如 BERT Score、F1 以及其他精确匹配技术)评测模型输出。

使用您自己的员工评测模型输出,或者让 AWS 来管理您使用内置或自定义指标对自定义提示数据集响应展开的评测。

使用您自定义的提示和指标(例如上下文相关性和上下文覆盖率)评测 Amazon Bedrock 知识库的检索质量。

使用您自定义的提示和指标(例如可靠性、正确性和完整性),评测 Amazon Bedrock 知识库端到端 RAG 工作流程生成的内容。

在 Amazon Bedrock 知识库中评测端到端 RAG 工作流程

使用检索和生成评测功能,评测应用程序的端到端检索增强生成(RAG)能力。确保生成的内容正确、完整、限制幻觉且符合负责任的人工智能原则。只需为 Amazon Bedrock 知识库选择一个内容生成模型,以及选择一个 LLM 作为评判者,然后上传您的自定义提示数据集,并选择最重要的评测指标即可。

用户界面截图

确保 Amazon Bedrock 知识库检索完整且相关

使用 Amazon Bedrock 知识库评测中的检索评测功能,评测 Amazon Bedrock 知识库的存储和检索设置。确保检索到的内容相关且涵盖整个用户查询。只需选择一个知识库,以及选择一个 LLM 作为评判者,然后上传您的自定义提示数据集,并选择最重要的评测指标即可。

用户界面截图

评估基础模型 (FM) 以选择最适合您的使用案例的版本

Amazon Bedrock 模型评测让您可以通过自动和人工评测来为特定用例选择基础模型。自动(程序化)模型评测使用精选的自定义数据集,并提供准确性、鲁棒性和毒性等预定义指标。对于主观指标,只需使用 Amazon Bedrock 执行几个简单的步骤即可设置人工评估工作流。通过人工评估,您可以引入自己的数据集并定义自定义指标,例如相关性、风格和与品牌声音的一致性。在人工评测工作流中,您既可以使用自己的员工作为评审员,也可以聘请 AWS 管理的团队来执行人工评测,对于后一种情况,AWS 将代表您雇用熟练的评测员和管理整个工作流。您还可以通过 LLM-as-a-Judge,使用正确性、完整性、忠实度(幻觉)等指标以及拒绝回答和答案有害等与负责任的人工智能有关的指标,对数据集进行高质量的评测。

用户界面截图

比较多个评测任务的结果,更快地做出决策

使用评测中的比较功能,查看在您对提示、被评测的模型或 RAG 系统中的知识库做出任何更改后,结果有何不同。

用户界面截图