Amazon Bedrock 评估
评估基础模型,包括自定义和导入的模型,找到契合自己需求的模型。您还可以在 Amazon Bedrock 知识库中评估您的检索或端到端 RAG 工作流程。概览
Amazon Bedrock 提供一系列评测工具来帮助您加速采用生成式人工智能应用程序。您可以使用模型评测功能,评测、比较并为您的用例选择基础模型。通过评测检索或检索和生成函数,确保基于 Amazon Bedrock 知识库构建的 RAG 应用程序做好投产准备。
评测类型
在 Amazon Bedrock 知识库中评测端到端 RAG 工作流程
使用检索和生成评测功能,评测应用程序的端到端检索增强生成(RAG)能力。确保生成的内容正确、完整、限制幻觉且符合负责任的人工智能原则。只需为 Amazon Bedrock 知识库选择一个内容生成模型,以及选择一个 LLM 作为评判者,然后上传您的自定义提示数据集,并选择最重要的评测指标即可。
确保 Amazon Bedrock 知识库检索完整且相关
使用 Amazon Bedrock 知识库评测中的检索评测功能,评测 Amazon Bedrock 知识库的存储和检索设置。确保检索到的内容相关且涵盖整个用户查询。只需选择一个知识库,以及选择一个 LLM 作为评判者,然后上传您的自定义提示数据集,并选择最重要的评测指标即可。
评估基础模型 (FM) 以选择最适合您的使用案例的版本
Amazon Bedrock 模型评测让您可以通过自动和人工评测来为特定用例选择基础模型。自动(程序化)模型评测使用精选的自定义数据集,并提供准确性、鲁棒性和毒性等预定义指标。对于主观指标,只需使用 Amazon Bedrock 执行几个简单的步骤即可设置人工评估工作流。通过人工评估,您可以引入自己的数据集并定义自定义指标,例如相关性、风格和与品牌声音的一致性。在人工评测工作流中,您既可以使用自己的员工作为评审员,也可以聘请 AWS 管理的团队来执行人工评测,对于后一种情况,AWS 将代表您雇用熟练的评测员和管理整个工作流。您还可以通过 LLM-as-a-Judge,使用正确性、完整性、忠实度(幻觉)等指标以及拒绝回答和答案有害等与负责任的人工智能有关的指标,对数据集进行高质量的评测。
比较多个评测任务的结果,更快地做出决策
使用评测中的比较功能,查看在您对提示、被评测的模型或 RAG 系统中的知识库做出任何更改后,结果有何不同。