本文档介绍了如何使用代理评估来衡量和改进代理的性能、安全性和质量。
如需详细了解模型评估,请参阅 Gen AI Evaluation Service 概览。
流程摘要
| 阶段 | 活动 | 目标 |
|---|---|---|
| 设计 | 定义评估案例 | 指定代理任务和预期结果。 |
| 执行 | 运行推理 | 生成真实或模拟的对话轨迹。 |
| 评分 | 计算指标 | 使用自动评分器(任务成功率、安全性)对轨迹进行评分。 |
| 优化 | 优化代理 | 提出并验证对指令或工具的改进建议。 |
评估流程
评估遵循结构化的迭代工作流:
- 定义评估案例:评估案例是一种规范,用于定义代理的任务。评估案例可以包含一个或多个对话步骤、对话上下文(代理的状态),以及在推理期间模拟用户响应的规范。
- 运行推理:推理 是指执行评估案例。如果评估案例包含对话计划,则在推理期间会模拟用户响应。
- 生成轨迹:每次推理运行都会在轨迹中捕获代理的行为 。轨迹 是代理行为的真实且不可变记录,包括模型输入、响应和工具调用。
- 计算指标:指标是使用 预构建或自定义评分器为每个轨迹计算的分数。某些指标(例如完全匹配)是 基于参考答案的,需要包含参考答案的评估案例。其他指标(例如实用性)是不基于参考答案的,会自行评估轨迹 。借助这种自动评估,您可以对从生产流量或外部日志捕获的轨迹进行评分,而无需使用受管测试环境。
- 进行分析:分析指标、评分准则和判决,以找出关键代理问题,将代理问题与测试用例关联,并生成改进分析洞见。
- 优化代理:使用优化来管理整个 评估周期。此自动化流程会分析结果,提出对代理的改进建议,并以迭代方式重新运行该流程以验证性能提升。
评估工作流
您可以将评估集成到工作流的两个主要阶段:
- 本地开发迭代:在本地评估基于智能体开发套件 (ADK) 的智能体,以快速迭代提示工程和工具配置。
- 已部署代理评估:通过 分析历史轨迹或针对代理 端点运行合成基准测试来衡量已部署代理的质量。
核心功能
即使没有现有测试数据,代理评估也能帮助您构建初始评估套件。以下功能有助于自动生成测试用例和优化代理系统:
场景生成和用户模拟:根据代理的 指令和工具定义,自动生成 多样化的多轮合成测试场景。借助此自动化功能,您可以立即开始测试,而无需手动编写初始测试用例。
环境模拟:拦截特定的工具调用,以注入 自定义行为、模拟数据或模拟错误(例如 HTTP 503 错误或延迟峰值)。借助此模拟功能,您可以在不影响生产后端的情况下验证代理的弹性。
多轮评估:使用多轮自动评分器自动评估整个对话 历史记录。这些评分器会分析意图提取,动态生成评分准则,并提供客观的验证判决,以帮助确保指令遵循情况。
提示优化:通过使用提示优化,以编程方式生成和验证优化的 系统指令。优化框架会找出故障点,并以迭代方式提出有针对性的更新。