智能体评估

本文档介绍了如何使用代理评估来衡量和改进代理的性能、安全性和质量。

如需详细了解模型评估,请参阅 Gen AI Evaluation Service 概览

流程摘要

阶段 活动 目标
设计 定义评估案例 指定代理任务和预期结果。
执行 运行推理 生成真实或模拟的对话轨迹。
评分 计算指标 使用自动评分器(任务成功率、安全性)对轨迹进行评分。
优化 优化代理 提出并验证对指令或工具的改进建议。

评估流程

评估遵循结构化的迭代工作流:

  1. 定义评估案例评估案例是一种规范,用于定义代理的任务。评估案例可以包含一个或多个对话步骤、对话上下文(代理的状态),以及在推理期间模拟用户响应的规范。
  2. 运行推理推理 是指执行评估案例。如果评估案例包含对话计划,则在推理期间会模拟用户响应。
  3. 生成轨迹:每次推理运行都会在轨迹中捕获代理的行为 。轨迹 是代理行为的真实且不可变记录,包括模型输入、响应和工具调用。
  4. 计算指标指标是使用 预构建或自定义评分器为每个轨迹计算的分数。某些指标(例如完全匹配)是 基于参考答案的,需要包含参考答案的评估案例。其他指标(例如实用性)是不基于参考答案的,会自行评估轨迹 。借助这种自动评估,您可以对从生产流量或外部日志捕获的轨迹进行评分,而无需使用受管测试环境。
  5. 进行分析:分析指标、评分准则和判决,以找出关键代理问题,将代理问题与测试用例关联,并生成改进分析洞见。
  6. 优化代理:使用优化来管理整个 评估周期。此自动化流程会分析结果,提出对代理的改进建议,并以迭代方式重新运行该流程以验证性能提升。

评估工作流

您可以将评估集成到工作流的两个主要阶段:

  • 本地开发迭代:在本地评估基于智能体开发套件 (ADK) 的智能体,以快速迭代提示工程和工具配置。
  • 已部署代理评估:通过 分析历史轨迹或针对代理 端点运行合成基准测试来衡量已部署代理的质量。

核心功能

即使没有现有测试数据,代理评估也能帮助您构建初始评估套件。以下功能有助于自动生成测试用例和优化代理系统:

  • 场景生成和用户模拟:根据代理的 指令和工具定义,自动生成 多样化的多轮合成测试场景。借助此自动化功能,您可以立即开始测试,而无需手动编写初始测试用例。

  • 环境模拟:拦截特定的工具调用,以注入 自定义行为、模拟数据或模拟错误(例如 HTTP 503 错误或延迟峰值)。借助此模拟功能,您可以在不影响生产后端的情况下验证代理的弹性。

  • 多轮评估:使用多轮自动评分器自动评估整个对话 历史记录。这些评分器会分析意图提取,动态生成评分准则,并提供客观的验证判决,以帮助确保指令遵循情况。

  • 提示优化:通过使用提示优化,以编程方式生成和验证优化的 系统指令。优化框架会找出故障点,并以迭代方式提出有针对性的更新。

后续步骤