Google 会使用 AI 技术将内容翻译成您偏好的语言。AI 翻译可能包含错误。

智能体评估

本文档介绍了如何使用智能体评估来衡量和改进智能体的性能、安全性和质量。

如需详细了解模型评估，请参阅 Gen AI Evaluation Service 概览。

流程摘要

评估遵循结构化的迭代工作流：

定义评估案例：评估案例是一种规范，用于定义智能体的任务。评估案例可以包含一个或多个对话步骤、对话上下文（智能体的状态），以及用于在推理期间模拟用户响应的规范。
运行推理：推理是指执行评估案例。如果评估案例包含对话计划，则在推理期间会模拟用户响应。
生成轨迹：每次推理运行都会在轨迹中捕获智能体的行为。轨迹是智能体行为的真实且不可变记录，包括模型输入、响应和工具调用。
计算指标：指标是使用预构建或自定义评分器为每个轨迹计算的分数。某些指标（例如完全匹配）是 基于参考答案的，需要包含参考答案的评估案例。其他指标（例如实用性）是不基于参考答案的，会自行评估轨迹。借助这种自动评估，您可以对从生产流量或外部日志捕获的轨迹进行评分，而无需使用受管测试环境。
进行分析：分析指标、评分准则和判定，以找出关键智能体问题，将智能体问题与测试用例关联起来，并生成改进洞见。
优化智能体：使用优化来管理整个评估周期。此自动化流程会分析结果，提出对智能体的改进建议，并以迭代方式重新运行该流程，以验证性能提升。

您可以将评估集成到工作流的两个主要阶段：

即使没有现有测试数据，智能体评估也能帮助您构建初始评估套件。以下功能有助于自动生成测试用例和优化智能体系统：

场景生成和用户模拟：根据智能体的指令和工具定义，自动生成多样化的多轮合成测试场景。借助这种自动化，您可以立即开始测试，而无需手动编写初始测试用例。
环境模拟：拦截特定的工具调用，以注入自定义行为、模拟数据或模拟错误（例如 HTTP 503 错误或延迟峰值）。借助这种模拟，您可以在不影响生产后端的情况下验证智能体的弹性。
多轮评估：使用多轮自动评分器自动评估整个对话历史记录。这些评分器会分析意图提取，动态生成评分准则，并提供客观的验证判定，以帮助确保指令遵循情况。
提示优化：通过使用提示优化，以编程方式生成和验证优化的系统指令。优化框架会找出失败点，并以迭代方式提出有针对性的更新。

如果您使用 Gemini CLI 或其他 AI 编码助理，则可以安装智能体技能，让您的助理学习本页面介绍的智能体评估方法。每项技能都会在编码会话中直接提供评估工作流、数据集架构、指标选择指南和失败分析步骤，因此您的助理无需离开编辑器即可构建、评分和改进评估。

每项技能后都有安装说明。

一种 CLI 驱动的工作流，用于使用 agents-cli eval 命令评估和优化智能体开发套件 (ADK) 智能体。此技能涵盖：

如需安装，请运行以下命令：

npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval

一种 SDK 驱动的剧本，用于通过 Agent Platform GenAI Evaluation Service 评估和改进模型和智能体，使用 Agent Platform GenAI Evaluation SDK (client.evals.evaluate())。此技能涵盖：

如需安装，请运行以下命令：

npx skills add https://github.com/google/skills --skill agent-platform-eval-flywheel