通过在线监控器进行持续评估

借助在线监控,您可以持续评估生产环境中智能体的质量。这种主动式方法有助于您识别因用户行为或外部数据变化而导致的质量偏移(即客服人员表现随时间推移而明显下降)。通过配置在线监控器,您可以使用预定义指标和自定义指标异步评估实时轨迹,确保代理保持可靠并符合您的性能标准。

准备工作

如需为代理启用在线监控,请确保满足以下要求:

  • 按照部署代理中所述部署代理。
  • 确保您的项目已启用 Cloud Trace
  • (可选)如果您计划以编程方式创建监控器,请参阅评估代理页面,了解 Agent Platform SDK 初始化说明。

遥测要求

在线监控要求代理导出特定的 OpenTelemetry 信号,以提供评估所需的上下文:

  1. 调用代理 span:必须包含以下属性:

    • gen_ai.agent.name:代理的标识符。
    • gen_ai.agent.description:代理用途的简要说明。
    • gen_ai.conversation.id:特定对话会话的唯一标识符。
  2. 推理事件gen_ai.client.inference.operation.details 事件必须捕获:

    • gen_ai.input.messages:发送给智能体的提示。
    • gen_ai.output.messages:智能体生成的回答。
    • gen_ai.system_instructions:底层系统提示。
    • gen_ai.tool.definitions:有关代理可用的任何工具的元数据。

如果您使用的是 智能体开发套件,则必须通过设置以下环境变量来启用这些遥测功能:

OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'

在 Cloud Storage 中录制媒体

如果您的代理使用多模态数据(例如图片或大型文档),我们建议您将输入和输出记录在 Cloud Storage 存储桶中,而不是直接将其嵌入到轨迹 span 中。配置以下环境变量即可启用此功能:

OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'

如需了解详情,请参阅收集多模态提示和回答

线上监控器的运作方式

在线监控器在预定的评估循环中运行,通常每 10 分钟运行一次。 循环遵循以下步骤:

  1. 查询:根据您的过滤条件,从 Cloud TraceCloud Logging 中抽样数据。
  2. 评估:使用 Gemini Enterprise Agent Platform Evaluation Service 运行配置的指标。
  3. 报告:将结果写回 Cloud Logging,并将数值得分导出到 Cloud Monitoring

创建在线监控器

  1. 在 Google Cloud 控制台中,前往 Agent Platform > Agents > Evaluation 页面。

    前往“评估”页面

  2. 选择在线监控器标签页,然后点击新监控器

  3. 指定过滤轨迹

    • 代理引擎:从下拉菜单中选择要监控的代理。
    • 过滤条件:选择是评估代理的所有轨迹,还是应用特定的过滤条件
  4. 定义过滤条件(如果使用过滤后的轨迹):

    • 初始检查:选择一个时间范围(例如过去 1 天),以预览与您的过滤条件匹配的正式版轨迹。
    • 过滤条件:输入定位特定流量的条件。您可以按 Duration(例如 Duration > 2)或 Token usage 等属性进行过滤。
  5. 配置指标:添加要持续跟踪的指标,例如安全

  6. 设置抽样

    • 抽样百分比:定义应评估的实时流量百分比。
    • 每次运行的最大样本数:设置上限以管理评估费用。
  7. 点击创建

管理监控器

创建监控器后,您可以通过在线监控器列表管理该监控器:

  • 状态切换开关:点击更多选项 ,然后选择启用停用,即可暂停评估,而无需删除配置。
  • 暂停和继续:使用更多选项 暂时停止评估。
  • 复制:使用现有监控器的预填充设置创建新监控器。
  • 查看轨迹:点击监控工具的抽样轨迹列中的查看轨迹链接,可直接前往代理的轨迹标签页,查看过滤后的轨迹。

在可观测性信息中心内查看结果

如需查看评估指标以及其他效果信号,请执行以下操作:

  1. 在 Google Cloud 控制台中,前往 Agent Platform > Agents 页面。
  2. 在左侧导航菜单中,选择部署
  3. 选择您的代理。

    转到部署

  4. 信息中心视图中,选择评估子部分,以查看已配置指标(例如回答质量、安全性和胡编乱造率)的时序图表。

查看各个轨迹的结果

您还可以在轨迹视图中直接检查特定对话的评估结果:

  1. 在 Google Cloud 控制台中,前往代理的轨迹标签页。
  2. 从表格中选择会话或轨迹,打开详细信息面板。
  3. 选择评估标签页,查看相应特定互动的得分和理由。

排查在线监控器问题

如果您的在线监控器处于有效状态,但信息中心内未显示任何结果,请执行以下操作:

  1. 验证遥测:确保您的代理正确导出所需的 OpenTelemetry span 和事件。检查 Cloud Trace,看看实时轨迹是否包含 gen_ai. 属性。
  2. 检查过滤条件:查看监控器的过滤条件。使用初始检查功能确认过滤条件与您的生产流量相符。
  3. 检查内部日志:在线监控器会将诊断信息写入 Cloud Logging。如果评估失败,系统会生成错误日志。您可以在Logs Explorer中搜索监控器 ID 或特定跟踪记录和代理来查找这些日志:

    resource.labels.online_evaluator="projects/YOUR_PROJECT_ID/locations/YOUR_REGION/onlineEvaluators/YOUR_MONITOR_ID"
    # Or search by trace or agent
    labels.trace="YOUR_TRACE_ID"
    labels.reasoning_engine_id="YOUR_AGENT_ID"