可观测性概览

Gemini Enterprise Agent Platform 中的智能体可观测性功能可全面了解已部署的智能体和模型上下文协议 (MCP) 服务器的性能、行为和健康状况。通过监控关键指标、跟踪执行路径以及观察整个多智能体系统,您可以诊断问题、优化资源消耗并提高智能体的可靠性。

本文档概述了 Gemini Enterprise Agent Platform 中提供的可观测性工具,包括系统级拓扑、单个智能体监控和 MCP 服务器指标。

遥测设置

如需填充这些可观测性信息中心、拓扑和跟踪记录,您必须将智能体配置为以 OpenTelemetry 格式将遥测数据发送到 Google Cloud Observability 中的存储系统。

确保智能体和 MCP 服务器环境已正确配置为发出此数据。内置 Google Cloud 组件会自动以 OpenTelemetry 格式发出遥测数据。例如,Model Armor 会原生发出标准化遥测数据,让您无需任何自定义插桩即可直接在跟踪数据中无缝公开和监控实时政策拦截。

如需了解智能体遥测设置说明和要求,请参阅以下资源:

智能体拓扑

多智能体拓扑视图提供了多智能体系统架构的可视化系统级地图。它显示了 Agent Registry 中已知的所有智能体和 MCP 服务器之间的实时关系和流量。这种汇总视图有助于您了解复杂的依赖关系,并找出整个生态系统中的潜在瓶颈。

除了多智能体拓扑视图之外,您还可以查看单个智能体的特定入站和出站依赖关系。此单智能体拓扑视图基于所选智能体的跟踪数据。

如需详细了解如何浏览和解读智能体拓扑图, 请参阅 查看智能体关系和拓扑

可观测性信号

Gemini Enterprise Agent Platform 通过指标、跟踪记录和日志提供可观测性。

从注册表中选择特定智能体后,可观测性 标签页会提供一套有针对性的信息中心,用于监控其运行状况、性能和基础架构利用率。使用可观测性 标签页中的左侧导航栏可在以下视图之间切换:

  • 概览 :跟踪所选时间范围内的总体使用情况,包括会话总数、每个会话的平均轮数和智能体调用总数。时序图显示了令牌使用情况(输入与输出)、智能体总体流量、延迟时间百分位数(p50、p95、p99)和错误率。
  • 评估 :显示用于持续质量评估的在线监控器。这包括跟踪平均响应质量、安全指标、幻觉率和工具使用质量的时序小部件。
  • 模型 :按底层基础模型细分性能。 您可以监控按特定模型隔离的 p95 延迟时间、调用总数、错误率、配额失败次数和令牌使用情况。
  • 工具 :监控连接到智能体的外部工具和服务。此视图详细列出了每个工具的 p95 延迟时间、调用次数和错误率,以及未调用任何工具的交互频率。
  • 使用情况 :提供智能体运行时环境的基础架构级指标,包括容器 CPU 分配、容器内存分配和令牌使用情况。
  • 日志 :显示可过滤的原始智能体日志流,包括严重程度、时间戳和执行摘要,以便进行深入的问题排查。如需了解详情,请参阅 查看智能体日志

除了可观测性 标签页上的信息中心之外,您还可以使用智能体的跟踪记录 标签页检查特定会话的逐步执行情况,包括跨度和输入/输出的有向无环图。如需了解详情,请参阅查看智能体跟踪记录。您还可以使用拓扑 标签页查看该单个智能体的特定入站和出站依赖关系。

对于 MCP 服务器,您可以监控请求数和 p95 请求时长,以跟踪利用率和响应能力。

OpenTelemetry 生成式 AI 惯例

智能体跟踪记录和提示与回答日志在很大程度上依赖于 OpenTelemetry 生成式 AI 系统的语义惯例 ,以标准化生成式 AI 遥测数据的捕获、结构化和报告方式。

遵循这些惯例对于智能体跟踪至关重要,因为它为描述复杂的、多步骤的智能体工作流(例如工具执行、检索步骤和令牌消耗)建立了一种通用的、与供应商无关的格式。这种 标准化有助于在内部和外部的不同可观测性 后端和分析工具之间实现无缝互操作性 Google Cloud。

后续步骤