智能体可观测性

在快速发展的 AI 领域,构建和部署智能体带来了独特的挑战。AI 智能体可能会出现漂移、幻觉和静默回归。它们可能会做出您意想不到的决策和行动。 它们的故障方式也可能与非智能体软件不同。 智能体可观测性是指用于深入了解软件智能体(尤其是使用大语言模型 [LLM] 构建的 AI 赋能型智能体)的内部状态和行为的方法。

智能体可观测性的优势

由于 AI 智能体具有不确定性和复杂性,因此可观测性对于了解、调试、评估和改进其性能、安全性和可靠性至关重要。

代理可观测性的关键方面包括监控和分析以下内容:

  • LLM 互动:跟踪提示、回答、token 使用情况、延迟时间和错误率。
  • 工具使用情况:监控智能体互动的外部工具和 API,包括调用次数、成功或失败情况、延迟时间和交换的数据。
  • 智能体行为和推理:了解智能体的决策过程、采取的步骤顺序和内部状态变化。
  • 性能:衡量代理调用的端到端延迟时间、各个步骤的延迟时间以及资源消耗,这通常涉及详细的跟踪。
  • 安全:跟踪政策执行情况、识别风险操作、分析内容安全并监控访问模式。
  • 质量和评估:评估智能体输出的正确性、事实性、实用性和总体质量,通常与评估框架集成。

Google Cloud中的智能体可观测性是什么?

Google Cloud 中的应用监控可提供代理可观测性和应用可观测性。此服务提供信息中心和拓扑图,可帮助您了解 App Hub 应用、服务和工作负载的健康状况和性能。它还会生成并显示 AI 资源的错误率和令牌使用情况等指标。为了生成这些指标,应用监控会使用遵循 OpenTelemetry GenAI 语义惯例的应用特有标签和事件来过滤和汇总跟踪记录数据。

为了实现智能体可观测性,我们建议您使用智能体开发套件 (ADK) 框架构建智能体。 由于 ADK 依赖于 OpenTelemetry,因此 ADK 生成的遥测数据与 OpenTelemetry GenAI 语义惯例保持一致。

如需调试故障、监控费用或分析代理行为(包括来自 Gemini Enterprise Agent Platform、Agent Gateway 和 Model Armor 代理的行为),您需要日志、指标和跟踪数据:

  • 日志提供有关事件和错误的信息。
  • 借助指标,您可以监控延迟时间和令牌用量。
  • 轨迹提供有关执行路径的信息,并经过分析以得出模型调用次数或总令牌使用量等指标。这些派生指标可让您了解客服人员的绩效和行为。如需了解详情,请参阅查看 AI 资源
  • 借助提示和回答数据,您可以使用 Gen AI Evaluation Service 评估智能体的质量和决策能力。

应用的“应用监控”信息中心会显示应用的服务和工作负载列表,例如 Gemini Enterprise 应用Gemini Enterprise Agent Platform 智能体和 MCP 服务器:

列出应用中的服务和工作负载的概览。

您可以使用基础设施类型或 App Hub 功能类型来识别代理服务和工作负载。功能类型列默认处于隐藏状态。

智能体可观测性使用入门

如需了解如何构建、部署和管理使用推理和工具来执行复杂企业任务的 AI 智能体,请参阅智能体概览

如需了解如何执行评估(可提供有关代理质量的信息),请参阅代理评估

如需查看代码示例,请参阅以下内容:

后续步骤