觀測能力總覽

Gemini Enterprise Agent Platform 的代理程式可觀測性功能,可全面掌握已部署代理程式和 Model Context Protocol (MCP) 伺服器的效能、行為和健康狀態。監控重要指標、追蹤執行路徑,以及觀察整個多代理程式系統,有助於診斷問題、盡可能減少資源耗用,以及提升代理程式的可靠性。

本文概述 Gemini Enterprise Agent Platform 提供的觀測工具,包括全系統拓撲、個別代理監控和 MCP 伺服器指標。

遙測設定

如要填入這些可觀測性資訊主頁、拓撲和追蹤記錄,請務必將代理程式設為以 OpenTelemetry 格式將遙測資料傳送至 Google Cloud Observability 的儲存系統。

請確認代理程式和 MCP 伺服器環境已正確設定,可發出這項資料。內建 Google Cloud 元件會自動以 OpenTelemetry 格式發出遙測資料。舉例來說,Model Armor 會原生發出標準化遙測資料,讓您直接在追蹤資料中順暢地公開及監控即時政策攔截,完全不需自訂儀表。

如需代理程式遙測設定操作說明和需求,請參閱下列資源:

代理程式拓撲

多代理拓撲檢視畫面會顯示多代理系統架構的系統級地圖,以視覺化方式呈現。這張地圖會顯示 Agent Registry 中所有代理和 MCP 伺服器的即時關係和流量。這個匯總檢視畫面可協助您瞭解複雜的依附元件,並找出生態系統中潛在的瓶頸。

除了多代理程式拓撲檢視畫面,您也可以查看單一代理程式的特定連入和連出依附元件。這個單一代理程式拓撲檢視畫面是以所選代理程式的追蹤資料為依據。

如需導覽及解讀代理程式拓撲圖的詳細操作說明,請參閱「查看代理程式關係和拓撲」。

可觀測性信號

Gemini Enterprise Agent Platform 會透過指標、追蹤記錄和記錄檔提供觀測功能。

從登錄檔選取特定代理程式後,「可觀測性」分頁會提供一系列目標資訊主頁,方便您監控代理程式的運作健康狀態、效能和基礎架構用量。在「可觀測性」分頁中,使用左側導覽列即可切換下列檢視畫面:

  • 總覽:追蹤所選時間範圍內的高階用量,包括總工作階段數、每個工作階段的平均輪次,以及代理程式總叫用次數。時序圖表會顯示權杖用量 (輸入與輸出)、整體代理程式流量、延遲百分位數 (p50、p95、p99) 和錯誤率。
  • 評估:顯示線上監控器,持續評估品質。這包括追蹤平均回覆品質、安全指標、錯覺率和工具使用品質的時間序列小工具。
  • 模型:依據基礎模型細分成效。您可以監控特定模型的 P95 延遲時間、通話總次數、錯誤率、配額失敗次數和符記用量。
  • 工具:監控連結至代理程式的外部工具和服務。這個檢視畫面會詳細列出每個工具的第 95 百分位延遲時間、呼叫次數和錯誤率,以及未呼叫任何工具的互動頻率。
  • 用量:提供代理程式執行階段環境的基礎架構層級指標,包括容器 CPU 分配量、容器記憶體分配量和權杖用量。
  • 記錄:顯示可篩選的原始代理程式記錄串流,包括嚴重程度、時間戳記和執行摘要,方便深入瞭解並排解問題。詳情請參閱「查看代理程式記錄」。

除了「可觀測性」分頁中的資訊主頁,您也可以使用代理程式的「追蹤記錄」分頁,逐步檢查特定工作階段的執行作業,包括時距的有向無環圖和輸入/輸出內容。詳情請參閱「查看代理程式追蹤記錄」。您也可以使用「拓撲」分頁,查看該單一代理程式的特定連入和連出依附元件。

對於 MCP 伺服器,您可以監控要求數和 p95 要求時間長度,追蹤使用率和回應速度。

OpenTelemetry 生成式 AI 慣例

服務專員追蹤記錄和提示與回覆記錄,主要依據生成式 AI 系統的 OpenTelemetry 語意慣例,將擷取、建構及回報生成式 AI 遙測資料的方式標準化。

遵守這些慣例對代理程式追蹤至關重要,因為這會建立通用的廠商無關格式,用於說明複雜的多步驟代理程式工作流程,例如工具執行、擷取步驟和權杖消耗量。這項標準化作業有助於在 Google Cloud內外,實現不同可觀測性後端和分析工具之間的無縫互通性。

後續步驟