Beobachtbarkeit – Übersicht

Die Agentenbeobachtbarkeit in der Gemini Enterprise Agent Platform bietet umfassenden Einblick in die Leistung, das Verhalten und den Zustand Ihrer bereitgestellten Agenten und MCP-Server (Model Context Protocol). Durch das Monitoring wichtiger Messwerte, das Tracing von Ausführungspfaden und die Beobachtung Ihres Multi-Agenten-Systems als Ganzes können Sie Probleme diagnostizieren, den Ressourcenverbrauch optimieren und die Zuverlässigkeit Ihrer Agenten verbessern.

In diesem Dokument finden Sie eine Übersicht über die in der Gemini Enterprise Agent Platform verfügbaren Tools zur Beobachtbarkeit, einschließlich der systemweiten Topologie, der Überwachung einzelner Agenten und der MCP-Servermesswerte.

Telemetrie einrichten

Damit diese Dashboards, Topologien und Traces zur Beobachtbarkeit gefüllt werden können, müssen Ihre Agenten so konfiguriert sein, dass sie Telemetriedaten im OpenTelemetry-Format an Speichersysteme in Google Cloud Observability senden.

Achten Sie darauf, dass Ihre Agenten- und MCP-Serverumgebungen ordnungsgemäß konfiguriert sind, um diese Daten auszugeben. Integrierte Google Cloud Komponenten geben automatisch Telemetriedaten im OpenTelemetry-Format aus. Model Armor gibt beispielsweise standardisierte Telemetriedaten aus, sodass Sie Richtlinienunterbrechungen in Echtzeit nahtlos direkt in Ihren Trace-Daten verfügbar machen und überwachen können, ohne dass eine benutzerdefinierte Instrumentierung erforderlich ist.

Eine Anleitung zum Einrichten der Agententelemetrie und die entsprechenden Anforderungen finden Sie in den folgenden Ressourcen:

Agententopologie

Die Ansicht der Multi-Agenten-Topologie bietet eine visuelle, systemweite Karte Ihrer Multi-Agenten-Systemarchitektur. Sie zeigt die Beziehungen und Traffic-Flüsse in Echtzeit zwischen allen Agenten und MCP-Servern, die in Ihrer Agent Registry bekannt sind. Diese aggregierte Ansicht hilft Ihnen, komplexe Abhängigkeiten zu verstehen und potenzielle Engpässe in Ihrem Ökosystem zu erkennen.

Neben der Ansicht der Multi-Agenten-Topologie können Sie auch die spezifischen eingehenden und ausgehenden Abhängigkeiten für einen einzelnen Agenten aufrufen. Diese Ansicht der Topologie eines einzelnen Agenten basiert auf Trace-Daten für den ausgewählten Agenten.

Eine detaillierte Anleitung zum Navigieren in und Interpretieren von Agententopologie-Diagrammen finden Sie unter Agentenbeziehungen und -topologie ansehen.

Signale zur Beobachtbarkeit

Die Gemini Enterprise Agent Platform bietet Beobachtbarkeit durch Messwerte, Traces und Logs.

Wenn Sie einen bestimmten Agenten in der Registry auswählen, bietet der Tab Beobachtbarkeit eine Reihe gezielter Dashboards, mit denen Sie den Betriebsstatus, die Leistung und die Infrastrukturnutzung des Agenten überwachen können. Verwenden Sie die linke Navigationsleiste auf dem Tab Beobachtbarkeit , um zwischen den folgenden Ansichten zu wechseln:

  • Übersicht:Hier wird die allgemeine Nutzung im ausgewählten Zeitraum erfasst, einschließlich der Gesamtzahl der Sitzungen, der durchschnittlichen Anzahl der Züge pro Sitzung und der Gesamtzahl der Agentenaufrufe. Zeitreihendiagramme zeigen die Tokennutzung (Eingabe im Vergleich zur Ausgabe), das gesamte Agententraffic-Volumen, Latenzperzentile (p50, p95, p99) und Fehlerraten.
  • Auswertung:Hier werden Online-Monitore für die kontinuierliche Qualitätsbewertung angezeigt. Dazu gehören Zeitreihen-Widgets, die die durchschnittliche Antwortqualität, Sicherheitsmesswerte, Halluzinationsraten und die Qualität der Toolnutzung erfassen.
  • Modelle:Hier wird die Leistung nach dem zugrunde liegenden Foundation Model aufgeschlüsselt. Sie können die p95-Latenz, die Gesamtzahl der Aufrufe, die Fehlerraten, die Kontingentfehler und die Tokennutzung isoliert nach bestimmten Modellen überwachen.
  • Tools:Hier werden die externen Tools und Dienste überwacht, die mit dem Agenten verbunden sind. In dieser Ansicht werden die p95-Latenz, die Anzahl der Aufrufe und die Fehlerraten pro Tool sowie die Häufigkeit von Interaktionen angezeigt, bei denen kein Tool aufgerufen wurde.
  • Nutzung:Hier werden Messwerte auf Infrastrukturebene für die Laufzeitumgebung des Agenten bereitgestellt, einschließlich der CPU-Zuweisung für Container, der Speicherzuweisung für Container und der Tokennutzung.
  • Logs:Hier wird ein filterbarer Stream von Roh-Agentenlogs angezeigt, einschließlich Schweregrad, Zeitstempeln und Ausführungszusammenfassungen für die detaillierte Fehlerbehebung. Weitere Informationen finden Sie unter Agentenlogs ansehen.

Neben den Dashboards auf dem Tab Beobachtbarkeit können Sie auf dem Tab Traces des Agenten die schrittweise Ausführung bestimmter Sitzungen untersuchen, einschließlich gerichteter azyklischer Graphen von Spans und Ein-/Ausgaben. Weitere Informationen finden Sie unter Agententraces ansehen. Auf dem Tab Topologie können Sie auch die spezifischen eingehenden und ausgehenden Abhängigkeiten für diesen einzelnen Agenten aufrufen.

Für MCP-Server können Sie die Anzahl der Anfragen und die p95-Anfragedauer überwachen, um die Nutzung und Reaktionsfähigkeit zu verfolgen.

OpenTelemetry-Konventionen für generative KI

Agententraces und Prompt- und Antwortlogs basieren stark auf den OpenTelemetry Semantic Conventions for generative AI systems um die Erfassung, Strukturierung und Berichterstellung von Telemetriedaten für generative KI zu standardisieren.

Die Einhaltung dieser Konventionen ist für das Agententracing von entscheidender Bedeutung, da sie ein universelles, anbieterunabhängiges Format zur Beschreibung komplexer, mehrstufiger Agentenworkflows festlegen, z. B. Toolausführungen, Abrufvorgänge und Tokenverbrauch. Diese Standardisierung ermöglicht eine nahtlose Interoperabilität zwischen verschiedenen Back-Ends für die Beobachtbarkeit und Analysetools, sowohl innerhalb als auch außerhalb von Google Cloud.

Nächste Schritte