L'osservabilità degli agenti in Gemini Enterprise Agent Platform offre una visibilità completa su prestazioni, comportamento e integrità degli agenti di cui hai eseguito il deployment e dei server Model Context Protocol (MCP). Monitorando le metriche chiave, tracciando i percorsi di esecuzione e osservando il sistema multi-agente nel suo complesso, puoi diagnosticare i problemi, ottimizzare il consumo di risorse e migliorare l'affidabilità degli agenti.
Questo documento fornisce una panoramica degli strumenti di osservabilità disponibili in Gemini Enterprise Agent Platform, tra cui la topologia a livello di sistema, il monitoraggio dei singoli agenti e le metriche dei server MCP.
Configurazione della telemetria
Per popolare questi dashboard, topologie e tracce di osservabilità, gli agenti devono essere configurati per inviare i dati di telemetria in formato OpenTelemetry ai sistemi di archiviazione in Google Cloud Observability.
Assicurati che gli ambienti degli agenti e dei server MCP siano configurati correttamente per emettere questi dati. I componenti integrati Google Cloud emettono automaticamente la telemetria in formato OpenTelemetry. Ad esempio, Model Armor emette in modo nativo la telemetria standardizzata, consentendoti di esporre e monitorare senza problemi le intercettazioni delle policy in tempo reale direttamente all'interno dei dati di traccia senza richiedere alcuna strumentazione personalizzata.
Per istruzioni e requisiti di configurazione della telemetria degli agenti, consulta le seguenti risorse:
- Per instrumentare gli agenti creati con ADK, consulta Instrumentare le applicazioni ADK con OpenTelemetry.
- Per instrumentare gli agenti in Agent Runtime che non sono stati creati con ADK, consulta Instrumentare le applicazioni di AI generativa.
- Per la telemetria dei server MCP, consulta Utilizzare Cloud Trace per monitorare l'utilizzo degli strumenti MCP.
- Per la telemetria di Model Armor, consulta Configurare la registrazione di Model Armor.
Topologia degli agenti
La visualizzazione della topologia multi-agente fornisce una mappa visiva a livello di sistema dell'architettura del sistema multi-agente. Mostra le relazioni e i flussi di traffico in tempo reale tra tutti gli agenti e i server MCP noti ad Agent Registry. Questa visualizzazione aggregata ti aiuta a comprendere le dipendenze complesse e a identificare i potenziali colli di bottiglia nell'ecosistema.
Oltre alla visualizzazione della topologia multi-agente, puoi anche visualizzare le dipendenze in entrata e in uscita specifiche per un singolo agente. Questa visualizzazione della topologia di un singolo agente si basa sui dati di traccia dell'agente selezionato.
Per istruzioni dettagliate su come navigare e interpretare i grafici della topologia degli agenti, consulta Visualizzare le relazioni e la topologia degli agenti.
Indicatori di osservabilità
Gemini Enterprise Agent Platform fornisce osservabilità tramite metriche, tracce e log.
Quando selezioni un agente specifico dal registro, la scheda Osservabilità fornisce una serie di dashboard mirate per monitorare l'integrità operativa, le prestazioni e l'utilizzo dell'infrastruttura. Utilizza la navigazione a sinistra nella scheda Osservabilità per passare da una visualizzazione all'altra:
- Panoramica: monitora l'utilizzo di alto livello nell'intervallo di tempo selezionato, incluse le sessioni totali, le svolte medie per sessione e le invocazioni totali degli agenti. I grafici delle serie temporali mostrano l'utilizzo dei token (input rispetto all'output), il volume totale del traffico degli agenti, i percentili di latenza (p50, p95, p99) e le percentuali di errori.
- Valutazione: mostra i monitor online per la valutazione continua della qualità. Sono inclusi i widget delle serie temporali che monitorano la qualità media delle risposte, le metriche di sicurezza, le percentuali di allucinazioni e la qualità dell'utilizzo degli strumenti.
- Modelli: suddivide le prestazioni in base al foundation model sottostante. Puoi monitorare la latenza p95, il numero totale di chiamate, le percentuali di errori, gli errori di quota e l'utilizzo dei token isolati da modelli specifici.
- Strumenti: monitora gli strumenti e i servizi esterni connessi all'agente. Questa visualizzazione mostra in dettaglio la latenza p95, il numero di chiamate e le percentuali di errori per strumento, nonché la frequenza delle interazioni in cui non è stato chiamato alcuno strumento.
- Utilizzo: fornisce metriche a livello di infrastruttura per l'ambiente di runtime dell'agente, inclusi l'allocazione della CPU del container, l'allocazione della memoria del container e l'utilizzo dei token.
- Log: mostra un flusso filtrabile di log degli agenti non elaborati, inclusi gravità, timestamp e riepiloghi di esecuzione per la risoluzione dei problemi approfondita. Per saperne di più, consulta Visualizzare i log degli agenti.
Oltre ai dashboard nella scheda Osservabilità, puoi utilizzare la scheda Tracce dell'agente per ispezionare l'esecuzione passo passo di sessioni specifiche, inclusi i grafici diretti aciclici di span e input/output. Per saperne di più, consulta Visualizzare le tracce degli agenti. Puoi anche utilizzare la scheda Topologia per visualizzare le dipendenze in entrata e in uscita specifiche per un singolo agente.
Per i server MCP, puoi monitorare il numero di richieste e la durata delle richieste p95 per monitorare l'utilizzo e la reattività.
Convenzioni di OpenTelemetry per l'AI generativa
Le tracce degli agenti e i log di prompt e risposte si basano in gran parte sulle convenzioni semantiche di OpenTelemetry per i sistemi di AI generativa per standardizzare il modo in cui la telemetria di AI generativa viene acquisita, strutturata e segnalata.
L'applicazione di queste convenzioni è fondamentale per il tracciamento degli agenti perché stabilisce un formato universale e indipendente dal fornitore per descrivere i flussi di lavoro complessi e multi-step degli agenti, come le esecuzioni degli strumenti, i passaggi di recupero e il consumo di token. Questa standardizzazione facilita l'interoperabilità senza problemi tra diversi backend di osservabilità e strumenti di analisi, sia all'interno che all'esterno di Google Cloud.
Passaggi successivi
- Visualizzare le relazioni degli agenti come un grafico di topologia.
- Visualizzare le tracce degli agenti per eseguire il debug del comportamento degli agenti.
- Valutare gli agenti.