Questo documento descrive come utilizzare la valutazione degli agenti per misurare e migliorare le prestazioni, la sicurezza e la qualità degli agenti.
Per saperne di più sulla valutazione dei modelli, consulta la panoramica di Gen AI evaluation service.
Riepilogo della procedura
| Fase | Attività | Obiettivo |
|---|---|---|
| Progettazione | Definisci i casi di valutazione | Specifica le attività dell'agente e i risultati previsti. |
| Esecuzione | Esegui le inferenze | Genera tracce di conversazioni reali o simulate. |
| Punteggio | Calcola le metriche | Valuta le tracce utilizzando valutatori automatici (Task Success, Safety). |
| Perfezionamento | Ottimizza l'agente | Proponi e verifica i miglioramenti alle istruzioni o agli strumenti. |
Processo di valutazione
La valutazione segue un workflow strutturato e iterativo:
- Definisci i casi di valutazione: un caso di valutazione è una specifica che definisce l'attività di un agente. Un caso di valutazione può includere uno o più passaggi di conversazione, il contesto della conversazione (lo stato dell'agente) e una specifica per simulare le risposte dell'utente durante l'inferenza.
- Esegui le inferenze: L'inferenza è l'esecuzione di un caso di valutazione. Se un caso di valutazione contiene un piano di conversazione, le risposte dell'utente vengono simulate durante l'inferenza.
- Genera tracce: ogni esecuzione di inferenza acquisisce il comportamento dell'agente in una traccia. Una traccia è un record fattuale e immutabile del comportamento dell'agente, inclusi input, risposte e chiamate allo strumento del modello.
- Calcola le metriche: Le metriche sono punteggi calcolati per ogni traccia utilizzando valutatori predefiniti o personalizzati. Alcune metriche, come Exact Match, sono basate su riferimenti e richiedono un caso di valutazione con una risposta di riferimento. Altre, come Helpfulness, sono senza riferimenti e valutano la traccia autonomamente. Questa valutazione automatica ti consente di valutare le tracce acquisite dal traffico di produzione o dai log esterni, indipendentemente da un ambiente di test gestito.
- Esegui l'analisi: analizza metriche, griglie di valutazione e verdetti per identificare i problemi principali degli agenti, collegare i problemi degli agenti ai casi di test e generare insight per il miglioramento.
- Ottimizza l'agente: utilizza l'ottimizzazione per gestire l'intero ciclo di valutazione. Questo processo automatizzato analizza i risultati, propone miglioramenti all'agente ed esegue iterativamente il processo per verificare i miglioramenti delle prestazioni.
Workflow di valutazione
Puoi integrare la valutazione in due fasi principali del workflow:
- Iterazione di sviluppo locale: valuta un agente basato su Agent Development Kit (ADK) in locale per iterare rapidamente sulla progettazione dei prompt e sulle configurazioni degli strumenti.
- Valutazione dell'agente di cui è stato eseguito il deployment: misura la qualità degli agenti di cui è stato eseguito il deployment analizzando le tracce storiche o eseguendo benchmark sintetici rispetto agli endpoint degli agenti.
Funzionalità principali
La valutazione degli agenti ti aiuta a creare una suite di valutazione iniziale, anche senza dati di test esistenti. Le seguenti funzionalità aiutano ad automatizzare il processo di generazione dei casi di test e di perfezionamento dei sistemi agentici:
Generazione di scenari e simulazione utente: genera automaticamente scenari di test sintetici multi-turno diversi in base alle istruzioni e alle definizioni degli strumenti dell'agente. Questa automazione ti consente di iniziare subito a eseguire i test eliminando la necessità di creare manualmente i casi di test iniziali.
Simulazione dell'ambiente: intercetta chiamate di strumenti specifici per inserire comportamenti personalizzati, dati simulati o errori simulati (ad esempio errori HTTP 503 errori o picchi di latenza). Questa simulazione ti consente di convalidare la resilienza degli agenti senza influire sui backend di produzione.
Valutazione multi-turno: valuta automaticamente le cronologie delle conversazioni complete utilizzando i valutatori automatici multi-turno. Questi valutatori analizzano l'estrazione dell'intento, generano dinamicamente le griglie di valutazione e forniscono verdetti di convalida oggettivi per garantire la conformità alle istruzioni.
Ottimizzazione dei prompt: genera e convalida a livello di programmazione le istruzioni di sistema perfezionate utilizzando l'ottimizzazione dei prompt. Il framework di ottimizzazione identifica i punti di errore e propone iterativamente aggiornamenti mirati.
Valuta con gli assistenti di programmazione AI
Se utilizzi Gemini CLI o un altro assistente di programmazione AI, puoi installare le competenze degli agenti che insegnano al tuo assistente la metodologia di valutazione degli agenti descritta in questa pagina. Ogni competenza fornisce il workflow di valutazione, lo schema del set di dati, le indicazioni per la selezione delle metriche e i passaggi di analisi degli errori direttamente nella sessione di programmazione, in modo che l'assistente possa creare, valutare e migliorare le valutazioni senza uscire dall'editor.
Le istruzioni di installazione seguono ogni competenza.
Competenza di valutazione di Agents CLI
Un workflow basato sulla CLI per valutare e ottimizzare gli agenti di Agent Development Kit (ADK) utilizzando i comandi agents-cli eval. Questa competenza include:
- Preparazione dei set di dati di valutazione e sintesi di scenari multi-turno con simulazione utente
- Esecuzione dell'inferenza, valutazione delle tracce e analisi dei cluster di errori
- Iterazione su prompt e strumenti con il loop eval-fix
Per installare, esegui il seguente comando:
npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval
Competenza del ciclo di feedback di Gen AI evaluation service di Agent Platform
Un playbook basato sull'SDK per valutare e migliorare modelli e agenti tramite Gen AI evaluation service di Agent Platform, utilizzando l'SDK Gen AI evaluation di Agent Platform (client.evals.evaluate()). Questa competenza include:
- Creazione di set di dati di valutazione da tracce di sessioni, DataFrame o generazione sintetica
- Selezione, configurazione e scrittura di metriche personalizzate con la valutazione LLM-as-judge
- Analisi dei verdetti delle griglie di valutazione e dei pattern di perdita per apportare miglioramenti concreti
Per installare, esegui il seguente comando:
npx skills add https://github.com/google/skills --skill agent-platform-eval-flywheel