Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Valutazione agente

Questo documento descrive come utilizzare la valutazione degli agenti per misurare e migliorare le prestazioni, la sicurezza e la qualità degli agenti.

Per scoprire di più sulla valutazione dei modelli, consulta la panoramica di Gen AI evaluation service.

Riepilogo della procedura

Fase	Attività	Obiettivo
Progettazione	Definisci i casi di valutazione	Specifica le attività dell'agente e i risultati previsti.
Esecuzione	Esegui inferenze	Generare tracce di conversazioni reali o simulate.
Punteggio	Calcola le metriche	Valuta le tracce utilizzando valutatori automatici (completamento dell'attività, sicurezza).
Perfezionamento	Ottimizza agente	Proporre e verificare miglioramenti alle istruzioni o agli strumenti.

Procedura di valutazione

La valutazione segue un workflow strutturato e iterativo:

Definisci casi di valutazione: un caso di valutazione è una specifica che definisce l'attività di un agente. Un caso di valutazione può includere uno o più passaggi della conversazione, il contesto della conversazione (lo stato dell'agente) e una specifica per simulare le risposte degli utenti durante l'inferenza.
Esegui inferenze: l'inferenza è l'esecuzione di un caso di valutazione. Se uno scenario di valutazione contiene un piano di conversazione, le risposte dell'utente vengono simulate durante l'inferenza.
Genera tracce: ogni esecuzione di inferenza acquisisce il comportamento dell'agente in una traccia. Una traccia è un record fattuale e immutabile del comportamento dell'agente, inclusi input, risposte e chiamate agli strumenti del modello.
Calcola metriche: le metriche sono punteggi calcolati per ogni traccia utilizzando valutatori predefiniti o personalizzati. Alcune metriche, come Corrispondenza esatta, sono basate su riferimenti e richiedono un caso di valutazione con una risposta di riferimento. Altre, come Utilità, sono senza riferimenti e valutano la traccia in modo indipendente. Questa valutazione automatizzata ti consente di assegnare un punteggio alle tracce acquisite dal traffico di produzione o dai log esterni, indipendentemente da un ambiente di test gestito.
Esegui l'analisi: analizza metriche, rubriche e verdetti per identificare i problemi principali degli agenti, collegarli agli scenari di test e generare approfondimenti per il miglioramento.
Ottimizza l'agente: utilizza l'ottimizzazione per gestire l'intero ciclo di valutazione. Questo processo automatizzato analizza i risultati, propone miglioramenti all'agente e ripete il processo in modo iterativo per verificare i miglioramenti delle prestazioni.

Flusso di lavoro di valutazione

Puoi integrare la valutazione in due fasi principali del tuo workflow:

Iterazione di sviluppo locale: valuta un agente basato su Agent Development Kit (ADK) localmente per iterare rapidamente su prompt engineering e configurazioni degli strumenti.
Valutazione dell'agente di cui è stato eseguito il deployment: misura la qualità degli agenti di cui è stato eseguito il deployment analizzando le tracce storiche o eseguendo benchmark sintetici rispetto agli endpoint degli agenti.

Funzionalità principali

La valutazione dell'agente ti aiuta a creare una suite di valutazione iniziale, anche senza dati di test esistenti. Le seguenti funzionalità aiutano ad automatizzare il processo di generazione di scenari di test e a perfezionare i sistemi agentici:

Generazione di scenari e simulazione degli utenti: genera automaticamente scenari di test sintetici diversi e multi-turn in base alle istruzioni e alle definizioni degli strumenti dell'agente. Questa automazione ti consente di iniziare a eseguire i test immediatamente eliminando la necessità di creare manualmente i casi di test iniziali.
Simulazione dell'ambiente: intercetta chiamate di strumenti specifici per inserire comportamenti personalizzati, dati simulati o errori simulati (ad esempio errori HTTP 503 o picchi di latenza). Questa simulazione ti consente di convalidare la resilienza dell'agente senza influire sui backend di produzione.
Valutazione multi-turno: valuta automaticamente intere cronologie delle conversazioni utilizzando i valutatori automatici multi-turno. Questi valutatori analizzano l'estrazione dell'intent, generano dinamicamente griglie di valutazione e forniscono verdetti di convalida oggettivi per contribuire a garantire il rispetto delle istruzioni.
Ottimizzazione dei prompt: genera e convalida a livello di programmazione istruzioni di sistema perfezionate utilizzando l'ottimizzazione dei prompt. Il framework di ottimizzazione identifica i punti di errore e propone in modo iterativo aggiornamenti mirati.

Valutare con gli assistenti di programmazione AI

Se utilizzi Gemini CLI o un altro assistente alla programmazione AI, puoi installare le competenze dell'agente che insegnano al tuo assistente la metodologia di valutazione dell'agente descritta in questa pagina. Ogni competenza fornisce il flusso di lavoro di valutazione, lo schema del set di dati, le indicazioni per la selezione delle metriche e i passaggi di analisi degli errori direttamente nella sessione di codifica, in modo che l'assistente possa creare, valutare e migliorare le valutazioni senza uscire dall'editor.

Le istruzioni di installazione seguono ogni competenza.

Skill di valutazione di Agents CLI

Un flusso di lavoro basato sulla CLI per valutare e ottimizzare gli agenti Agent Development Kit (ADK) utilizzando i comandi agents-cli eval. Questo corso tratta i seguenti argomenti:

Preparazione dei set di dati di valutazione e sintesi di scenari multi-turn con la simulazione dell'utente
Esecuzione dell'inferenza, classificazione delle tracce e analisi dei cluster di errori
Iterazione su prompt e strumenti con il ciclo di valutazione e correzione

Per installare, esegui questo comando:

npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval

Skill del volano del servizio di valutazione dell'AI generativa di Agent Platform

Un playbook basato su SDK per valutare e migliorare modelli e agenti tramite GenAI Evaluation Service di Agent Platform, utilizzando l'SDK GenAI Evaluation di Agent Platform (client.evals.evaluate()). Questa competenza copre:

Creazione di set di dati di valutazione da tracce di sessione, DataFrame o generazione sintetica
Selezione, configurazione e scrittura di metriche personalizzate con il sistema di valutazione LLM-as-judge
Analisi dei verdetti delle rubriche e dei pattern di perdita per apportare miglioramenti concreti