Valutazione agente

Questo documento descrive come utilizzare la valutazione degli agenti per misurare e migliorare il rendimento, la sicurezza e la qualità degli agenti.

Per saperne di più sulla valutazione dei modelli, consulta la panoramica del servizio di valutazione di Gen AI.

Riepilogo della procedura

Fase Attività Obiettivo
Progettazione Definisci i casi di valutazione Specifica le attività dell'agente e i risultati previsti.
Esecuzione Esegui le inferenze Genera tracce di conversazione reali o simulate.
Punteggio Calcola le metriche Valuta le tracce utilizzando valutatori automatici (successo dell'attività, sicurezza).
Perfezionamento Ottimizza l'agente Proponi e verifica i miglioramenti alle istruzioni o agli strumenti.

Processo di valutazione

La valutazione segue un flusso di lavoro strutturato e iterativo:

  1. Definisci i casi di valutazione: un caso di valutazione è una specifica che definisce l'attività di un agente. Un caso di valutazione può includere uno o più passaggi di conversazione, il contesto della conversazione (lo stato dell'agente) e una specifica per simulare le risposte dell'utente durante l'inferenza.
  2. Esegui le inferenze: L'inferenza è l'esecuzione di un caso di valutazione. Se un caso di valutazione contiene un piano di conversazione, le risposte dell'utente vengono simulate durante l'inferenza.
  3. Genera tracce: ogni esecuzione di inferenza acquisisce il comportamento dell'agente in una traccia. Una traccia è un record fattuale e immutabile del comportamento dell'agente, inclusi input, risposte e chiamate allo strumento del modello.
  4. Calcola le metriche: Le metriche sono punteggi calcolati per ogni traccia utilizzando valutatori predefiniti o personalizzati. Alcune metriche, come Corrispondenza esatta, sono basate su riferimenti e richiedono un caso di valutazione con una risposta di riferimento. Altre, come Utilità, sono senza riferimenti e valutano la traccia autonomamente. Questa valutazione automatica ti consente di assegnare un punteggio alle tracce acquisite dal traffico di produzione o dai log esterni, indipendentemente da un ambiente di test gestito.
  5. Esegui l'analisi: analizza metriche, griglie di valutazione e verdetti per identificare i problemi principali degli agenti, collegare i problemi degli agenti ai casi di test e generare insight per il miglioramento.
  6. Ottimizza l'agente: utilizza l'ottimizzazione per gestire l'intero ciclo di valutazione. Questo processo automatizzato analizza i risultati, propone miglioramenti all'agente ed esegue di nuovo il processo in modo iterativo per verificare i miglioramenti del rendimento.

Flusso di lavoro di valutazione

Puoi integrare la valutazione in due fasi principali del flusso di lavoro:

  • Iterazione di sviluppo locale: valuta un agente basato su Agent Development Kit (ADK) in locale per iterare rapidamente sulla progettazione dei prompt e sulle configurazioni degli strumenti.
  • Valutazione dell'agente di cui è stato eseguito il deployment: misura la qualità degli agenti di cui è stato eseguito il deployment analizzando le tracce storiche o eseguendo benchmark sintetici rispetto agli endpoint degli agenti.

Funzionalità principali

La valutazione degli agenti ti aiuta a creare una suite di valutazione iniziale, anche senza dati di test esistenti. Le seguenti funzionalità aiutano ad automatizzare il processo di generazione dei casi di test e di perfezionamento dei sistemi agentici:

  • Generazione di scenari e simulazione utente: genera automaticamente scenari di test sintetici diversi e multi-turno in base alle istruzioni e alle definizioni degli strumenti dell'agente. Questa automazione ti consente di iniziare subito a eseguire i test eliminando la necessità di creare manualmente i casi di test iniziali.

  • Simulazione dell'ambiente: intercetta chiamate di strumenti specifici per inserire comportamenti personalizzati, dati simulati o errori simulati (ad esempio errori HTTP 503 errori o picchi di latenza). Questa simulazione ti consente di convalidare la resilienza dell'agente senza influire sui backend di produzione.

  • Valutazione multi-turno: valuta automaticamente le cronologie delle conversazioni complete utilizzando valutatori automatici multi-turno. Questi valutatori analizzano l'estrazione dell'intento, generano dinamicamente griglie di valutazione e forniscono verdetti di convalida oggettivi per garantire la conformità alle istruzioni.

  • Ottimizzazione dei prompt: genera e convalida a livello di programmazione le istruzioni di sistema perfezionate utilizzando l'ottimizzazione dei prompt. Il framework di ottimizzazione identifica i punti di errore e propone in modo iterativo aggiornamenti mirati.

Passaggi successivi