Questo documento descrive come utilizzare la valutazione degli agenti per misurare e migliorare il rendimento, la sicurezza e la qualità degli agenti.
Per saperne di più sulla valutazione dei modelli, consulta la panoramica del servizio di valutazione di Gen AI.
Riepilogo della procedura
| Fase | Attività | Obiettivo |
|---|---|---|
| Progettazione | Definisci i casi di valutazione | Specifica le attività dell'agente e i risultati previsti. |
| Esecuzione | Esegui le inferenze | Genera tracce di conversazione reali o simulate. |
| Punteggio | Calcola le metriche | Valuta le tracce utilizzando valutatori automatici (successo dell'attività, sicurezza). |
| Perfezionamento | Ottimizza l'agente | Proponi e verifica i miglioramenti alle istruzioni o agli strumenti. |
Processo di valutazione
La valutazione segue un flusso di lavoro strutturato e iterativo:
- Definisci i casi di valutazione: un caso di valutazione è una specifica che definisce l'attività di un agente. Un caso di valutazione può includere uno o più passaggi di conversazione, il contesto della conversazione (lo stato dell'agente) e una specifica per simulare le risposte dell'utente durante l'inferenza.
- Esegui le inferenze: L'inferenza è l'esecuzione di un caso di valutazione. Se un caso di valutazione contiene un piano di conversazione, le risposte dell'utente vengono simulate durante l'inferenza.
- Genera tracce: ogni esecuzione di inferenza acquisisce il comportamento dell'agente in una traccia. Una traccia è un record fattuale e immutabile del comportamento dell'agente, inclusi input, risposte e chiamate allo strumento del modello.
- Calcola le metriche: Le metriche sono punteggi calcolati per ogni traccia utilizzando valutatori predefiniti o personalizzati. Alcune metriche, come Corrispondenza esatta, sono basate su riferimenti e richiedono un caso di valutazione con una risposta di riferimento. Altre, come Utilità, sono senza riferimenti e valutano la traccia autonomamente. Questa valutazione automatica ti consente di assegnare un punteggio alle tracce acquisite dal traffico di produzione o dai log esterni, indipendentemente da un ambiente di test gestito.
- Esegui l'analisi: analizza metriche, griglie di valutazione e verdetti per identificare i problemi principali degli agenti, collegare i problemi degli agenti ai casi di test e generare insight per il miglioramento.
- Ottimizza l'agente: utilizza l'ottimizzazione per gestire l'intero ciclo di valutazione. Questo processo automatizzato analizza i risultati, propone miglioramenti all'agente ed esegue di nuovo il processo in modo iterativo per verificare i miglioramenti del rendimento.
Flusso di lavoro di valutazione
Puoi integrare la valutazione in due fasi principali del flusso di lavoro:
- Iterazione di sviluppo locale: valuta un agente basato su Agent Development Kit (ADK) in locale per iterare rapidamente sulla progettazione dei prompt e sulle configurazioni degli strumenti.
- Valutazione dell'agente di cui è stato eseguito il deployment: misura la qualità degli agenti di cui è stato eseguito il deployment analizzando le tracce storiche o eseguendo benchmark sintetici rispetto agli endpoint degli agenti.
Funzionalità principali
La valutazione degli agenti ti aiuta a creare una suite di valutazione iniziale, anche senza dati di test esistenti. Le seguenti funzionalità aiutano ad automatizzare il processo di generazione dei casi di test e di perfezionamento dei sistemi agentici:
Generazione di scenari e simulazione utente: genera automaticamente scenari di test sintetici diversi e multi-turno in base alle istruzioni e alle definizioni degli strumenti dell'agente. Questa automazione ti consente di iniziare subito a eseguire i test eliminando la necessità di creare manualmente i casi di test iniziali.
Simulazione dell'ambiente: intercetta chiamate di strumenti specifici per inserire comportamenti personalizzati, dati simulati o errori simulati (ad esempio errori HTTP 503 errori o picchi di latenza). Questa simulazione ti consente di convalidare la resilienza dell'agente senza influire sui backend di produzione.
Valutazione multi-turno: valuta automaticamente le cronologie delle conversazioni complete utilizzando valutatori automatici multi-turno. Questi valutatori analizzano l'estrazione dell'intento, generano dinamicamente griglie di valutazione e forniscono verdetti di convalida oggettivi per garantire la conformità alle istruzioni.
Ottimizzazione dei prompt: genera e convalida a livello di programmazione le istruzioni di sistema perfezionate utilizzando l'ottimizzazione dei prompt. Il framework di ottimizzazione identifica i punti di errore e propone in modo iterativo aggiornamenti mirati.