Prima di iniziare
Per visualizzare e analizzare i risultati della valutazione, assicurati di disporre di quanto segue:
- Esegui almeno una valutazione come descritto in Valutare gli agenti o Eseguire valutazioni offline.
- Configurato un bucket Cloud Storage per l'output della valutazione se esegui valutazioni offline.
- (Facoltativo) Se utilizzi l'SDK per recuperare i risultati, assicurati che l'ambiente sia autenticato.
Dopo aver eseguito una valutazione, Agent Platform fornisce strumenti diagnostici per aiutarti a identificare le cause principali dell'errore. Puoi analizzare i risultati a tre livelli: tendenze aggregate nella dashboard, gruppi semantici nei cluster di errori e percorsi logici granulari nelle singole tracce.
La dashboard di valutazione per i monitoraggi online
Per gli agenti con monitor online attivi, puoi visualizzare le tendenze del rendimento aggregato nella dashboard:
- Nella console Google Cloud , vai alla pagina Piattaforma dell'agente > Agenti.
- Nel menu di navigazione a sinistra, seleziona Implementazioni.
Seleziona l'agente.
Fai clic sulla scheda Dashboard e seleziona la sottosezione Valutazione.
- Tendenze del rendimento:visualizza come cambiano i punteggi per metriche come Riuscita dell'attività o Qualità dell'utilizzo degli strumenti in diverse versioni dell'agente o intervalli di tempo.
- Stato zero:per gli agenti senza monitoraggio online attivo, questa visualizzazione identifica le lacune nella copertura e fornisce un invito all'azione per iniziare la valutazione.
Identificare i problemi sistemici con i cluster di errori
Agent Platform utilizza una ricetta di analisi automatica della perdita per classificare i risultati degli AutoRater basati su rubriche. Questa funzionalità raggruppa le tracce non riuscite in cluster semantici (ad esempio Argomenti dello strumento allucinati), consentendoti di vedere quali problemi comportamentali sono più diffusi.
Cluster con errori di accesso
- Vai alla pagina Agent Platform > Agents > Evaluation.
- Seleziona la scheda Valutazioni.
- Fai clic sul nome di un'esecuzione di valutazione completata per aprire il report.
- Se la valutazione ha rilevato cluster, questi vengono visualizzati nella sezione Cluster di errori del report.
Come funziona il clustering degli errori
- Analisi della traiettoria:il sistema identifica punti di errore specifici all'interno delle traiettorie di conversazione multi-turno.
- Incorporamento semantico:le tracce non riuscite vengono incorporate e raggruppate in base alla somiglianza semantica delle loro motivazioni.
- Informazioni strategiche:il sistema mappa la distribuzione di queste "perdite" per guidarti a perfezionare le istruzioni di sistema o gli esempi few-shot.
Interpretare i verdetti e le motivazioni
Per ogni traccia valutata, il sistema fornisce un'analisi dettagliata del ragionamento di "Giudica LLM".
- Verdetto:uno stato binario Superato o Non superato per ogni controllo della griglia granulare.
- Motivazione:una spiegazione in linguaggio naturale del motivo per cui l'agente ha avuto esito positivo o negativo. Ad esempio, la motivazione potrebbe evidenziare che un agente ha chiamato uno strumento di prenotazione prima di verificare l'identità dell'utente.
- Categoria di perdita:nella visualizzazione cluster, ogni errore viene evidenziato rispetto alla relativa rubrica, fornendo il contesto dell'errore.
Visualizzare in dettaglio le tracce
Per risolvere i problemi relativi a un errore specifico direttamente dal percorso della conversazione:
- Nella console Google Cloud , vai alla pagina Piattaforma dell'agente > Agenti.
- Nel menu di navigazione a sinistra, seleziona Deployment e seleziona il tuo agente.
- Seleziona la scheda Tracce.
- Seleziona una riga specifica dalla tabella per aprire il riquadro dei dettagli.
- Seleziona la scheda Valutazione.
Sono disponibili le seguenti informazioni:
- Contesto multi-turn:per le valutazioni delle sessioni, il riquadro mostra la cronologia completa della conversazione, mentre la visualizzazione della valutazione mostra le metriche corrispondenti per ogni turno.
- Cronologia della traccia:puoi fare clic su ID traccia specifici per visualizzare la sequenza esatta di input del modello, chiamate di strumenti e risposte per quel turno.