Valutazione

La valutazione è uno strumento fondamentale per testare le prestazioni dell'agente e assicurarsi che si comporti come previsto in situazioni specifiche. Consente di automatizzare i test, rilevare le regressioni dopo aver apportato modifiche e misurare la qualità delle risposte dell'agente per migliorarne la qualità.

Per iniziare, fai clic sul pulsante Valuta nella parte superiore del generatore di agenti.

Concetti di valutazione

Scenario di test: ogni scenario di test è uno scenario di test specifico e autonomo o un prompt progettato per valutare le prestazioni dell'agente. Puoi creare due tipi diversi di scenari di test:

Scenario: una funzionalità basata sull'AI per avviare i test e garantire una copertura completa dei test. Descrivi l'obiettivo di un utente e il sistema simula automaticamente l'utente e genera conversazioni per testare la capacità dell'agente di gestire lo scenario in modo efficace. Gli scenari sono un modo utile per fare esperimenti e contribuire a definire le conversazioni ideali.
Golden: ideale per i test di regressione. Fornisci un percorso di conversazione specifico e "ideale" e la valutazione verifica se il comportamento dell'agente corrisponde a questo percorso ideale, incluse le chiamate agli strumenti.

Esecuzione: un'esecuzione di valutazione rappresenta una singola esecuzione completa di un insieme di scenari e test case di riferimento rispetto al rendimento dell'agente che stai testando. Ogni esecuzione può includere uno o più scenari di test.

Risultato: un risultato di uno scenario di test si riferisce a una singola esecuzione di uno scenario di test specifico in una singola esecuzione. Se uno scenario di test viene eseguito più volte durante una singola esecuzione della valutazione (ad esempio, per verificare la coerenza, l'instabilità e così via), ogni singola esecuzione è un risultato individuale. I risultati vengono visualizzati come icone rettangolari nelle colonne di ogni riga dello scenario di test, con una X rossa se l'esecuzione non è riuscita e un segno di spunta verde se è riuscita.

Tag: i casi di test possono essere raggruppati con tag per una gestione più semplice.

Creare scenari di test

Per creare e accedere agli scenari di test per l'agente, fai clic sul pulsante Valuta nella parte superiore di Agent Builder. Puoi creare e gestire casi di test basati su scenari o golden.

Scenario

Lo scenario di test basato su scenari utilizza l'AI per generare automaticamente una serie di conversazioni basate su un obiettivo di alto livello definito dall'utente. Con questi scenari di test, anziché fornire conversazioni di riferimento specifiche, selezioni scenari generati o descrivi scenari specifici che devono essere testati. Si tratta di uno strumento potente che ti consente di esplorare i casi limite e testare la robustezza del tuo agente senza dover scrivere manualmente ogni possibile percorso conversazionale.

Una volta che questi scenari funzionano bene, puoi salvarli come conversazioni auree.

Per creare uno scenario:

Fai clic su Crea scenario. Ti vengono suggeriti più scenari.
Puoi generare scenari in base alle selezioni oppure crearne uno nuovo da zero.

Quando visualizzi l'elenco degli scenari, puoi elencare i dettagli e l'elenco delle conversazioni per ogni scenario facendo clic sullo scenario.

Per salvare uno scenario come conversazione di riferimento:

Seleziona lo scenario.
Fai clic sul pulsante del menu nell'angolo in alto a destra.
Seleziona Salva come conversazione di riferimento.

Obiettivo utente dello scenario

Ogni scenario ha un obiettivo utente, che descrive gli obiettivi dell'utente finale quando utilizza l'applicazione dell'agente. Ad esempio:

Securely book a specific room at a chosen hotel and receive a confirmation.

In base all'obiettivo dell'utente, CX Agent Studio genera automaticamente le conversazioni utilizzate per la valutazione.

Variabili di scenario

Quando definisci uno scenario, puoi fornire variabili da utilizzare per lo scenario.

Aspettative di scenario

Per eseguire una valutazione, definisci le aspettative per lo scenario di test.

Le aspettative possono essere di due tipi:

Messaggio: un messaggio previsto per l'utente finale o l'agente.
Chiamata allo strumento: una chiamata allo strumento con input e output previsti.

Le aspettative possono avere le seguenti condizioni:

Necessarie
Non deve avere
Dopo la chiamata allo strumento
Valore variabile

Per creare un'aspettativa:

Fai clic su uno scenario specifico per aprirne i dettagli.
Nella sezione Aspettative, fai clic su Visualizza tutto.
Segui le istruzioni dell'interfaccia per creare le aspettative per lo scenario.

Golden

Questi scenari di test vengono utilizzati per definire i percorsi conversazionali ideali per i test di regressione, in modo che i percorsi conversazionali principali e critici non vengano interrotti durante l'aggiornamento dell'agente. Esistono diverse opzioni per creare una conversazione d'oro:

Per importare una conversazione dal simulatore:

Avvia una conversazione utilizzando il simulatore.
Fai clic sui tre puntini verticali nell'angolo in alto a destra del simulatore per visualizzare il menu del simulatore.
Fai clic su Salva come golden.
Inserisci un nome per lo scenario di test di riferimento e fai clic su Salva. Ora verrà visualizzato nella scheda Valutazione.

Per creare uno scenario di test dalla cronologia delle conversazioni:

Vai alla scheda Valutazione e fai clic su + Aggiungi caso di test -> Golden.
Fai clic su Seleziona dalla cronologia delle conversazioni.
Nella finestra visualizzata, seleziona la conversazione che vuoi salvare come scenario di test di riferimento. Hai la possibilità di eseguire la ricerca per ID conversazione.
Se hai attivato la redazione, controlla le risposte e le variabili dell'agente per la redazione prima di procedere con le informazioni mancanti.
Fai clic su Aggiungi.

Per creare uno scenario di test da zero:

Vai alla scheda Valutazione e fai clic su + Aggiungi caso di test -> Golden.
Fai clic su Crea da zero.
Nella finestra visualizzata, aggiungi un Nome visualizzato per lo scenario di test.
Aggiungi il testo per l'input utente dell'utente e le aspettative dell'agente, se necessario. Fai clic su + Aggiungi input utente e + Aggiungi aspettativa dell'agente per aggiungere risposte. Fai clic su + Aggiungi turno per aggiungere un nuovo turno di conversazione allo scenario di test.
Fai clic su Crea per aggiungere lo scenario di test di riferimento all'elenco degli scenari di test.

Per creare uno scenario di test da una conversazione simulata in uno scenario di test:

Vai alla pagina dei risultati dell'esecuzione della valutazione.
Fai clic sull'icona del menu (tre puntini verticali) a destra della conversazione selezionata e fai clic su Salva come conversazione di riferimento.

Per caricare in batch gli scenari di test da un file:

Per informazioni dettagliate sul formato del file e un modello CSV, consulta la pagina Formato CSV dei test case di riferimento.

Aspettative d'oro

Per eseguire una valutazione, definisci le aspettative per lo scenario di test di riferimento. Un'aspettativa è un risultato specifico che ti aspetti dall'agente in un determinato momento della conversazione. Durante la valutazione, il comportamento effettivo dell'agente viene confrontato con queste aspettative.

Le aspettative possono essere di uno dei seguenti tipi:

Messaggio: una risposta di testo prevista dell'agente all'utente finale. La valutazione controlla se la risposta dell'agente corrisponde semanticamente a questa aspettativa.
Chiamata allo strumento: un'aspettativa che l'agente chiami uno strumento specifico e risponda. Puoi anche specificare gli argomenti di input previsti per la chiamata allo strumento.
Handoff dell'agente: l'aspettativa che l'agente trasferisca la conversazione a un agente umano o a un altro bot.

Per creare un'aspettativa:

Fai clic su uno specifico test case di riferimento per aprirne i dettagli.
Nella sezione Dettagli, fai clic su Visualizza golden.
Segui le istruzioni dell'interfaccia per aggiungere o modificare le aspettative.

Impostazioni di valutazione

Nella riga di intestazione dell'elenco di scenari di test, puoi configurare le impostazioni di valutazione:

Golden:
- Criteri di superamento/non superamento: imposta la logica per determinare se una conversazione simulata viene superata o meno.
- Livello di turno: Queste regole giudicano ogni singolo turno. Se una di queste soglie non viene raggiunta, la metrica specifica verrà codificata in rosso come errore.
  - Somiglianza semantica: Valore di soglia per la somiglianza semantica.
  - Correttezza dello strumento: Valore di soglia per la correttezza dello strumento.
  - Allucinazioni: Se disattivate, le allucinazioni vengono escluse dal risultato superato/non superato.
- Livello di aspettative: Queste regole valutano le aspettative all'interno di un turno. Se una di queste soglie non viene raggiunta, la metrica specifica verrà codificata in rosso come errore.
  - Correttezza dello strumento: Valore di soglia per la correttezza dello strumento.
- Metodo Golden Run: Scegli tra la convalida della riproduzione ingenua o stabile.
- Tool fake: Utilizza dati simulati anziché chiamate API di produzione reali.
Scenarios:
- Criteri di superamento/non superamento dello scenario: Imposta la logica per determinare se una conversazione simulata viene superata o meno.
- Iniziatore della conversazione: imposta chi inizia la conversazione, l'utente o il modello.
- Tool fake: Utilizza dati simulati anziché chiamate API di produzione reali.
Valutazione audio
- Registrazioni per la valutazione audio

Esegui valutazioni

Per eseguire una valutazione, puoi fare clic sul pulsante di esecuzione nella riga dello scenario di test oppure selezionare più scenari di test ed eseguirli.

Se hai salvato più versioni, puoi selezionare la versione dell'agente da utilizzare o salvare automaticamente la bozza dell'agente come nuova versione per l'esecuzione.

Dopo l'esecuzione di una valutazione, le metriche verranno aggiornate e i risultati verranno presentati.

Se fai clic su una valutazione di una corsa specifica, puoi visualizzare i risultati dettagliati di una corsa. Oltre alle metriche standard, vengono visualizzate le seguenti:

Svolte non riuscite
Elenco paginato di tutti i dettagli del turno, che include sia le risposte dell'agente effettive che quelle previste.

Per gli scenari di test di riferimento, potresti visualizzare il termine "ripetizione stabile", che chiarisce che il test è stato eseguito in un ambiente coerente (ovvero senza cambiare contesto/ input).

Utilizzare l'AI per migliorare gli scenari di test (ANTEPRIMA)

Se vuoi, puoi utilizzare l'AI per risolvere i problemi relativi a un'esecuzione e suggerire modi per migliorare la qualità dell'agente. I suggerimenti dell'AI sono ottimali quando il numero di esecuzioni è pari o superiore a 3. Per attivare l'AI, seleziona gli scenari di test che vuoi valutare e fai clic su Esegui selezione. Nella finestra visualizzata, seleziona la casella accanto a Trova problemi con l'AI.

Al termine dell'esecuzione, nella pagina dei risultati verranno visualizzati suggerimenti basati sull'AI. Gemini genera automaticamente un loss_report scaricabile che riepiloga gli aspetti del rendimento dell'agente ed evidenzia le aree che possono essere migliorate.

Qualsiasi utente può visualizzare le correzioni suggerite dall'AI, ma solo la persona che ha avviato l'esecuzione può intraprendere azioni in base ai risultati.

Fai clic su Chiedi a Gemini per interagire con l'agente di assistenza. Per prima cosa vedrai il report sulle perdite che spiega i problemi di alto livello con il modello o l'agente. Puoi chiedere all'agente di assistenza di spiegarti il report, che lo riepilogherà e potrebbe suggerire correzioni. Una volta applicate le correzioni, puoi chiedere all'agente di assistenza di eseguire nuovamente la valutazione.

Metriche

Ogni risultato dello scenario di test include un insieme di metriche che misurano le prestazioni dell'agente rispetto agli scenari di test selezionati. Le metriche vengono calcolate a livello di turno o di aspettativa (conversazione) come indicato nella console.

In tutti i casi, puoi personalizzare i valori richiesti per il passaggio del test nel menu Impostazioni della scheda Valuta.

Correttezza dello strumento

Calcolato per gli scenari di test golden e scenario. Questa metrica riflette la percentuale di parametri previsti che sono stati abbinati dato un richiamo dello strumento previsto e i relativi valori dei parametri previsti. Le chiamate allo strumento mancate vengono conteggiate come 0, mentre le chiamate allo strumento senza parametri di input vengono conteggiate come 1 se presenti. Se viene effettuata una chiamata allo strumento imprevista durante una valutazione di riferimento, il risultato verrà considerato un errore, ma ciò non influisce sul valore di correttezza dello strumento.

Soddisfazione dell'obiettivo dell'utente

Calcolato per scenari. La soddisfazione dell'obiettivo dell'utente è una metrica binaria progettata per le valutazioni di simulazione degli utenti. Misura se l'utente simulato ritiene che i suoi obiettivi siano stati raggiunti (0=no, 1=sì). Gli input sono user_goal come definiti dalla configurazione dell'utente simulato e una trascrizione della conversazione. Se il user_goal fornito non specifica un obiettivo esplicito o implicito, il punteggio dell'output è -1.

Allucinazioni

Disponibile per gli scenari di test golden e scenario. I punteggi di allucinazione vengono calcolati per ogni turno generato. Questa metrica indica se l'agente ha fatto affermazioni non giustificate dal contesto dell'agente (0=no, 1=sì). Il contesto è costituito da tutti i turni precedenti della conversazione, dalle variabili di sessione, dalle chiamate di strumenti e dalle istruzioni dell'agente. Questa metrica viene calcolata solo per i turni contenenti chiamate di strumenti. Non rileva le allucinazioni nelle chiamate di strumenti; le chiamate di strumenti fornite come contesto sono considerate corrette. Per ridurre al minimo i falsi positivi, la metrica potrebbe restituire un punteggio N/A se una risposta non contiene affermazioni oggettive o solo conoscenze comuni già consolidate.

Puoi attivare e disattivare le allucinazioni nelle impostazioni di valutazione.

Corrispondenza semantica

Calcolato per gli scenari di test golden. Questa metrica misura il grado di corrispondenza tra l'espressione di un agente osservata e un'espressione di un agente prevista. La corrispondenza semantica viene calcolata a livello di turno. I valori restituiti vanno da 0 (completamente incoerente o contraddittorio) a 4 (completamente coerente).

Aspettative di scenario

Calcolato per scenari. Questa metrica misura se il comportamento dell'agente come previsto dagli utenti simulati è stato soddisfacente o meno (0=no, 1=sì). Sono supportati due tipi di aspettative degli utenti simulate:

Aspettative di chiamata allo strumento: calcolate in modo simile alla correttezza della chiamata allo strumento con le seguenti eccezioni:
- I risultati sono 0 (no) o 1 (sì).
- Le chiamate di strumenti impreviste non vengono penalizzate. Le aspettative hanno lo scopo di specificare l'insieme di chiamate di strumenti essenziali affinché una conversazione soddisfi le aspettative dell'utente simulato.
- Quando viene soddisfatta un'aspettativa di input della chiamata allo strumento, la chiamata viene intercettata e sostituita in fase di runtime con un valore di ritorno simulato.
Aspettative di risposta dell'agente: verifica se una risposta dell'agente nella conversazione contiene una stringa prevista.

Completamento attività

Calcolato per scenari. Il completamento delle attività è una misura della qualità della conversazione. Misura congiuntamente se gli obiettivi dell'utente sono stati raggiunti E se il comportamento dell'agente è stato corretto. È definito come:

User_Goal_Satisfied AND no_hallucinations_detected AND Expectations Satisfied

Utenti tipo

Le buyer persona sono buyer persona utente simulate che puoi personalizzare e utilizzare per testare gli agenti con scenari di test. Questa funzionalità è utile per garantire che l'agente interagisca in modo appropriato con i tipi di utenti umani che probabilmente incontrerà in fase di runtime.

Se non selezioni una persona, ne verrà selezionata una casuale per ogni risultato dello scenario.

Questa funzionalità è disponibile per l'utilizzo con input di testo e audio.

Creare un utente tipo

Per creare una persona, vai alla scheda Valuta e fai clic su Gestione persona (accanto all'icona delle impostazioni).
Fai clic su + Aggiungi persona.
Nel menu visualizzato, inserisci un Nome, una Personalità utente e qualsiasi Contesto utente aggiuntivo (ad esempio età, posizione, motivo della chiamata e così via).
Fai clic su + Aggiungi.

Per eseguire una valutazione utilizzando un utente tipo:

Torna alla pagina principale Valuta e seleziona uno o più scenari di test. Fai clic su Esegui selezione.
Nella finestra popup, seleziona la persona appena creata dal menu a discesa Personas e fai clic su Esegui.

Valutazione Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Concetti di valutazione

Creare scenari di test

Scenario

Obiettivo utente dello scenario

Variabili di scenario

Aspettative di scenario

Golden

Aspettative d'oro

Impostazioni di valutazione

Esegui valutazioni

Utilizzare l'AI per migliorare gli scenari di test (ANTEPRIMA)

Metriche

Correttezza dello strumento

Soddisfazione dell'obiettivo dell'utente

Allucinazioni

Corrispondenza semantica

Aspettative di scenario

Completamento attività

Utenti tipo

Creare un utente tipo

Valutazione