La valutazione automatica del riepilogo è fondamentale per abbandonare il controllo qualità manuale basato su fogli di lavoro e passare alla convalida automatica e scalabile dei modelli di riepilogo. Questa funzionalità fornisce le prove empiriche necessarie per eseguire l'upselling delle versioni del modello o convalidare le modifiche ai prompt personalizzati.
Prima della valutazione automatica, la convalida di un modello di riepilogo richiedeva che gli esseri umani leggessero le trascrizioni e valutassero manualmente i riepiloghi, il che era un processo lento, costoso e soggettivo. La valutazione automatica del riepilogo migliora la convalida del modello di riepilogo nei seguenti modi:
- Scala:valuta centinaia di conversazioni in circa 20-30 minuti.
- Coerenza:i giudici basati su LLM valutano l'accuratezza, l'aderenza e la completezza.
- Confronto:fornisce prove affiancate che dimostrano che il modello A ha un rendimento migliore del modello B.
Prima di iniziare
- Per eseguire una valutazione, hai bisogno di un generatore di riepiloghi (la configurazione del modello) e di un set di dati (le conversazioni).
- Se vuoi utilizzare un set di dati Customer Experience Insights ma non ne hai creato uno, vai alla console Customer Experience Insights. Se hai file di trascrizione non elaborati, convertili nel formato supportato per il caricamento.
Le due origini dati
Hai a disposizione le seguenti due opzioni per importare i dati delle conversazioni.
| Tipo di origine | Ideale per… | Come funziona |
| Spazio di archiviazione di Agent Assist | Traffico live/di produzione | Selezioni un intervallo di date e una dimensione del campione. La valutazione automatica del riepilogo esegue un campionamento casuale del traffico effettivo memorizzato nel sistema. |
| Set di dati Conversational Insights | Test di scenari specifici | Selezioni un set di dati curato creato in Customer Experience Insights. Questa opzione è ideale per i golden set o scenari di test specifici. |
Passaggio 1: crea un generatore
- Vai a Valutazioni e fai clic su Nuova valutazione.
- Inserisci i seguenti dettagli:
- Nome visualizzato: utilizza una convenzione di denominazione che includa la versione e la data del modello.
- Funzionalità: seleziona Riassunto.
- Generatore: seleziona il generatore specifico che vuoi testare.
Passaggio 2: crea un set di dati sulle conversazioni
Seleziona una delle seguenti origini dati riepilogative.
- Genera nuovi riepiloghi per tutte le conversazioni: consigliato per testare le nuove versioni del modello.
- Genera solo i riepiloghi mancanti dal set di dati: consigliato quando non tutte le trascrizioni delle conversazioni hanno riepiloghi corrispondenti in base al generatore selezionato nel passaggio precedente.
- Utilizza i riepiloghi esistenti del set di dati. Non generare riepiloghi: consigliato per valutare ciò che è già stato prodotto senza rigenerazione o per confrontare il rendimento di diversi generatori di riepiloghi.
Passaggio 3: scegli una risorsa Cloud Storage
Scegli una cartella Cloud Storage in un bucket per archiviare il risultato.
Mentre la console di Assistente agente mostra i risultati di alto livello, esporta i dati dettagliati riga per riga come file CSV. Questa è la fonte di riferimento per la risoluzione dei problemi in modo approfondito.
Passaggio 4: interpreta le metriche
Al termine dell'esecuzione, viene visualizzata una scheda con i punteggi per ogni metrica di valutazione.
Visualizza in dettaglio
Puoi fare clic su una riga di conversazione specifica per visualizzare i seguenti dettagli:
- La trascrizione con il dialogo non elaborato
- I candidati del riepilogo
- Spiegazione dell'autovalutazione del riepilogo di un punteggio specifico
Passaggio 5: utilizza la modalità di confronto
Puoi selezionare due esecuzioni di valutazione distinte e confrontarle. Confronta i modelli di valutazione per lo stesso set di dati per assicurarti di confrontarli con le stesse informazioni. Se modifichi il set di dati tra un'esecuzione e l'altra, il confronto non è valido. Verifica sempre che l'ID set di dati corrisponda nei metadati.
Segui questi passaggi per visualizzare le prove dell'upgrade del modello di riepilogo alla versione più recente.
- Esegui la valutazione A utilizzando il modello attuale.
- Esegui la valutazione B sullo stesso set di dati utilizzando il modello più recente.
- Seleziona entrambe le valutazioni nell'elenco e fai clic su Confronta.
La console di Assistente agente evidenzia i punteggi più alti.
Suggerimenti per la risoluzione dei problemi e best practice
- Carica i tuoi file di testo non elaborati per la valutazione. Innanzitutto, crea un set di dati Customer Experience Insights.
- La console mostra la sezione Situazione concisa, ma il testo riepilogativo la elenca al secondo posto. L'ordine della barra laterale potrebbe non corrispondere perfettamente all'ordine di generazione del testo. Fai affidamento sui contenuti di testo e sull'esportazione CSV per la struttura definitiva.
- Informazioni sui punteggi automatici. Sono affidabili, ma verifica. Il modello di autovalutazione è calibrato per emulare l'interazione umana, ma esistono casi limite. Utilizza sempre l'esportazione CSV di Cloud Storage per controllare manualmente un piccolo campione e creare fiducia nel punteggio automatizzato.