La valutazione automatica del riepilogo (autovalutazione) valuta la qualità dei riepiloghi generati dall'AI in base ad accuratezza, completezza e aderenza.
Accuratezza
L'accuratezza misura la corrispondenza di un riepilogo con i dettagli fattuali della trascrizione della conversazione. Per ogni riepilogo, l'autovalutazione determina una percentuale di correttezza, insieme a una giustificazione corrispondente. Un punteggio di accuratezza basso indica che nel riepilogo sono presenti problemi fattuali.
I risultati dell'accuratezza hanno il seguente aspetto:
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- Ogni
pointnell'esempio precedente è una parte scomposta del riepilogo. Il parametro binariois_accuratemostra il risultato della valutazione dell'accuratezza. Il parametroaccuracyfornisce la giustificazione.
Aderenza
L'autovalutazione del riepilogo applica una serie di domande al riepilogo fornito. L'autovalutazione utilizza queste domande e la trascrizione della conversazione per valutare la conformità del riepilogo a ogni istruzione. Tuttavia, l'autovalutazione del riepilogo si basa su Gemini, che potrebbe non verificare con precisione le istruzioni grammaticali. Pertanto, l'autovalutazione del riepilogo potrebbe non valutare con precisione se un riepilogo rispetta le istruzioni grammaticali.
Un punteggio di aderenza basso indica che il riepilogo non rispetta le istruzioni fornite nella definizione della sezione del riepilogo. Solo i riepiloghi che utilizzano sezioni personalizzate possono generare un punteggio di aderenza.
Per l'aderenza, l'autovalutazione del riepilogo riconosce i seguenti due tipi di attività di riepilogo:
- Riepiloghi categorici: fornisci un valore categorico definito nelle istruzioni. Ad esempio, le istruzioni richiedono una risposta Soleggiato o Nuvoloso. L'autovalutazione verifica se il riepilogo fornito contiene solo Soleggiato o Nuvoloso senza testo descrittivo.
- Riepiloghi non categorici: fornisci testo in formato libero. L'autovalutazione verifica se un riepilogo non categorico segue le istruzioni definite nella descrizione dell'attività.
I risultati dell'aderenza hanno il seguente aspetto:
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
Ogni domanda deriva dalla definizione della sezione del riepilogo fornita. Il parametro binario
is_addressedmostra il risultato della valutazione dell'aderenza. Il parametroreasoningfornisce una giustificazione.Se alcune domande non sono in linea con il tuo obiettivo, la definizione della sezione del riepilogo di quell'obiettivo non era chiara. Puoi comprendere il problema e migliorare le definizioni delle sezioni.
Completezza
L'autovalutazione del riepilogo applica una serie di rubriche per valutare la completezza di un riepilogo generato dall'AI in base alle istruzioni nella definizione della sezione del riepilogo. Un punteggio di completezza basso indica che il riepilogo non ha incluso le informazioni importanti della trascrizione.
I risultati della completezza hanno il seguente aspetto:
{ "rubrics": [ { "question": "Does the summary identify that the customer initially considered cancelling their subscription?", "is_addressed": "True" }, { "question": "Does the summary identify that the customer inquired about a previously issued credit?", "is_addressed": "False" }, { "question": "Does the summary mention the specific amount of the credit ($20)?", "is_addressed": "False" } ] }
Ogni domanda deriva dalla descrizione dell'attività e dalla trascrizione fornite. Il parametro binario
is_addressedmostra il risultato della valutazione.Se alcune domande non sono in linea con il tuo obiettivo, la definizione della sezione del riepilogo non era chiara. Comprendi il problema e migliora la definizione della sezione.