L'évaluation automatique des résumés évalue la qualité des résumés générés par IA en fonction de leur précision, de leur exhaustivité et de leur conformité.
Précision
La précision mesure dans quelle mesure un résumé correspond aux détails factuels de la transcription de la conversation. Pour chaque résumé, l'auto-évaluation détermine un pourcentage d'exactitude, ainsi qu'une justification correspondante. Un faible score de précision signifie que le résumé contient des problèmes factuels.
Les résultats de précision se présentent comme suit :
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- Chaque
pointde l'exemple précédent est une partie décomposée du résumé. Le paramètre binaireis_accurateaffiche le résultat de l'évaluation de la précision. Le paramètreaccuracyfournit la justification.
Respect
L'auto-évaluation de la synthèse applique un ensemble de questions à la synthèse fournie. L'auto-évaluation utilise ces questions et la transcription de la conversation pour évaluer la conformité du résumé à chaque instruction. Toutefois, l'évaluation automatique de la synthèse repose sur Gemini, qui peut ne pas vérifier correctement les instructions grammaticales. Par conséquent, l'auto-évaluation de la synthèse peut ne pas évaluer avec précision si une synthèse respecte les instructions grammaticales.
Un faible score d'adhérence signifie que le résumé ne respecte pas les instructions fournies dans la définition de la section "Résumé". Seuls les résumés qui utilisent des sections personnalisées peuvent générer un score d'adhérence.
Pour l'évaluation automatique de l'adéquation, la synthèse reconnaît les deux types de tâches de synthèse suivants :
- Résumés catégoriels : fournissez une valeur catégorielle définie dans les instructions. Par exemple, les instructions demandent une réponse Ensoleillé ou Nuageux. L'auto-évaluation vérifie si le résumé fourni ne contient que Sunny (Ensoleillé) ou Cloudy (Nuageux) sans texte descriptif.
- Résumés non catégoriels : fournissez du texte libre. L'auto-évaluation vérifie si un résumé non catégoriel suit les instructions définies dans la description de la tâche.
Les résultats de l'adhérence se présentent comme suit :
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
Chaque question est basée sur la définition de la section "Résumé" fournie. Le paramètre binaire
is_addressedaffiche le résultat de l'évaluation de l'adhérence. Le paramètrereasoningfournit une justification.Si des questions ne sont pas alignées sur votre objectif, cela signifie que la définition de cet objectif dans la section "Résumé" n'était pas claire. Vous pouvez comprendre le problème et améliorer vos définitions de sections.
Exhaustivité
L'évaluation automatique de la synthèse applique un ensemble de rubriques pour évaluer l'exhaustivité d'un résumé généré par IA en fonction des instructions de la définition de la section du résumé. Un faible score d'exhaustivité signifie que le résumé n'a pas inclus les informations importantes de la transcription.
Les résultats de l'exhaustivité se présentent comme suit :
{ "rubrics": [ { "question": "Does the summary identify that the customer initially considered cancelling their subscription?", "is_addressed": "True" }, { "question": "Does the summary identify that the customer inquired about a previously issued credit?", "is_addressed": "False" }, { "question": "Does the summary mention the specific amount of the credit ($20)?", "is_addressed": "False" } ] }
Chaque question est basée sur la description de la tâche et la transcription fournies. Le paramètre binaire
is_addressedaffiche le résultat de l'évaluation.Si l'une des questions ne correspond pas à votre objectif, cela signifie que la définition de la section de votre résumé n'était pas claire. Comprenez le problème et améliorez la définition de votre section.