L'évaluation automatique de la synthèse (auto-évaluation) évalue la qualité des résumés générés par l'IA en fonction de leur précision, de leur exhaustivité et de leur conformité.
Précision
La précision mesure le degré de correspondance entre un résumé et les détails factuels de la transcription de la conversation. Pour chaque résumé, l'auto-évaluation détermine un pourcentage d'exactitude, ainsi qu'une justification correspondante. Un faible score de précision signifie que le résumé contient des problèmes factuels.
Les résultats de précision se présentent comme suit :
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- Chaque
pointde l'exemple précédent est une partie décomposée du résumé. Le paramètre binaireis_accurateaffiche le résultat de l'évaluation de la précision. Le paramètreaccuracyfournit la justification.
Conformité
L'auto-évaluation de la synthèse applique un ensemble de questions au résumé fourni. L'auto-évaluation utilise ces questions et la transcription de la conversation pour évaluer la conformité du résumé à chaque instruction. Toutefois, l'auto-évaluation de la synthèse repose sur Gemini, qui peut ne pas vérifier correctement les instructions grammaticales. Par conséquent, l'auto-évaluation de la synthèse peut ne pas évaluer avec précision si un résumé respecte les instructions grammaticales.
Un faible score de conformité signifie que le résumé ne respecte pas les instructions fournies dans la définition de la section du résumé. Seuls les résumés qui utilisent des sections personnalisées peuvent générer un score de conformité.
Pour la conformité, l'auto-évaluation de la synthèse reconnaît les deux types de tâches de résumé suivants :
- Résumés catégoriels : fournissent une valeur catégorielle définie dans les instructions. Par exemple, les instructions demandent une réponse Ensoleillé ou Nuageux. L'auto-évaluation vérifie si le résumé ne fournit que Ensoleillé ou Nuageux sans texte descriptif.
- Résumés non catégoriels : fournissent du texte libre. L'auto-évaluation vérifie si un résumé non catégoriel suit les instructions définies dans la description de la tâche.
Les résultats de conformité se présentent comme suit :
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
Chaque question est dérivée de la définition de la section de résumé fournie. Le paramètre binaire
is_addressedaffiche le résultat de l'évaluation de la conformité. Le paramètrereasoningfournit une justification.Si des questions ne sont pas alignées sur votre objectif, la définition de la section de résumé de cet objectif n'était pas claire. Vous pouvez comprendre le problème et améliorer vos définitions de section.
Exhaustivité
L'auto-évaluation de la synthèse applique un ensemble de rubriques pour évaluer l'exhaustivité d'un résumé généré par l'IA en fonction des instructions de la définition de la section du résumé. Un faible score d'exhaustivité signifie que le résumé n'a pas inclus les informations importantes de la transcription.
Les résultats d'exhaustivité se présentent comme suit :
{ "rubrics": [ { "question": "Does the summary identify that the customer initially considered cancelling their subscription?", "is_addressed": "True" }, { "question": "Does the summary identify that the customer inquired about a previously issued credit?", "is_addressed": "False" }, { "question": "Does the summary mention the specific amount of the credit ($20)?", "is_addressed": "False" } ] }
Chaque question est dérivée de la description de la tâche et de la transcription fournies. Le paramètre binaire
is_addressedaffiche le résultat de l'évaluation.Si l'une des questions n'est pas alignée sur votre objectif, la définition de la section de votre résumé n'était pas claire. Comprenez le problème et améliorez la définition de votre section.