Automatische Bewertungsmesswerte für die Zusammenfassung

Bei der automatischen Bewertung von Zusammenfassungen wird die Qualität von KI-generierten Zusammenfassungen anhand von Richtigkeit, Vollständigkeit und Einhaltung bewertet.

Genauigkeit

Die Genauigkeit gibt an, wie gut eine Zusammenfassung mit den sachlichen Details des Unterhaltungstranskripts übereinstimmt. Für jede Zusammenfassung wird bei der automatischen Bewertung ein Korrektheitsanteil in Prozent zusammen mit einer entsprechenden Begründung ermittelt. Ein niedriger Genauigkeitswert bedeutet, dass es in der Zusammenfassung faktische Probleme gibt.

Die Genauigkeitsergebnisse sehen so aus:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • Jedes point im vorherigen Beispiel ist ein zerlegter Teil der Zusammenfassung. Der binäre Parameter is_accurate zeigt das Ergebnis der Genauigkeitsbewertung an. Der Parameter accuracy enthält die Begründung.

Adhärenz

Bei der automatischen Bewertung von Zusammenfassungen wird eine Reihe von Fragen auf die bereitgestellte Zusammenfassung angewendet. Bei der automatischen Bewertung werden diese Fragen und das Unterhaltungsprotokoll verwendet, um die Einhaltung der einzelnen Anweisungen in der Zusammenfassung zu bewerten. Die automatische Auswertung der Zusammenfassung basiert jedoch auf Gemini, das grammatische Anweisungen möglicherweise nicht genau überprüft. Daher kann die automatische Zusammenfassungsbewertung möglicherweise nicht genau beurteilen, ob eine Zusammenfassung grammatikalischen Anweisungen entspricht.

Ein niedriger Einhaltungs-Score bedeutet, dass die Zusammenfassung nicht den Anweisungen in der Definition des Zusammenfassungsbereichs entspricht. Nur für Zusammenfassungen, in denen benutzerdefinierte Abschnitte verwendet wurden, kann ein Adherence-Score generiert werden.

Bei der automatischen Auswertung von Zusammenfassungen werden die folgenden zwei Arten von Zusammenfassungsaufgaben berücksichtigt:

  • Kategorische Zusammenfassungen: Geben Sie einen in der Anleitung definierten kategorischen Wert an. In der Anleitung wird beispielsweise eine Antwort mit Sonnig oder Bewölkt erwartet. Bei der automatischen Bewertung wird geprüft, ob die angegebene Zusammenfassung nur Sonnig oder Bewölkt ohne beschreibenden Text enthält.
  • Zusammenfassungen ohne Kategorien: Geben Sie Text in freiem Format an. Bei der automatischen Bewertung wird geprüft, ob eine nicht kategorische Zusammenfassung den Anweisungen in der Aufgabenbeschreibung entspricht.

Die Ergebnisse zur Einhaltung sehen so aus:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • Jede Frage wird aus der bereitgestellten Definition des Zusammenfassungsbereichs abgeleitet. Der binäre Parameter is_addressed zeigt das Ergebnis der Einhaltungsbewertung an. Der Parameter reasoning enthält eine Begründung.

  • Wenn Fragen nicht mit Ihrem Ziel übereinstimmen, war die Definition des Zusammenfassungsbereichs für dieses Ziel unklar. Sie können das Problem nachvollziehen und Ihre Abschnittsdefinitionen verbessern.

Vollständigkeit

Bei der automatischen Bewertung von Zusammenfassungen wird eine Reihe von Schemata verwendet, um die Vollständigkeit einer KI-generierten Zusammenfassung anhand der Anweisungen in der Abschnittsdefinition der Zusammenfassung zu bewerten. Ein niedriger Vollständigkeitswert bedeutet, dass die Zusammenfassung nicht alle wichtigen Informationen aus dem Transkript enthält.

Die Ergebnisse für die Vollständigkeit sehen so aus:

{
  "rubrics": [
    {
      "question": "Does the summary identify that the customer initially considered cancelling their subscription?",
      "is_addressed": "True"
    },
    {
      "question": "Does the summary identify that the customer inquired about a previously issued credit?",
      "is_addressed": "False"
    },
    {
      "question": "Does the summary mention the specific amount of the credit ($20)?",
      "is_addressed": "False"
    }
  ]
}
  • Jede Frage basiert auf der bereitgestellten Aufgabenbeschreibung und dem Transkript. Der binäre Parameter is_addressed zeigt das Ergebnis der Auswertung an.

  • Wenn eine der Fragen nicht mit Ihrem Ziel übereinstimmt, war die Abschnittsdefinition Ihrer Zusammenfassung unklar. Verstehen Sie das Problem und verbessern Sie die Definition Ihres Websitebereichs.