Bewertungsergebnisse ansehen und interpretieren

Auf dieser Seite wird beschrieben, wie Sie Ihre Modellbewertungsergebnisse nach der Ausführung der Modellbewertung ansehen und interpretieren.

Bewertungsergebnisse ansehen

Nachdem Sie die Bewertungsaufgabe definiert haben, führen Sie sie aus, um die Bewertungsergebnisse zu erhalten:

from vertexai.evaluation import EvalTask

eval_result = EvalTask(
    dataset=DATASET,
    metrics=[METRIC_1, METRIC_2, METRIC_3],
    experiment=EXPERIMENT_NAME,
).evaluate(
    model=MODEL,
    experiment_run=EXPERIMENT_RUN_NAME,
)

Die Klasse EvalResult stellt das Ergebnis eines Bewertungslaufs mit den folgenden Attributen dar:

  • summary_metrics: Ein Dictionary mit zusammengefassten Bewertungs-Messwerten für einen Bewertungsdurchlauf.
  • metrics_table: Eine pandas.DataFrame-Tabelle mit Eingaben, Antworten, Erklärungen und Messwertergebnissen des Bewertungs-Datasets pro Zeile.
  • metadata: Der Name des Tests und des Testlaufs für den Auswertungslauf.

Die Klasse EvalResult ist so definiert:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: A dictionary of aggregated evaluation metrics for an evaluation run.
      metrics_table: A pandas.DataFrame table containing evaluation dataset inputs,
        responses, explanations, and metric results per row.
      metadata: the experiment name and experiment run name for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

Durch den Einsatz von Hilfsfunktionen können die Bewertungsergebnisse im Colab-Notebook angezeigt werden:

Tabellen für zusammenfassende Messwerte und zeilenbasierte Messwerte

Bewertungsergebnisse visualisieren

Zusammenfassende Messwerte können in einem Netz- oder Balkendiagramm dargestellt werden, um die Ergebnisse aus verschiedenen Bewertungsläufen zu visualisieren und zu vergleichen. Diese Visualisierung kann hilfreich sein, um verschiedene Modelle und verschiedene Prompt-Vorlagen zu bewerten.

Im folgenden Beispiel visualisieren wir vier Messwerte (Kohärenz, Sprachfluss, Befolgung der Anleitung und allgemeine Textqualität) für Antworten, die mit vier verschiedenen Prompt-Vorlagen generiert wurden. Aus dem Radar- und dem Balkendiagramm lässt sich schließen, dass die Promptvorlage 2 bei allen vier Messwerten durchgehend besser abschneidet als die anderen Vorlagen. Das zeigt sich besonders in den deutlich höheren Werten für die Befolgung von Anweisungen und die Textqualität. Auf Grundlage dieser Analyse scheint die Promptvorlage 2 die effektivste der vier Optionen zu sein.

Radardiagramm mit den Werten für Kohärenz, Befolgung der Anleitung, Textqualität und Sprachfluss für alle Prompt-Vorlagen

Balkendiagramm mit dem Mittelwert für Kohärenz, Befolgung der Anleitung, Textqualität und Sprachfluss für alle Prompt-Vorlagen

Messwertergebnisse verstehen

In den folgenden Tabellen sind verschiedene Komponenten von Ergebnissen auf Instanzebene und aggregierten Ergebnissen aufgeführt, die für PointwiseMetric, PairwiseMetric und berechnungsbasierte Messwerte in metrics_table bzw. summary_metrics enthalten sind:

PointwiseMetric

Ergebnisse auf Instanzebene

Spalte Beschreibung
Antwort Die Antwort, die vom Modell für den Prompt generiert wurde.
Punktzahl Die Bewertung der Antwort gemäß den Kriterien und dem Bewertungsschema. Die Punktzahl kann binär (0 und 1), Likert-Skala (1 bis 5 oder -2 bis 2) oder Gleitkommazahl (0, 0 bis 1,0) sein.
Erklärung Begründung des Bewertungsmodells für die gegebene Punktzahl. Wir verwenden die Chain-of-Thought-Logik, um das Richtermodell anzuweisen, die Überlegungen zu jedem Ergebnis zu erläutern. Es erweist sich, dass die Bewertungsgenauigkeit sich verbessert, wenn das Bewertungsmodell zur Argumentation gezwungen wird.

Zusammengefasste Ergebnisse

Spalte Beschreibung
Mittlere Punktzahl Durchschnittliche Punktzahl für alle Instanzen.
Standardabweichung Standardabweichung aller Punktzahlen.

PairwiseMetric

Ergebnisse auf Instanzebene

Spalte Beschreibung
Antwort Die Antwort, die vom Kandidatenmodell für den Prompt generiert wurde.
baseline_model_response Die Antwort, die vom Basismodell für den Prompt generiert wurde.
pairwise_choice Das Modell mit der besseren Antwort. Mögliche Werte sind CANDIDATE, BASELINE oder TIE.
Erklärung Begründung des Bewertungsmodells für die Auswahl.

Zusammengefasste Ergebnisse

Spalte Beschreibung
candidate_model_win_rate Verhältnis der Zeit, in der das Bewertungsmodell entschied, dass das CANDIDATE-Modell die bessere Antwort im Vergleich zur Gesamtzahl der Antworten hatte. Liegt zwischen 0 und 1.
baseline_model_win_rate Verhältnis der Zeit, in der das Bewertungsmodell entschied, dass das BASELINE-Modell die bessere Antwort im Vergleich zur Gesamtzahl der Antworten hatte. Liegt zwischen 0 und 1.

Berechnungsbasierte Messwerte

Ergebnisse auf Instanzebene

Spalte Beschreibung
Antwort Die Antwort des Modells wird ausgewertet.
Referenz Die Referenzantwort.
Punktzahl Die Punktzahl wird für jedes Paar aus Antworten und Referenzen berechnet.

Zusammengefasste Ergebnisse

Spalte Beschreibung
Mittlere Punktzahl Durchschnittliche Punktzahl für alle Instanzen.
Standardabweichung Standardabweichung aller Punktzahlen.

Beispiele

Die Beispiele in diesem Abschnitt veranschaulichen, wie Sie die Ergebnisse der Überprüfung lesen und einordnen.

Beispiel 1: Punktweise Bewertung

Im ersten Beispiel sollten Sie eine punktweise Bewertungsinstanz für TEXT_QUALITY bewerten. Die Punktzahl aus der punktweisen Bewertung des Messwerts TEXT_QUALITY ist 4 (aus der Skala 1 bis 5), was bedeutet, dass die Antwort gut ist. Darüber hinaus wird im Bewertungsergebnis erläutert, warum das Bewertungsmodell der Meinung ist, dass die Vorhersage die Punktzahl 4 und keine höhere oder niedrigere Punktzahl verdient.

Dataset

  • prompt: „Fasse den folgenden Text so zusammen, dass ein fünfjähriges Kind ihn verstehen kann: Social-Media-Plattform sieht sich wegen Richtlinien zur Inhaltsmoderation mit Gegenreaktionen konfrontiert\nA bekannte Social-Media-Plattform gerät in Kontroverse, da Nutzer und Content-Creator ihre Unzufriedenheit mit den Richtlinien zur Inhaltsmoderation zum Ausdruck bringen. Vorwürfe der voreingenommenen Zensur, widersprüchliche Durchsetzung und Unterdrückung bestimmter Standpunkte haben zu Empörung bei Nutzern geführt, die behaupten, dass die Plattform die freie Meinungsäußerung unterbindet. Andererseits betont die Plattform, dass ihre Richtlinien darauf ausgelegt sind, eine sichere und inklusive Onlineumgebung zu schaffen. Diese Kontroverse wirft umfassendere Fragen über die Rolle sozialer Medien bei der Gestaltung des öffentlichen Diskurses und die Verantwortlichkeiten von Plattformen bei der Auswahl von Onlineinhalten auf.“

  • response: „Nutzer sind wegen einer Website verärgert, weil sie finden, dass sie sich unfair dabei verhält, was Leute posten dürfen. Einige Nutzer sagen, dass sie auf der Website nicht sagen können, was sie möchten. Aber die Website sagt, dass sie versucht, alle zu schützen. Deswegen fragen sich die Leute, ob Websites kontrollieren sollten, was Menschen online sagen dürfen.“

Ergebnis

  • score: 4,
  • explanation: Die Zusammenfassung in der Antwort folgt der Anweisung, den Kontext so zusammenzufassen, dass ein fünfjähriges Kind ihn verstehen kann. Die Zusammenfassung basiert auf dem Kontext und enthält wichtige Details. Die in der Antwort verwendete Sprache ist jedoch etwas umständlich.

Beispiel 2: Paarweise Bewertung

Das zweite Beispiel ist eine paarweise Vergleichsbewertung für PAIRWISE_QUESTION_ANSWERING_QUALITY. Das Ergebnis pairwise_choice zeigt, dass das Bewertungsmodell die CANDIDATE-Antwort „Frankreich ist ein Land in Westeuropa“ im Vergleich zur BASELINE-Antwort „Frankreich ist ein Land“ bevorzugt, um die Frage im Prompt zu beantworten. Ähnlich wie bei den punktbezogenen Ergebnissen wird auch erklärt, warum die CANDIDATE-Antwort besser ist als die BASELINE-Antwort (die CANDIDATE-Antwort ist in diesem Fall hilfreicher).

Dataset

  • prompt: „Kannst du anhand des folgenden Absatzes beantworten, wo Frankreich liegt? Frankreich ist ein Land in Westeuropa. Es grenzt an Belgien, Luxemburg, Deutschland, Italien, Monaco, Spanien und Andorra. Die Küste Frankreichs erstreckt sich entlang des Ärmelkanals, der Nordsee, des Atlantischen Ozeans und des Mittelmeers. Frankreich ist für seine lange Geschichte, seine ikonischen Wahrzeichen wie den Eiffelturm und seine köstliche Küche bekannt, Frankreich ist eine wichtige kulturelle und wirtschaftliche Kraft in Europa und auf der ganzen Welt."

  • response: „Frankreich ist ein Land in Westeuropa“,

  • baseline_model_response: „Frankreich ist ein Land.“

Ergebnis

  • pairwise_choice: CANDIDATE.
  • explanation: Die BASELINE-Antwort ist fundiert, beantwortet die Frage aber nicht vollständig. Die CANDIDATE-Antwort ist dagegen korrekt und enthält nützliche Details zum Standort Frankreich.

Nächste Schritte