Auf dieser Seite wird beschrieben, wie Sie Ihre Modellbewertungsergebnisse nach der Ausführung der Modellbewertung ansehen und interpretieren.
Bewertungsergebnisse ansehen
Nachdem Sie die Bewertungsaufgabe definiert haben, führen Sie sie aus, um die Bewertungsergebnisse zu erhalten:
from vertexai.evaluation import EvalTask
eval_result = EvalTask(
dataset=DATASET,
metrics=[METRIC_1, METRIC_2, METRIC_3],
experiment=EXPERIMENT_NAME,
).evaluate(
model=MODEL,
experiment_run=EXPERIMENT_RUN_NAME,
)
Die Klasse EvalResult
stellt das Ergebnis eines Bewertungslaufs mit den folgenden Attributen dar:
summary_metrics
: Ein Dictionary mit zusammengefassten Bewertungs-Messwerten für einen Bewertungsdurchlauf.metrics_table
: Einepandas.DataFrame
-Tabelle mit Eingaben, Antworten, Erklärungen und Messwertergebnissen des Bewertungs-Datasets pro Zeile.metadata
: Der Name des Tests und des Testlaufs für den Auswertungslauf.
Die Klasse EvalResult
ist so definiert:
@dataclasses.dataclass
class EvalResult:
"""Evaluation result.
Attributes:
summary_metrics: A dictionary of aggregated evaluation metrics for an evaluation run.
metrics_table: A pandas.DataFrame table containing evaluation dataset inputs,
responses, explanations, and metric results per row.
metadata: the experiment name and experiment run name for the evaluation run.
"""
summary_metrics: Dict[str, float]
metrics_table: Optional["pd.DataFrame"] = None
metadata: Optional[Dict[str, str]] = None
Durch den Einsatz von Hilfsfunktionen können die Bewertungsergebnisse im Colab-Notebook angezeigt werden:
Bewertungsergebnisse visualisieren
Zusammenfassende Messwerte können in einem Netz- oder Balkendiagramm dargestellt werden, um die Ergebnisse aus verschiedenen Bewertungsläufen zu visualisieren und zu vergleichen. Diese Visualisierung kann hilfreich sein, um verschiedene Modelle und verschiedene Prompt-Vorlagen zu bewerten.
Im folgenden Beispiel visualisieren wir vier Messwerte (Kohärenz, Sprachfluss, Befolgung der Anleitung und allgemeine Textqualität) für Antworten, die mit vier verschiedenen Prompt-Vorlagen generiert wurden. Aus dem Radar- und dem Balkendiagramm lässt sich schließen, dass die Promptvorlage 2 bei allen vier Messwerten durchgehend besser abschneidet als die anderen Vorlagen. Das zeigt sich besonders in den deutlich höheren Werten für die Befolgung von Anweisungen und die Textqualität. Auf Grundlage dieser Analyse scheint die Promptvorlage 2 die effektivste der vier Optionen zu sein.
Messwertergebnisse verstehen
In den folgenden Tabellen sind verschiedene Komponenten von Ergebnissen auf Instanzebene und aggregierten Ergebnissen aufgeführt, die für PointwiseMetric
, PairwiseMetric
und berechnungsbasierte Messwerte in metrics_table
bzw. summary_metrics
enthalten sind:
PointwiseMetric
Ergebnisse auf Instanzebene
Spalte | Beschreibung |
---|---|
Antwort | Die Antwort, die vom Modell für den Prompt generiert wurde. |
Punktzahl | Die Bewertung der Antwort gemäß den Kriterien und dem Bewertungsschema. Die Punktzahl kann binär (0 und 1), Likert-Skala (1 bis 5 oder -2 bis 2) oder Gleitkommazahl (0, 0 bis 1,0) sein. |
Erklärung | Begründung des Bewertungsmodells für die gegebene Punktzahl. Wir verwenden die Chain-of-Thought-Logik, um das Richtermodell anzuweisen, die Überlegungen zu jedem Ergebnis zu erläutern. Es erweist sich, dass die Bewertungsgenauigkeit sich verbessert, wenn das Bewertungsmodell zur Argumentation gezwungen wird. |
Zusammengefasste Ergebnisse
Spalte | Beschreibung |
---|---|
Mittlere Punktzahl | Durchschnittliche Punktzahl für alle Instanzen. |
Standardabweichung | Standardabweichung aller Punktzahlen. |
PairwiseMetric
Ergebnisse auf Instanzebene
Spalte | Beschreibung |
---|---|
Antwort | Die Antwort, die vom Kandidatenmodell für den Prompt generiert wurde. |
baseline_model_response | Die Antwort, die vom Basismodell für den Prompt generiert wurde. |
pairwise_choice | Das Modell mit der besseren Antwort. Mögliche Werte sind CANDIDATE, BASELINE oder TIE. |
Erklärung | Begründung des Bewertungsmodells für die Auswahl. |
Zusammengefasste Ergebnisse
Spalte | Beschreibung |
---|---|
candidate_model_win_rate | Verhältnis der Zeit, in der das Bewertungsmodell entschied, dass das CANDIDATE-Modell die bessere Antwort im Vergleich zur Gesamtzahl der Antworten hatte. Liegt zwischen 0 und 1. |
baseline_model_win_rate | Verhältnis der Zeit, in der das Bewertungsmodell entschied, dass das BASELINE-Modell die bessere Antwort im Vergleich zur Gesamtzahl der Antworten hatte. Liegt zwischen 0 und 1. |
Berechnungsbasierte Messwerte
Ergebnisse auf Instanzebene
Spalte | Beschreibung |
---|---|
Antwort | Die Antwort des Modells wird ausgewertet. |
Referenz | Die Referenzantwort. |
Punktzahl | Die Punktzahl wird für jedes Paar aus Antworten und Referenzen berechnet. |
Zusammengefasste Ergebnisse
Spalte | Beschreibung |
---|---|
Mittlere Punktzahl | Durchschnittliche Punktzahl für alle Instanzen. |
Standardabweichung | Standardabweichung aller Punktzahlen. |
Beispiele
Die Beispiele in diesem Abschnitt veranschaulichen, wie Sie die Ergebnisse der Überprüfung lesen und einordnen.
Beispiel 1: Punktweise Bewertung
Im ersten Beispiel sollten Sie eine punktweise Bewertungsinstanz für TEXT_QUALITY
bewerten. Die Punktzahl aus der punktweisen Bewertung des Messwerts TEXT_QUALITY
ist 4 (aus der Skala 1 bis 5), was bedeutet, dass die Antwort gut ist. Darüber hinaus wird im Bewertungsergebnis erläutert, warum das Bewertungsmodell der Meinung ist, dass die Vorhersage die Punktzahl 4 und keine höhere oder niedrigere Punktzahl verdient.
Dataset
prompt
: „Fasse den folgenden Text so zusammen, dass ein fünfjähriges Kind ihn verstehen kann: Social-Media-Plattform sieht sich wegen Richtlinien zur Inhaltsmoderation mit Gegenreaktionen konfrontiert\nA bekannte Social-Media-Plattform gerät in Kontroverse, da Nutzer und Content-Creator ihre Unzufriedenheit mit den Richtlinien zur Inhaltsmoderation zum Ausdruck bringen. Vorwürfe der voreingenommenen Zensur, widersprüchliche Durchsetzung und Unterdrückung bestimmter Standpunkte haben zu Empörung bei Nutzern geführt, die behaupten, dass die Plattform die freie Meinungsäußerung unterbindet. Andererseits betont die Plattform, dass ihre Richtlinien darauf ausgelegt sind, eine sichere und inklusive Onlineumgebung zu schaffen. Diese Kontroverse wirft umfassendere Fragen über die Rolle sozialer Medien bei der Gestaltung des öffentlichen Diskurses und die Verantwortlichkeiten von Plattformen bei der Auswahl von Onlineinhalten auf.“response
: „Nutzer sind wegen einer Website verärgert, weil sie finden, dass sie sich unfair dabei verhält, was Leute posten dürfen. Einige Nutzer sagen, dass sie auf der Website nicht sagen können, was sie möchten. Aber die Website sagt, dass sie versucht, alle zu schützen. Deswegen fragen sich die Leute, ob Websites kontrollieren sollten, was Menschen online sagen dürfen.“
Ergebnis
score
: 4,explanation
: Die Zusammenfassung in der Antwort folgt der Anweisung, den Kontext so zusammenzufassen, dass ein fünfjähriges Kind ihn verstehen kann. Die Zusammenfassung basiert auf dem Kontext und enthält wichtige Details. Die in der Antwort verwendete Sprache ist jedoch etwas umständlich.
Beispiel 2: Paarweise Bewertung
Das zweite Beispiel ist eine paarweise Vergleichsbewertung für PAIRWISE_QUESTION_ANSWERING_QUALITY
. Das Ergebnis pairwise_choice
zeigt, dass das Bewertungsmodell die CANDIDATE-Antwort „Frankreich ist ein Land in Westeuropa“ im Vergleich zur BASELINE-Antwort „Frankreich ist ein Land“ bevorzugt, um die Frage im Prompt zu beantworten. Ähnlich wie bei den punktbezogenen Ergebnissen wird auch erklärt, warum die CANDIDATE-Antwort besser ist als die BASELINE-Antwort (die CANDIDATE-Antwort ist in diesem Fall hilfreicher).
Dataset
prompt
: „Kannst du anhand des folgenden Absatzes beantworten, wo Frankreich liegt? Frankreich ist ein Land in Westeuropa. Es grenzt an Belgien, Luxemburg, Deutschland, Italien, Monaco, Spanien und Andorra. Die Küste Frankreichs erstreckt sich entlang des Ärmelkanals, der Nordsee, des Atlantischen Ozeans und des Mittelmeers. Frankreich ist für seine lange Geschichte, seine ikonischen Wahrzeichen wie den Eiffelturm und seine köstliche Küche bekannt, Frankreich ist eine wichtige kulturelle und wirtschaftliche Kraft in Europa und auf der ganzen Welt."response
: „Frankreich ist ein Land in Westeuropa“,baseline_model_response
: „Frankreich ist ein Land.“
Ergebnis
pairwise_choice
: CANDIDATE.explanation
: Die BASELINE-Antwort ist fundiert, beantwortet die Frage aber nicht vollständig. Die CANDIDATE-Antwort ist dagegen korrekt und enthält nützliche Details zum Standort Frankreich.
Nächste Schritte
Probieren Sie ein Bewertungs-Beispielnotebook aus.
Weitere Informationen zur Bewertung mit generativer KI