Bewertungsergebnisse ansehen und interpretieren

Auf dieser Seite wird beschrieben, wie Sie die Ergebnisse der Modellbewertung ansehen und interpretieren, nachdem Sie die Modellbewertung mit dem Gen AI Evaluation Service ausgeführt haben.

Bewertungsergebnisse ansehen

Mit dem Gen AI Evaluation Service können Sie Ihre Bewertungsergebnisse direkt in Ihrer Entwicklungsumgebung visualisieren, z. B. in einem Colab- oder Jupyter-Notebook. Die Methode .show() ist sowohl für EvaluationDataset- als auch für EvaluationResult-Objekte verfügbar und rendert einen interaktiven HTML-Bericht zur Analyse.

Generierte Bewertungsschemas in Ihrem Dataset visualisieren

Wenn Sie client.evals.generate_rubrics() ausführen, enthält das resultierende EvaluationDataset-Objekt eine Spalte rubric_groups. Sie können dieses Dataset visualisieren, um die für jeden Prompt generierten Bewertungsschemas zu prüfen, bevor Sie die Bewertung ausführen.

# Example: Generate rubrics using a predefined method
data_with_rubrics = client.evals.generate_rubrics(
    src=prompts_df,
    rubric_group_name="general_quality_rubrics",
    predefined_spec_name=types.RubricMetric.GENERAL_QUALITY,
)

# Display the dataset with the generated rubrics
data_with_rubrics.show()

Eine interaktive Tabelle wird mit jedem Prompt und den zugehörigen Bewertungsschemas angezeigt, die in der Spalte rubric_groups verschachtelt sind:

Generierte Rubriken in Ihrem Dataset visualisieren

Visualisieren von Inferenzergebnissen

Nachdem Sie mit run_inference() Antworten generiert haben, können Sie .show() für das resultierende EvaluationDataset-Objekt aufrufen, um die Ausgaben des Modells zusammen mit Ihren ursprünglichen Prompts und Referenzen zu prüfen. Dies ist nützlich für eine schnelle Qualitätsprüfung, bevor Sie eine vollständige Bewertung ausführen:

# First, run inference to get an EvaluationDataset
gpt_response = client.evals.run_inference(
    model='gpt-4o',
    src=prompt_df
)

# Now, visualize the inference results
gpt_response.show()

Eine Tabelle wird mit jedem Prompt, der entsprechenden Referenz (falls angegeben) und der neu generierten Antwort angezeigt:

Inferenzergebnisse visualisieren

Bei der Agent-Inferenz werden auch die Sitzungseingaben (falls angegeben) und die Zwischenereignisse (falls generiert) angezeigt.

Bewertungsberichte visualisieren

Wenn Sie .show() für ein EvaluationResult- oder EvaluationRun-Objekt aufrufen, wird ein Bericht mit den folgenden Abschnitten angezeigt:

  • Zusammenfassung der Messwerte: Eine aggregierte Ansicht aller Messwerte mit dem Mittelwert und der Standardabweichung für das gesamte Dataset.

  • Detaillierte Ergebnisse: Eine Aufschlüsselung nach Fall, mit der Sie den Prompt, die Referenz, die Antwort des Kandidaten sowie die spezifische Bewertung und Erklärung für jeden Messwert prüfen können. Bei der Agent-Bewertung enthalten die detaillierten Ergebnisse auch Traces, die die Agent-Interaktionen zeigen. Weitere Informationen zu Traces finden Sie unter Agent-Trace.

  • Agent-Informationen (nur für die Agent-Bewertung): Informationen zum bewerteten Agent, z. B. Entwickleranweisungen, Agent-Beschreibung und Tool-Definitionen.

Bericht zur Bewertung eines einzelnen Kandidaten

Bei einer einzelnen Modellbewertung enthält der Bericht die Bewertungen für jeden Messwert:

# First, run an evaluation on a single candidate
eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        types.RubricMetric.TEXT_QUALITY,
        types.RubricMetric.FLUENCY,
        types.Metric(name='rouge_1'),
    ]
)

# Visualize the detailed evaluation report
eval_result.show()

Bewertungsbericht

In allen Berichten können Sie einen Abschnitt Roh-JSON ansehen maximieren, um die Daten für ein beliebiges strukturiertes Format wie Gemini oder das Format der OpenAI Chat Completion API zu prüfen.

Auf adaptiven Bewertungsschemas basierender Bewertungsbericht mit Ergebnissen

Bei Verwendung von auf adaptiven Bewertungsschemas basierenden Messwerten enthalten die Ergebnisse die Ergebnisse „Bestanden“ oder „Nicht bestanden“ und die Begründung für jedes Bewertungsschema, das auf die Antwort angewendet wurde.

eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[types.PrebuiltMetric.GENERAL_QUALITY],
)

eval_result.show()

Die Visualisierung zeigt jedes Bewertungsschema, das Ergebnis (Bestanden oder Nicht bestanden) und die Begründung, verschachtelt in den Messwertergebnissen für jeden Fall. Für jedes spezifische Bewertungsschemaergebnis können Sie eine Karte maximieren, um die Roh-JSON-Nutzlast anzuzeigen. Diese JSON-Nutzlast enthält zusätzliche Details wie die vollständige Bewertungsschemabeschreibung, den Bewertungsschematyp, die Wichtigkeit und die detaillierte Begründung für das Ergebnis.

Bericht zur adaptiven bewertungsschemabasierten Bewertung mit Ergebnissen

Bericht zum Vergleich mehrerer Kandidaten

Das Format des Berichts wird angepasst, je nachdem, ob Sie einen einzelnen Kandidaten bewerten oder mehrere Kandidaten vergleichen. Bei einer Bewertung mehrerer Kandidaten bietet der Bericht eine nebeneinanderliegende Ansicht und enthält in der Zusammenfassungstabelle Berechnungen der Gewinn- oder Unentschieden-Rate.

# Example of comparing two models
inference_result_1 = client.evals.run_inference(
    model="gemini-2.0-flash",
    src=prompts_df,
)
inference_result_2 = client.evals.run_inference(
   model="gemini-2.5-flash",
    src=prompts_df,
)

comparison_result = client.evals.evaluate(
    dataset=[inference_result_1, inference_result_2],
    metrics=[types.PrebuiltMetric.TEXT_QUALITY]
)

comparison_result.show()

Bericht zum Vergleich mehrerer Kandidaten