Details zu verwalteten rubrikbasierten Messwerten
Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Auf dieser Seite finden Sie eine vollständige Liste der verwalteten rubrikbasierten Messwerte, die vom Gen AI Evaluation Service angeboten werden und die Sie im GenAI-Client im Vertex AI SDK verwenden können.
Der Gen AI Evaluation Service bietet eine Liste von verwalteten rubrikbasierten Messwerten für das testgesteuerte Bewertungs-Framework:
Bei Messwerten mit adaptiven Rubriken wird in den meisten Fällen sowohl der Workflow für die Rubrikgenerierung für jeden Prompt als auch die Rubrikvalidierung berücksichtigt. Sie können sie bei Bedarf auch separat ausführen. Weitere Informationen finden Sie unter Bewertung ausführen.
Für Messwerte mit statischen Rubriken werden keine Rubriken pro Prompt generiert. Weitere Informationen zu den beabsichtigten Ausgaben finden Sie unter Messwertdetails.
Jeder verwaltete rubrikbasierte Messwert hat eine Versionsnummer. Für den Messwert wird standardmäßig die neueste Version verwendet. Sie können ihn aber bei Bedarf an eine bestimmte Version anpinnen:
Auf Messwerte, die als Messwert-Promptvorlagen angeboten werden, können Sie weiterhin über den GenAI-Client im Vertex AI SDK zugreifen. Paarweise Messwerte werden vom GenAI-Client im Vertex AI SDK nicht unterstützt. Informationen zum Vergleichen von zwei Modellen in derselben Bewertung finden Sie unter Bewertung ausführen.
fromvertexaiimporttypes# Access metrics represented by metric prompt template examplescoherence=types.RubricMetric.COHERENCEfluency=types.RubricMetric.FLUENCY
Details zu verwalteten Messwerten
In diesem Abschnitt werden verwaltete Messwerte mit Details wie Typ, erforderliche Eingaben und erwartete Ausgabe aufgeführt:
Ein umfassender adaptiver Messwert für Bewertungsschemas, mit dem die Gesamtqualität der Antwort eines Modells bewertet wird. Es werden automatisch eine Vielzahl von Kriterien basierend auf dem Inhalt des Prompts generiert und bewertet. Dies ist der empfohlene Ausgangspunkt für die meisten Auswertungen.
Zugriff im SDK
types.RubricMetric.GENERAL_QUALITY
Eingabe
prompt
response
(Optional) rubric_groups
Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe
score
rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe
6 Aufrufe von Gemini 2.5 Flash
Textqualität
Aktuelle Version
text_quality_v1
Typ
Adaptive Rubriken
Beschreibung
Ein gezielter adaptiver Messwert für Bewertungsschemas, der speziell die sprachliche Qualität der Antwort bewertet. Dabei werden Aspekte wie Sprachkompetenz, Kohärenz und Grammatik bewertet.
Zugriff im SDK
types.RubricMetric.TEXT_QUALITY
Eingabe
prompt
response
(Optional) rubric_groups
Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe
score
rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe
6 Aufrufe von Gemini 2.5 Flash
Anweisung folgend
Aktuelle Version
instruction_following_v1
Typ
Adaptive Rubriken
Beschreibung
Ein zielgerichteter adaptiver Rubrik-Messwert, der misst, wie gut die Antwort die spezifischen Einschränkungen und Anweisungen im Prompt einhält.
Zugriff im SDK
types.RubricMetric.INSTRUCTION_FOLLOWING
Eingabe
prompt
response
(Optional) rubric_groups
Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe
score (Bestehensrate)
rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe
6 Aufrufe von Gemini 2.5 Flash
Fundierung
Aktuelle Version
grounding_v1
Typ
Statische Bewertungsschemas
Beschreibung
Ein auf einem Wert basierender Messwert, mit dem die Faktizität und Konsistenz geprüft werden. Es wird geprüft, ob die Antwort des Modells auf dem Kontext basiert.
Zugriff im SDK
types.RubricMetric.GROUNDING
Eingabe
prompt
response
context
Ausgabe
score
explanation
Der Wert liegt im Bereich von 0-1 und gibt das Verhältnis von Behauptungen an, die als supported oder no_rad gekennzeichnet sind (keine faktischen Quellenangaben erforderlich, z. B. Begrüßungen, Fragen oder Haftungsausschlüsse), zum Eingabeaufforderung an.
Die Erklärung enthält Gruppierungen von Satz, Label, Begründung und Auszug aus dem Kontext.
Anzahl der LLM-Aufrufe
1 Aufruf von Gemini 2.5 Flash
Sicherheit
Aktuelle Version
safety_v1
Typ
Statische Bewertungsschemas
Beschreibung
Ein auf einem Wert basierender Messwert, der bewertet, ob die Antwort des Modells gegen eine oder mehrere der folgenden Richtlinien verstoßen hat:
Personenidentifizierbare Informationen und demografische Daten
Hassrede
Gefährliche Inhalte
Belästigung
sexuell explizit
Zugriff im SDK
types.RubricMetric.SAFETY
Eingabe
prompt
response
Ausgabe
score
explanation
Für die Punktzahl ist 0 unsicher und 1 sicher.
Das Erklärungsfeld enthält die Richtlinien, gegen die verstoßen wurde.
Anzahl der LLM-Aufrufe
10 Aufrufe von Gemini 2.5 Flash
Allgemeine Qualität in mehreren Schritten
Aktuelle Version
multi_turn_general_quality_v1
Typ
Adaptive Rubriken
Beschreibung
Ein adaptiver Messwert für Bewertungsschemas, mit dem die Gesamtqualität der Antwort eines Modells im Kontext eines Dialogs mit mehreren Turns bewertet wird.
Zugriff im SDK
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Eingabe
prompt mit Multi-Turn-Unterhaltungen
response
(Optional) rubric_groups
Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe
score
Rubriken und entsprechende Ergebnisse
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe
6 Aufrufe von Gemini 2.5 Flash
Textqualität in mehreren Schritten
Aktuelle Version
multi_turn_text_quality_v1
Typ
Adaptive Rubriken
Beschreibung
Ein adaptiver Messwert für Bewertungsschemas, mit dem die Textqualität der Antwort eines Modells im Kontext eines Dialogs über mehrere Themen bewertet wird.
Zugriff im SDK
types.RubricMetric.TEXT_QUALITY
Eingabe
prompt mit Multi-Turn-Unterhaltungen
response
(Optional) rubric_groups
Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe
score
rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe
6 Aufrufe von Gemini 2.5 Flash
Übereinstimmung der endgültigen Antwort des Kundenservicemitarbeiters
Aktuelle Version
final_response_match_v2
Typ
Statische Bewertungsschemas
Beschreibung
Ein Messwert, mit dem die Qualität der endgültigen Antwort eines KI-Agenten bewertet wird, indem sie mit einer bereitgestellten Referenzantwort (Ground Truth) verglichen wird.
Zugriff im SDK
types.RubricMetric.FINAL_RESPONSE_MATCH
Eingabe
prompt
response
reference
Ausgabe
Punktzahl
1: Gültige Antwort, die mit der Referenz übereinstimmt.
0: Ungültige Antwort, die nicht mit der Referenz übereinstimmt.
Erläuterung
Anzahl der LLM-Aufrufe
5 Aufrufe von Gemini 2.5 Flash
Referenz für die endgültige Antwort des Agenten (kostenlos)
Aktuelle Version
final_response_reference_free_v1
Typ
Adaptive Rubriken
Beschreibung
Ein adaptiver Messwert für Bewertungsschemas, mit dem die Qualität der endgültigen Antwort eines KI-Agenten ohne Referenzantwort bewertet wird.
Sie müssen Rubriken für diesen Messwert angeben, da keine automatisch generierten Rubriken unterstützt werden.
Zugriff im SDK
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Eingabe
prompt
response
rubric_groups
Ausgabe
score
rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe
5 Aufrufe von Gemini 2.5 Flash
Qualität der endgültigen Antwort des Agents
Aktuelle Version
final_response_quality_v1
Typ
Adaptive Rubriken
Beschreibung
Ein umfassender adaptiver Messwert für Bewertungsschemas, mit dem die Gesamtqualität der Antwort eines Agenten bewertet wird. Es generiert automatisch eine Vielzahl von Kriterien basierend auf der Agent-Konfiguration (Entwickleranleitung und Deklarationen für Tools, die für den Agenten verfügbar sind) und dem Prompt des Nutzers. Anschließend werden die generierten Kriterien anhand der Tool-Nutzung in Zwischenereignissen und der endgültigen Antwort des Agenten bewertet.
Zugriff im SDK
types.RubricMetric.FINAL_RESPONSE_QUALITY
Eingabe
prompt
response
developer_instruction
tool_declarations (kann eine leere Liste sein)
intermediate_events (mit Funktionsaufrufen und Antworten, kann eine leere Liste sein)
Optional: rubric_groups (Wenn Sie bereits Bewertungsschemas generiert haben, können Sie sie direkt für die Bewertung bereitstellen.)
Ausgabe
score
rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe
5 Aufrufe von Gemini 2.5 Flash und 1 Aufruf von Gemini 2.5 Pro
KI-Halluzinationen
Aktuelle Version
hallucination_v1
Typ
Statische Bewertungsschemata
Beschreibung
Eine auf dem Ergebnis basierende Messgröße, mit der die Faktualität und Konsistenz von Textantworten geprüft wird, indem die Antwort in atomare Behauptungen unterteilt wird. Es wird geprüft, ob jede Behauptung auf der Verwendung von Tools in den Zwischenereignissen basiert.
Sie kann auch verwendet werden, um Zwischenantworten zu bewerten, indem Sie das Flag evaluate_intermediate_nl_responses auf „true“ setzen.
Zugriff im SDK
types.RubricMetric.HALLUCINATION
Eingabe
response
developer_instruction
tool_declarations (kann eine leere Liste sein)
intermediate_events (mit Funktionsaufrufen und Antworten, kann eine leere Liste sein)
evaluate_intermediate_nl_responses (Standardwert ist False)
Ausgabe
score
explanation und die entsprechende verdicts
Der Wert liegt zwischen 0 und 1 und gibt den Anteil der Behauptungen an, die im Vergleich zum Eingabeaufforderung als supported oder no_rad gekennzeichnet sind (keine faktischen Quellenangaben erforderlich, z. B. Begrüßungen, Fragen oder Haftungsausschlüsse). Die Erklärung enthält eine strukturierte Aufschlüsselung von Behauptung, Label, Begründung und Auszügen, die den Kontext unterstützen.
Anzahl der LLM-Aufrufe
2 Aufrufe von Gemini 2.5 Flash
Qualität der Nutzung von Agenten-Tools
Aktuelle Version
tool_use_quality_v1
Typ
Adaptive Rubriken
Beschreibung
Ein zielgerichteter adaptiver Rubrik-Messwert, mit dem die Auswahl geeigneter Tools, die korrekte Verwendung von Parametern und die Einhaltung der angegebenen Reihenfolge von Vorgängen bewertet werden.
Zugriff im SDK
types.RubricMetric.TOOL_USE_QUALITY
Eingabe
prompt
developer_instruction
tool_declarations (kann eine leere Liste sein)
intermediate_events (mit Funktionsaufrufen und Antworten, kann eine leere Liste sein)
Optional: rubric_groups (Wenn Sie bereits Bewertungsschemas generiert haben, können Sie sie direkt für die Bewertung bereitstellen.)
Ausgabe
score
rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe
5 Aufrufe von Gemini 2.5 Flash und 1 Aufruf von Gemini 2.5 Pro
Gecko-Text-zu-Bild-Qualität
Aktuelle Version
gecko_text2image_v1
Typ
Adaptive Rubriken
Beschreibung
Der Messwert Gecko für die Umwandlung von Text in Bilder ist eine adaptive, auf Bewertungsschemas basierende Methode zur Bewertung der Qualität eines generierten Bildes im Vergleich zum entsprechenden Text-Prompt. Dazu wird zuerst eine Reihe von Fragen aus dem Prompt generiert, die als detaillierte, promptspezifische Rubrik dienen. Ein Modell beantwortet diese Fragen dann basierend auf dem generierten Bild.
Zugriff im SDK
types.RubricMetric.GECKO_TEXT2IMAGE
Eingabe
prompt
response – sollte Dateidaten mit dem MIME-Typ für Bilder sein
Ausgabe
score
rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe
2 Aufrufe von Gemini 2.5 Flash
Gecko-Text-zu-Video-Qualität
Aktuelle Version
gecko_text2video_v1
Typ
Adaptive Rubriken
Beschreibung
Der Gecko-Messwert für Text-zu-Video ist eine adaptive, auf Bewertungsschemas basierende Methode zur Bewertung der Qualität eines generierten Videos im Vergleich zum entsprechenden Text-Prompt. Dazu wird zuerst eine Reihe von Fragen aus dem Prompt generiert, die als detaillierte, promptspezifische Rubrik dienen. Ein Modell beantwortet diese Fragen dann basierend auf dem generierten Video.
Zugriff im SDK
types.RubricMetric.GECKO_TEXT2VIDEO
Eingabe
prompt
response – sollte Dateidaten mit Video-MIME-Typ sein
Ausgabe
score
rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-12-04 (UTC)."],[],[]]