Details zu verwalteten rubrikbasierten Messwerten

Auf dieser Seite finden Sie eine vollständige Liste der verwalteten rubrikbasierten Messwerte, die vom Gen AI Evaluation Service angeboten werden und die Sie im GenAI-Client im Vertex AI SDK verwenden können.

Weitere Informationen zur testorientierten Auswertung finden Sie unter Auswertungsstatistiken definieren.

Übersicht

Der Gen AI Evaluation Service bietet eine Liste von verwalteten rubrikbasierten Messwerten für das testgesteuerte Bewertungs-Framework:

Bei Messwerten mit adaptiven Rubriken wird in den meisten Fällen sowohl der Workflow für die Rubrikgenerierung für jeden Prompt als auch die Rubrikvalidierung berücksichtigt. Sie können sie bei Bedarf auch separat ausführen. Weitere Informationen finden Sie unter Bewertung ausführen.
Für Messwerte mit statischen Rubriken werden keine Rubriken pro Prompt generiert. Weitere Informationen zu den beabsichtigten Ausgaben finden Sie unter Messwertdetails.

Jeder verwaltete rubrikbasierte Messwert hat eine Versionsnummer. Für den Messwert wird standardmäßig die neueste Version verwendet. Sie können ihn aber bei Bedarf an eine bestimmte Version anpinnen:

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

Abwärtskompatibilität

Auf Messwerte, die als Messwert-Promptvorlagen angeboten werden, können Sie weiterhin über den GenAI-Client im Vertex AI SDK zugreifen. Paarweise Messwerte werden vom GenAI-Client im Vertex AI SDK nicht unterstützt. Informationen zum Vergleichen von zwei Modellen in derselben Bewertung finden Sie unter Bewertung ausführen.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

Details zu verwalteten Messwerten

In diesem Abschnitt werden verwaltete Messwerte mit Details wie Typ, erforderliche Eingaben und erwartete Ausgabe aufgeführt:

Allgemeine Qualität
Textqualität
Befolgung von Anweisungen
Fundierung
Sicherheit
Allgemeine Qualität in mehreren Schritten
Qualität von Texten in mehreren Schritten
Übereinstimmung der endgültigen Antwort des Kundenserviceteams
Referenzfreie endgültige Antwort des Kundenservicemitarbeiters
Qualität der endgültigen Antwort des Kundenservicemitarbeiters
KI-Halluzinationen
Qualität der Tool-Nutzung durch Agents
Gecko – Text-zu-Bild-Qualität
Gecko-Qualität bei der Umwandlung von Text in Video

Allgemeine Qualität

Aktuelle Version	`general_quality_v1`
Typ	Adaptive Rubriken
Beschreibung	Ein umfassender adaptiver Messwert für Bewertungsschemas, mit dem die Gesamtqualität der Antwort eines Modells bewertet wird. Es werden automatisch eine Vielzahl von Kriterien basierend auf dem Inhalt des Prompts generiert und bewertet. Dies ist der empfohlene Ausgangspunkt für die meisten Auswertungen.
Zugriff im SDK	`types.RubricMetric.GENERAL_QUALITY`
Eingabe	`prompt` `response` (Optional) `rubric_groups` Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe	`score` `rubrics` und die entsprechende `verdicts` Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe	6 Aufrufe von Gemini 2.5 Flash

Textqualität

Aktuelle Version	`text_quality_v1`
Typ	Adaptive Rubriken
Beschreibung	Ein gezielter adaptiver Messwert für Bewertungsschemas, der speziell die sprachliche Qualität der Antwort bewertet. Dabei werden Aspekte wie Sprachkompetenz, Kohärenz und Grammatik bewertet.
Zugriff im SDK	`types.RubricMetric.TEXT_QUALITY`
Eingabe	`prompt` `response` (Optional) `rubric_groups` Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe	`score` `rubrics` und die entsprechende `verdicts` Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe	6 Aufrufe von Gemini 2.5 Flash

Anweisung folgend

Aktuelle Version	`instruction_following_v1`
Typ	Adaptive Rubriken
Beschreibung	Ein zielgerichteter adaptiver Rubrik-Messwert, der misst, wie gut die Antwort die spezifischen Einschränkungen und Anweisungen im Prompt einhält.
Zugriff im SDK	`types.RubricMetric.INSTRUCTION_FOLLOWING`
Eingabe	`prompt` `response` (Optional) `rubric_groups` Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe	`score` (Bestehensrate) `rubrics` und die entsprechende `verdicts` Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe	6 Aufrufe von Gemini 2.5 Flash

Fundierung

Aktuelle Version	`grounding_v1`
Typ	Statische Bewertungsschemas
Beschreibung	Ein auf einem Wert basierender Messwert, mit dem die Faktizität und Konsistenz geprüft werden. Es wird geprüft, ob die Antwort des Modells auf dem Kontext basiert.
Zugriff im SDK	`types.RubricMetric.GROUNDING`
Eingabe	`prompt` `response` `context`
Ausgabe	`score` `explanation` Der Wert liegt im Bereich von `0-1` und gibt das Verhältnis von Behauptungen an, die als `supported` oder `no_rad` gekennzeichnet sind (keine faktischen Quellenangaben erforderlich, z. B. Begrüßungen, Fragen oder Haftungsausschlüsse), zum Eingabeaufforderung an. Die Erklärung enthält Gruppierungen von Satz, Label, Begründung und Auszug aus dem Kontext.
Anzahl der LLM-Aufrufe	1 Aufruf von Gemini 2.5 Flash

Sicherheit

Aktuelle Version	`safety_v1`
Typ	Statische Bewertungsschemas
Beschreibung	Ein auf einem Wert basierender Messwert, der bewertet, ob die Antwort des Modells gegen eine oder mehrere der folgenden Richtlinien verstoßen hat: Personenidentifizierbare Informationen und demografische Daten Hassrede Gefährliche Inhalte Belästigung sexuell explizit
Zugriff im SDK	`types.RubricMetric.SAFETY`
Eingabe	`prompt` `response`
Ausgabe	`score` `explanation` Für die Punktzahl ist `0` unsicher und `1` sicher. Das Erklärungsfeld enthält die Richtlinien, gegen die verstoßen wurde.
Anzahl der LLM-Aufrufe	10 Aufrufe von Gemini 2.5 Flash

Allgemeine Qualität in mehreren Schritten

Aktuelle Version	`multi_turn_general_quality_v1`
Typ	Adaptive Rubriken
Beschreibung	Ein adaptiver Messwert für Bewertungsschemas, mit dem die Gesamtqualität der Antwort eines Modells im Kontext eines Dialogs mit mehreren Turns bewertet wird.
Zugriff im SDK	`types.RubricMetric.MULTI_TURN_GENERAL_QUALITY`
Eingabe	`prompt` mit Multi-Turn-Unterhaltungen `response` (Optional) `rubric_groups` Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe	`score` Rubriken und entsprechende Ergebnisse Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe	6 Aufrufe von Gemini 2.5 Flash

Textqualität in mehreren Schritten

Aktuelle Version	`multi_turn_text_quality_v1`
Typ	Adaptive Rubriken
Beschreibung	Ein adaptiver Messwert für Bewertungsschemas, mit dem die Textqualität der Antwort eines Modells im Kontext eines Dialogs über mehrere Themen bewertet wird.
Zugriff im SDK	`types.RubricMetric.TEXT_QUALITY`
Eingabe	`prompt` mit Multi-Turn-Unterhaltungen `response` (Optional) `rubric_groups` Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe	`score` `rubrics` und die entsprechende `verdicts` Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe	6 Aufrufe von Gemini 2.5 Flash

Übereinstimmung der endgültigen Antwort des Kundenservicemitarbeiters

Aktuelle Version	`final_response_match_v2`
Typ	Statische Bewertungsschemas
Beschreibung	Ein Messwert, mit dem die Qualität der endgültigen Antwort eines KI-Agenten bewertet wird, indem sie mit einer bereitgestellten Referenzantwort (Ground Truth) verglichen wird.
Zugriff im SDK	`types.RubricMetric.FINAL_RESPONSE_MATCH`
Eingabe	`prompt` `response` `reference`
Ausgabe	Punktzahl 1: Gültige Antwort, die mit der Referenz übereinstimmt. 0: Ungültige Antwort, die nicht mit der Referenz übereinstimmt. Erläuterung
Anzahl der LLM-Aufrufe	5 Aufrufe von Gemini 2.5 Flash

Referenz für die endgültige Antwort des Agenten (kostenlos)

Aktuelle Version	`final_response_reference_free_v1`
Typ	Adaptive Rubriken
Beschreibung	Ein adaptiver Messwert für Bewertungsschemas, mit dem die Qualität der endgültigen Antwort eines KI-Agenten ohne Referenzantwort bewertet wird. Sie müssen Rubriken für diesen Messwert angeben, da keine automatisch generierten Rubriken unterstützt werden.
Zugriff im SDK	`types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE`
Eingabe	`prompt` `response` `rubric_groups`
Ausgabe	`score` `rubrics` und die entsprechende `verdicts` Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe	5 Aufrufe von Gemini 2.5 Flash

Qualität der endgültigen Antwort des Agents

Aktuelle Version	`final_response_quality_v1`
Typ	Adaptive Rubriken
Beschreibung	Ein umfassender adaptiver Messwert für Bewertungsschemas, mit dem die Gesamtqualität der Antwort eines Agenten bewertet wird. Es generiert automatisch eine Vielzahl von Kriterien basierend auf der Agent-Konfiguration (Entwickleranleitung und Deklarationen für Tools, die für den Agenten verfügbar sind) und dem Prompt des Nutzers. Anschließend werden die generierten Kriterien anhand der Tool-Nutzung in Zwischenereignissen und der endgültigen Antwort des Agenten bewertet.
Zugriff im SDK	`types.RubricMetric.FINAL_RESPONSE_QUALITY`
Eingabe	`prompt` `response` `developer_instruction` `tool_declarations` (kann eine leere Liste sein) `intermediate_events` (mit Funktionsaufrufen und Antworten, kann eine leere Liste sein) Optional: `rubric_groups` (Wenn Sie bereits Bewertungsschemas generiert haben, können Sie sie direkt für die Bewertung bereitstellen.)
Ausgabe	`score` `rubrics` und die entsprechende `verdicts` Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe	5 Aufrufe von Gemini 2.5 Flash und 1 Aufruf von Gemini 2.5 Pro

KI-Halluzinationen

Aktuelle Version	`hallucination_v1`
Typ	Statische Bewertungsschemata
Beschreibung	Eine auf dem Ergebnis basierende Messgröße, mit der die Faktualität und Konsistenz von Textantworten geprüft wird, indem die Antwort in atomare Behauptungen unterteilt wird. Es wird geprüft, ob jede Behauptung auf der Verwendung von Tools in den Zwischenereignissen basiert. Sie kann auch verwendet werden, um Zwischenantworten zu bewerten, indem Sie das Flag `evaluate_intermediate_nl_responses` auf „true“ setzen.
Zugriff im SDK	`types.RubricMetric.HALLUCINATION`
Eingabe	`response` `developer_instruction` `tool_declarations` (kann eine leere Liste sein) `intermediate_events` (mit Funktionsaufrufen und Antworten, kann eine leere Liste sein) `evaluate_intermediate_nl_responses` (Standardwert ist False)
Ausgabe	`score` `explanation` und die entsprechende `verdicts` Der Wert liegt zwischen 0 und 1 und gibt den Anteil der Behauptungen an, die im Vergleich zum Eingabeaufforderung als `supported` oder `no_rad` gekennzeichnet sind (keine faktischen Quellenangaben erforderlich, z. B. Begrüßungen, Fragen oder Haftungsausschlüsse). Die Erklärung enthält eine strukturierte Aufschlüsselung von Behauptung, Label, Begründung und Auszügen, die den Kontext unterstützen.
Anzahl der LLM-Aufrufe	2 Aufrufe von Gemini 2.5 Flash

Qualität der Nutzung von Agenten-Tools

Aktuelle Version	`tool_use_quality_v1`
Typ	Adaptive Rubriken
Beschreibung	Ein zielgerichteter adaptiver Rubrik-Messwert, mit dem die Auswahl geeigneter Tools, die korrekte Verwendung von Parametern und die Einhaltung der angegebenen Reihenfolge von Vorgängen bewertet werden.
Zugriff im SDK	`types.RubricMetric.TOOL_USE_QUALITY`
Eingabe	`prompt` `developer_instruction` `tool_declarations` (kann eine leere Liste sein) `intermediate_events` (mit Funktionsaufrufen und Antworten, kann eine leere Liste sein) Optional: `rubric_groups` (Wenn Sie bereits Bewertungsschemas generiert haben, können Sie sie direkt für die Bewertung bereitstellen.)
Ausgabe	`score` `rubrics` und die entsprechende `verdicts` Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe	5 Aufrufe von Gemini 2.5 Flash und 1 Aufruf von Gemini 2.5 Pro

Gecko-Text-zu-Bild-Qualität

Aktuelle Version	`gecko_text2image_v1`
Typ	Adaptive Rubriken
Beschreibung	Der Messwert Gecko für die Umwandlung von Text in Bilder ist eine adaptive, auf Bewertungsschemas basierende Methode zur Bewertung der Qualität eines generierten Bildes im Vergleich zum entsprechenden Text-Prompt. Dazu wird zuerst eine Reihe von Fragen aus dem Prompt generiert, die als detaillierte, promptspezifische Rubrik dienen. Ein Modell beantwortet diese Fragen dann basierend auf dem generierten Bild.
Zugriff im SDK	`types.RubricMetric.GECKO_TEXT2IMAGE`
Eingabe	`prompt` `response` – sollte Dateidaten mit dem MIME-Typ für Bilder sein
Ausgabe	`score` `rubrics` und die entsprechende `verdicts` Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe	2 Aufrufe von Gemini 2.5 Flash

Gecko-Text-zu-Video-Qualität

Aktuelle Version	`gecko_text2video_v1`
Typ	Adaptive Rubriken
Beschreibung	Der Gecko-Messwert für Text-zu-Video ist eine adaptive, auf Bewertungsschemas basierende Methode zur Bewertung der Qualität eines generierten Videos im Vergleich zum entsprechenden Text-Prompt. Dazu wird zuerst eine Reihe von Fragen aus dem Prompt generiert, die als detaillierte, promptspezifische Rubrik dienen. Ein Modell beantwortet diese Fragen dann basierend auf dem generierten Video.
Zugriff im SDK	`types.RubricMetric.GECKO_TEXT2VIDEO`
Eingabe	`prompt` `response` – sollte Dateidaten mit Video-MIME-Typ sein
Ausgabe	`score` `rubrics` und die entsprechende `verdicts` Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe	2 Aufrufe von Gemini 2.5 Flash

Nächste Schritte

Bereiten Sie das Bewertungs-Dataset vor.