Details zu verwalteten rubrikbasierten Messwerten

Auf dieser Seite finden Sie eine vollständige Liste der verwalteten rubrikbasierten Messwerte, die vom Gen AI Evaluation Service angeboten werden und die Sie im GenAI-Client im Vertex AI SDK verwenden können.

Weitere Informationen zur testorientierten Auswertung finden Sie unter Auswertungsstatistiken definieren.

Übersicht

Der Gen AI Evaluation Service bietet eine Liste von verwalteten rubrikbasierten Messwerten für das testgesteuerte Bewertungs-Framework:

  • Bei Messwerten mit adaptiven Rubriken wird in den meisten Fällen sowohl der Workflow für die Rubrikgenerierung für jeden Prompt als auch die Rubrikvalidierung berücksichtigt. Sie können sie bei Bedarf auch separat ausführen. Weitere Informationen finden Sie unter Bewertung ausführen.

  • Für Messwerte mit statischen Rubriken werden keine Rubriken pro Prompt generiert. Weitere Informationen zu den beabsichtigten Ausgaben finden Sie unter Messwertdetails.

Jeder verwaltete rubrikbasierte Messwert hat eine Versionsnummer. Für den Messwert wird standardmäßig die neueste Version verwendet. Sie können ihn aber bei Bedarf an eine bestimmte Version anpinnen:

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

Abwärtskompatibilität

Auf Messwerte, die als Messwert-Promptvorlagen angeboten werden, können Sie weiterhin über den GenAI-Client im Vertex AI SDK zugreifen. Paarweise Messwerte werden vom GenAI-Client im Vertex AI SDK nicht unterstützt. Informationen zum Vergleichen von zwei Modellen in derselben Bewertung finden Sie unter Bewertung ausführen.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

Details zu verwalteten Messwerten

In diesem Abschnitt werden verwaltete Messwerte mit Details wie Typ, erforderliche Eingaben und erwartete Ausgabe aufgeführt:

Allgemeine Qualität

Aktuelle Version general_quality_v1
Typ Adaptive Rubriken
Beschreibung Ein umfassender adaptiver Messwert für Bewertungsschemas, mit dem die Gesamtqualität der Antwort eines Modells bewertet wird. Es werden automatisch eine Vielzahl von Kriterien basierend auf dem Inhalt des Prompts generiert und bewertet. Dies ist der empfohlene Ausgangspunkt für die meisten Auswertungen.
Zugriff im SDK types.RubricMetric.GENERAL_QUALITY
Eingabe
  • prompt
  • response
  • (Optional) rubric_groups
Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe
  • score
  • rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 6 Aufrufe von Gemini 2.5 Flash

Textqualität

Aktuelle Version text_quality_v1
Typ Adaptive Rubriken
Beschreibung Ein gezielter adaptiver Messwert für Bewertungsschemas, der speziell die sprachliche Qualität der Antwort bewertet. Dabei werden Aspekte wie Sprachkompetenz, Kohärenz und Grammatik bewertet.
Zugriff im SDK types.RubricMetric.TEXT_QUALITY
Eingabe
  • prompt
  • response
  • (Optional) rubric_groups
Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe
  • score
  • rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 6 Aufrufe von Gemini 2.5 Flash

Anweisung folgend

Aktuelle Version instruction_following_v1
Typ Adaptive Rubriken
Beschreibung Ein zielgerichteter adaptiver Rubrik-Messwert, der misst, wie gut die Antwort die spezifischen Einschränkungen und Anweisungen im Prompt einhält.
Zugriff im SDK types.RubricMetric.INSTRUCTION_FOLLOWING
Eingabe
  • prompt
  • response
  • (Optional) rubric_groups
Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe
  • score (Bestehensrate)
  • rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 6 Aufrufe von Gemini 2.5 Flash

Fundierung

Aktuelle Version grounding_v1
Typ Statische Bewertungsschemas
Beschreibung Ein auf einem Wert basierender Messwert, mit dem die Faktizität und Konsistenz geprüft werden. Es wird geprüft, ob die Antwort des Modells auf dem Kontext basiert.
Zugriff im SDK types.RubricMetric.GROUNDING
Eingabe
  • prompt
  • response
  • context
Ausgabe
  • score
  • explanation
Der Wert liegt im Bereich von 0-1 und gibt das Verhältnis von Behauptungen an, die als supported oder no_rad gekennzeichnet sind (keine faktischen Quellenangaben erforderlich, z. B. Begrüßungen, Fragen oder Haftungsausschlüsse), zum Eingabeaufforderung an.
Die Erklärung enthält Gruppierungen von Satz, Label, Begründung und Auszug aus dem Kontext.
Anzahl der LLM-Aufrufe 1 Aufruf von Gemini 2.5 Flash

Sicherheit

Aktuelle Version safety_v1
Typ Statische Bewertungsschemas
Beschreibung Ein auf einem Wert basierender Messwert, der bewertet, ob die Antwort des Modells gegen eine oder mehrere der folgenden Richtlinien verstoßen hat:
  • Personenidentifizierbare Informationen und demografische Daten
  • Hassrede
  • Gefährliche Inhalte
  • Belästigung
  • sexuell explizit
Zugriff im SDK types.RubricMetric.SAFETY
Eingabe
  • prompt
  • response
Ausgabe
  • score
  • explanation
Für die Punktzahl ist 0 unsicher und 1 sicher.
Das Erklärungsfeld enthält die Richtlinien, gegen die verstoßen wurde.
Anzahl der LLM-Aufrufe 10 Aufrufe von Gemini 2.5 Flash

Allgemeine Qualität in mehreren Schritten

Aktuelle Version multi_turn_general_quality_v1
Typ Adaptive Rubriken
Beschreibung Ein adaptiver Messwert für Bewertungsschemas, mit dem die Gesamtqualität der Antwort eines Modells im Kontext eines Dialogs mit mehreren Turns bewertet wird.
Zugriff im SDK types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Eingabe
  • prompt mit Multi-Turn-Unterhaltungen
  • response
  • (Optional) rubric_groups
Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe
  • score
  • Rubriken und entsprechende Ergebnisse
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 6 Aufrufe von Gemini 2.5 Flash

Textqualität in mehreren Schritten

Aktuelle Version multi_turn_text_quality_v1
Typ Adaptive Rubriken
Beschreibung Ein adaptiver Messwert für Bewertungsschemas, mit dem die Textqualität der Antwort eines Modells im Kontext eines Dialogs über mehrere Themen bewertet wird.
Zugriff im SDK types.RubricMetric.TEXT_QUALITY
Eingabe
  • prompt mit Multi-Turn-Unterhaltungen
  • response
  • (Optional) rubric_groups
Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe
  • score
  • rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 6 Aufrufe von Gemini 2.5 Flash

Übereinstimmung der endgültigen Antwort des Kundenservicemitarbeiters

Aktuelle Version final_response_match_v2
Typ Statische Bewertungsschemas
Beschreibung Ein Messwert, mit dem die Qualität der endgültigen Antwort eines KI-Agenten bewertet wird, indem sie mit einer bereitgestellten Referenzantwort (Ground Truth) verglichen wird.
Zugriff im SDK types.RubricMetric.FINAL_RESPONSE_MATCH
Eingabe
  • prompt
  • response
  • reference
Ausgabe Punktzahl
  • 1: Gültige Antwort, die mit der Referenz übereinstimmt.
  • 0: Ungültige Antwort, die nicht mit der Referenz übereinstimmt.
Erläuterung
Anzahl der LLM-Aufrufe 5 Aufrufe von Gemini 2.5 Flash

Referenz für die endgültige Antwort des Agenten (kostenlos)

Aktuelle Version final_response_reference_free_v1
Typ Adaptive Rubriken
Beschreibung Ein adaptiver Messwert für Bewertungsschemas, mit dem die Qualität der endgültigen Antwort eines KI-Agenten ohne Referenzantwort bewertet wird.
Sie müssen Rubriken für diesen Messwert angeben, da keine automatisch generierten Rubriken unterstützt werden.
Zugriff im SDK types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Eingabe
  • prompt
  • response
  • rubric_groups
Ausgabe
  • score
  • rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 5 Aufrufe von Gemini 2.5 Flash

Qualität der endgültigen Antwort des Agents

Aktuelle Version final_response_quality_v1
Typ Adaptive Rubriken
Beschreibung Ein umfassender adaptiver Messwert für Bewertungsschemas, mit dem die Gesamtqualität der Antwort eines Agenten bewertet wird. Es generiert automatisch eine Vielzahl von Kriterien basierend auf der Agent-Konfiguration (Entwickleranleitung und Deklarationen für Tools, die für den Agenten verfügbar sind) und dem Prompt des Nutzers. Anschließend werden die generierten Kriterien anhand der Tool-Nutzung in Zwischenereignissen und der endgültigen Antwort des Agenten bewertet.
Zugriff im SDK types.RubricMetric.FINAL_RESPONSE_QUALITY
Eingabe
  • prompt
  • response
  • developer_instruction
  • tool_declarations (kann eine leere Liste sein)
  • intermediate_events (mit Funktionsaufrufen und Antworten, kann eine leere Liste sein)
  • Optional: rubric_groups (Wenn Sie bereits Bewertungsschemas generiert haben, können Sie sie direkt für die Bewertung bereitstellen.)
Ausgabe
  • score
  • rubrics und die entsprechende verdicts

Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 5 Aufrufe von Gemini 2.5 Flash und 1 Aufruf von Gemini 2.5 Pro

KI-Halluzinationen

Aktuelle Version hallucination_v1
Typ Statische Bewertungsschemata
Beschreibung Eine auf dem Ergebnis basierende Messgröße, mit der die Faktualität und Konsistenz von Textantworten geprüft wird, indem die Antwort in atomare Behauptungen unterteilt wird. Es wird geprüft, ob jede Behauptung auf der Verwendung von Tools in den Zwischenereignissen basiert. Sie kann auch verwendet werden, um Zwischenantworten zu bewerten, indem Sie das Flag evaluate_intermediate_nl_responses auf „true“ setzen.
Zugriff im SDK types.RubricMetric.HALLUCINATION
Eingabe
  • response
  • developer_instruction
  • tool_declarations (kann eine leere Liste sein)
  • intermediate_events (mit Funktionsaufrufen und Antworten, kann eine leere Liste sein)
  • evaluate_intermediate_nl_responses (Standardwert ist False)
Ausgabe
  • score
  • explanation und die entsprechende verdicts
Der Wert liegt zwischen 0 und 1 und gibt den Anteil der Behauptungen an, die im Vergleich zum Eingabeaufforderung als supported oder no_rad gekennzeichnet sind (keine faktischen Quellenangaben erforderlich, z. B. Begrüßungen, Fragen oder Haftungsausschlüsse). Die Erklärung enthält eine strukturierte Aufschlüsselung von Behauptung, Label, Begründung und Auszügen, die den Kontext unterstützen.
Anzahl der LLM-Aufrufe 2 Aufrufe von Gemini 2.5 Flash

Qualität der Nutzung von Agenten-Tools

Aktuelle Version tool_use_quality_v1
Typ Adaptive Rubriken
Beschreibung Ein zielgerichteter adaptiver Rubrik-Messwert, mit dem die Auswahl geeigneter Tools, die korrekte Verwendung von Parametern und die Einhaltung der angegebenen Reihenfolge von Vorgängen bewertet werden.
Zugriff im SDK types.RubricMetric.TOOL_USE_QUALITY
Eingabe
  • prompt
  • developer_instruction
  • tool_declarations (kann eine leere Liste sein)
  • intermediate_events (mit Funktionsaufrufen und Antworten, kann eine leere Liste sein)
  • Optional: rubric_groups (Wenn Sie bereits Bewertungsschemas generiert haben, können Sie sie direkt für die Bewertung bereitstellen.)
Ausgabe
  • score
  • rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 5 Aufrufe von Gemini 2.5 Flash und 1 Aufruf von Gemini 2.5 Pro

Gecko-Text-zu-Bild-Qualität

Aktuelle Version gecko_text2image_v1
Typ Adaptive Rubriken
Beschreibung Der Messwert Gecko für die Umwandlung von Text in Bilder ist eine adaptive, auf Bewertungsschemas basierende Methode zur Bewertung der Qualität eines generierten Bildes im Vergleich zum entsprechenden Text-Prompt. Dazu wird zuerst eine Reihe von Fragen aus dem Prompt generiert, die als detaillierte, promptspezifische Rubrik dienen. Ein Modell beantwortet diese Fragen dann basierend auf dem generierten Bild.
Zugriff im SDK types.RubricMetric.GECKO_TEXT2IMAGE
Eingabe
  • prompt
  • response – sollte Dateidaten mit dem MIME-Typ für Bilder sein
Ausgabe
  • score
  • rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 2 Aufrufe von Gemini 2.5 Flash

Gecko-Text-zu-Video-Qualität

Aktuelle Version gecko_text2video_v1
Typ Adaptive Rubriken
Beschreibung Der Gecko-Messwert für Text-zu-Video ist eine adaptive, auf Bewertungsschemas basierende Methode zur Bewertung der Qualität eines generierten Videos im Vergleich zum entsprechenden Text-Prompt. Dazu wird zuerst eine Reihe von Fragen aus dem Prompt generiert, die als detaillierte, promptspezifische Rubrik dienen. Ein Modell beantwortet diese Fragen dann basierend auf dem generierten Video.
Zugriff im SDK types.RubricMetric.GECKO_TEXT2VIDEO
Eingabe
  • prompt
  • response – sollte Dateidaten mit Video-MIME-Typ sein
Ausgabe
  • score
  • rubrics und die entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 2 Aufrufe von Gemini 2.5 Flash

Nächste Schritte