Hinweis
Damit Sie Bewertungsergebnisse ansehen und analysieren können, benötigen Sie Folgendes:
- Führen Sie mindestens eine Bewertung aus, wie unter Agenten bewerten oder Offlinebewertungen ausführen beschrieben.
- Konfigurieren Sie einen Cloud Storage -Bucket für die Bewertungsausgabe, wenn Sie Offlinebewertungen ausführen.
- (Optional) Wenn Sie das SDK verwenden, um Ergebnisse abzurufen, muss Ihre Umgebung authentifiziert sein.
Nachdem Sie eine Bewertung ausgeführt haben, bietet die Agent Platform Diagnosetools, mit denen Sie die Grundursachen von Fehlern ermitteln können. Sie können Ergebnisse auf drei Ebenen analysieren: aggregierte Trends im Dashboard, semantische Gruppen in Fehlerclustern und detaillierte Logikpfade in einzelnen Traces.
Das Bewertungs-Dashboard für Online-Monitore
Für Agenten mit aktiven Online-Monitoren können Sie aggregierte Leistungstrends im Dashboard ansehen:
- Rufen Sie in der Google Cloud -Console die Seite Agent Platform > Agents auf.
- Wählen Sie im linken Navigationsmenü Deployments aus.
Wählen Sie den Agent aus.
Klicken Sie auf den Tab Dashboard und wählen Sie den Unterabschnitt Bewertung aus.
- Leistungstrends:Hier können Sie visualisieren, wie sich die Werte für Messwerte wie Aufgabenerfolg oder Qualität der Toolnutzung bei verschiedenen Agentenversionen oder Zeiträumen ändern.
- Nullstatus: Für Agenten ohne aktive Online-Monitore werden in dieser Ansicht Abdeckungslücken ermittelt und eine Handlungsaufforderung angezeigt, um mit der Bewertung zu beginnen.
Bewertungsergebnisse mit dem SDK ansehen
Sie können programmatisch auf Bewertungsergebnisse zugreifen, indem Sie das Agent Platform SDK verwenden. Das SDK bietet integrierte interaktive Visualisierungen für Colab- und Jupyter-Notebook-Umgebungen, in denen sowohl aggregierte Zusammenfassungsmesswerte als auch detaillierte Ergebnisse pro Fall angezeigt werden.
Nachdem Sie eine Bewertung ausgeführt haben, rufen Sie .show() für das Ergebnisobjekt auf, um einen interaktiven Bericht direkt in Ihrem Notebook zu rendern:
from vertexai import evals, types
# Run an evaluation
result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[
types.RubricMetric.FINAL_RESPONSE_QUALITY,
types.RubricMetric.TOOL_USE_QUALITY,
types.RubricMetric.HALLUCINATION,
types.RubricMetric.SAFETY,
],
)
# Visualize aggregate and per-case results in your notebook
result.show()
Die Visualisierung umfasst Folgendes:
- Zusammenfassungsmesswerte:Aggregierte Werte für alle Bewertungsfälle, einschließlich Durchschnittswert und Erfolgsrate für jeden Messwert.
- Ergebnisse pro Fall:Einzelne Werte für Bewertungsfälle, die Sie maximieren können, um detaillierte Ergebnisse zu sehen.
Das folgende Beispiel zeigt die Zusammenfassungsmesswerte aus result.show():

Sie können einzelne Bewertungsfälle maximieren, um Werte, Bewertungsschemaurteile und Begründungen für jeden Messwert zu sehen:

Bewertungsergebnisse deuten
Vordefinierte Messwerte geben je nach Messwerttyp Ergebnisse in zwei Formaten zurück:
- Adaptive Bewertungsschema-Messwerte generieren automatisch Bewertungsschemata basierend auf der Konfiguration des Agenten und dem Prompt des Nutzers. Jedes Bewertungsschema erhält ein individuelles Bestanden - oder Nicht bestanden -Urteil mit einer Begründung in natürlicher Sprache, in der die Argumentation des LLM des Prüfers erläutert wird. Der Gesamtwert stellt die Erfolgsrate dar, also den Anteil der Bewertungsschemata, die das Urteil Bestanden erhalten haben.
- Statische Bewertungsschema-Messwerte verwenden eine feste Reihe von Bewertungskriterien. Bei der Halluzination wird die Antwort beispielsweise in einzelne Behauptungen unterteilt und jede wird anhand von Beweisen für die Toolnutzung überprüft. Sicherheitsprüfungen auf personenbezogene Daten, Hassrede, gefährliche Inhalte und andere Richtlinienverstöße. Diese Messwerte geben einen einzelnen numerischen Wert (0 bis 1) zurück.
Fehler identifizieren und priorisieren
Nachdem Sie die Bewertungsergebnisse überprüft haben, müssen Sie als Nächstes systemische Fehlermuster identifizieren und priorisieren, um Ihren Agenten zu verbessern. Die Agent Platform bietet die automatische Verlustanalyse, mit der die Signale „Bestanden“ oder „Nicht bestanden“ aus Bewertungsschema-basierten Messwerten analysiert, Fehler in vordefinierte Verlustmuster klassifiziert und in semantische Cluster gruppiert werden. So können Sie nicht nur nachvollziehen, dass Ihr Agent einen Fehler gemacht hat, sondern auch warum und wie.
Fehlercluster in der Console aufrufen
- Rufen Sie die Seite Agent Platform > Agents > Bewertung auf.
- Wählen Sie den Tab Bewertungen aus.
- Klicken Sie auf den Namen einer abgeschlossenen Bewertungsausführung, um den Bericht zu öffnen.
- Wenn bei der Bewertung Cluster erkannt wurden, werden sie im Abschnitt Fehlercluster des Berichts angezeigt.
Fehlercluster mit dem SDK generieren
Sie können Fehlercluster auch programmatisch mit der Methode generate_loss_clusters generieren:
# Generate failure clusters from evaluation results
loss_clusters = client.evals.generate_loss_clusters(
eval_result=result,
)
# Visualize the loss pattern analysis in your notebook
loss_clusters.show()
Das folgende Beispiel zeigt die Analyse der Verlustmuster aus loss_clusters.show():

Taxonomien für Verlustmuster
Bei der automatischen Verlustanalyse wird jeder Fehler in ein oder mehrere vordefinierte Verlustmuster klassifiziert. Diese Muster sind konkret und umsetzbar und werden direkt bestimmten Bereichen Ihres Agenten zugeordnet, die Sie verbessern können.
Es gibt zwei vordefinierte Taxonomien, die jeweils auf einen bestimmten Messwert abgestimmt sind:
Taxonomie für den Aufgabenerfolg des Agenten
Diese Taxonomie wird mit dem Messwert Aufgabenerfolg des Agenten bei Multi-Turn-Unterhaltungen (multi_turn_task_success_v1) verwendet. Sie umfasst Fehler im Verhalten des Agenten auf hoher Ebene in Bezug auf Halluzinationen, Befolgung von Anweisungen, Toolaufrufe, Verarbeitung der Toolausgabe und Toolqualität:
| Kategorie | Verlustmuster | Beschreibung |
|---|---|---|
| Halluzination | Halluzination einer Aktion | Der Agent behauptet, eine Aktion abgeschlossen zu haben, ohne den erforderlichen Toolaufruf auszuführen. |
| Halluzination fehlender Informationen | Der Agent erfindet ein Detail (z. B. einen Wert, eine Tatsache oder ein Datum), das nicht vorhanden ist in der Nutzerabfrage oder der Toolausgabe. | |
| Halluzination eines Tools oder einer Funktion | Der Agent behauptet, ein Tool oder eine Funktion zu haben, die er nicht besitzt. | |
| Befolgung von Anweisungen | Verstoß gegen Einschränkungen | Der Agent führt die Aufgabe aus, verstößt aber gegen explizite Nutzereinschränkungen (z. B. Formatierungsregeln oder negative Einschränkungen). |
| Sinnlose Aktion (Untertreibung) | Der Agent führt eine irrelevante Aktion aus, anstatt anzugeben, dass die Aufgabe nicht möglich ist mit den verfügbaren Tools. | |
| Unvollständige Ausführung | Der Agent schließt eine Aufgabe teilweise ab, stoppt aber vorzeitig oder fragt unnötige Berechtigungen für explizit angeforderte Schritte an. | |
| Übertreibung | Der Agent lehnt eine Aufgabe ab und behauptet, dass ihm ein Tool oder eine Funktion fehlt die er tatsächlich besitzt. | |
| Toolaufrufe | Falsche Toolauswahl | Der Agent wählt das falsche Tool aus den verfügbaren Optionen aus. |
| Semantisch falsche Toolparameter | Der Toolaufruf ist syntaktisch gültig, enthält aber einen logischen oder semantischen Fehler in den Parameterwerten. | |
| Syntaktisch falscher Toolaufruf | Der Toolaufruf enthält Syntaxfehler, es fehlen obligatorische Parameter, oder die Argumentwerte sind ungültig. | |
| Verarbeitung der Toolausgabe | Falsche Verarbeitung der Toolausgabe | Der Agent erhält eine gültige Toolausgabe, extrahiert, verarbeitet oder interpretiert die Informationen aber falsch. |
| Toolqualität | Unzureichende Toolausgabe | Das Tool wird erfolgreich ausgeführt, gibt aber unzureichende oder fehlende Daten zurück, die der Agent für die weitere Verarbeitung benötigt. |
| Toolfehler | Das Tool schlägt aufgrund von Infrastrukturproblemen wie Authentifizierungs fehlern, Zeitüberschreitungen oder internen Fehlern fehl. |
Taxonomie für die Qualität der Toolnutzung
Diese Taxonomie wird mit dem Messwert Qualität der Toolnutzung des Agenten bei Multi-Turn-Unterhaltungen (multi_turn_tool_use_quality_v1) verwendet. Sie konzentriert sich speziell auf die Korrektheit von Toolaufrufen und die Verarbeitung von Toolantworten:
| Kategorie | Verlustmuster | Beschreibung |
|---|---|---|
| Halluzination | Halluzination eines Parameterwerts | Der Agent erfindet einen bestimmten Wert für einen Parameter, der nicht vom Nutzer angegeben wurde oder nicht aus dem Kontext abgeleitet werden kann. |
| Halluzination eines Tools | Der Agent versucht, eine Funktion aufzurufen, die in seinem definierten Toolset nicht vorhanden ist. | |
| Toolaufrufe | Parameter nicht festgelegt | Der Agent lässt einen Parameter aus, der erforderlich ist, um die Einschränkungen des Nutzers zu erfüllen, und verwendet stattdessen einen unbeabsichtigten Wert. |
| Falscher Datentyp für Parameter | Der Agent gibt für einen Parameter einen Wert mit dem falschen Datentyp an (z. B. einen String, wenn eine Ganzzahl erforderlich ist). | |
| Falsche Parameterzuordnung | Der Agent weist einen Wert dem falschen Parameter zu (z. B. indem er Start- und Enddatum vertauscht). | |
| Falscher Parameterwert | Der Agent gibt einen Parameterwert an, der logisch oder faktisch falsch ist, oder wendet keine erforderlichen Datentransformationen an. | |
| Falsche Toolauswahl | Der Agent wählt die falsche Funktion aus seinem verfügbaren Toolset aus. | |
| Ungültige Syntax für Toolaufrufe | Der Agent generiert einen Funktionsaufruf mit einem Syntaxfehler, der das Parsen oder die Ausführung verhindert. | |
| Nicht vorhandener Parameter | Der Agent fügt ein Parameterargument ein, das in der Signatur des Tools nicht definiert ist. | |
| Erforderlicher Toolaufruf ausgelassen | Der Agent führt eine erforderliche Funktion nicht aus, entweder indem er direkt antwortet, einen Teil einer zusammengesetzten Anfrage überspringt oder einen erforderlichen Schritt überspringt. | |
| Untertreibung | Der Agent erzwingt einen Toolaufruf, obwohl er in natürlicher Sprache antworten sollte (z. B. um eine Klarstellung zu bitten oder eine Anfrage abzulehnen, die nicht in den Anwendungsbereich fällt). | |
| Toolantwort | Irrelevante Toolantwort | Das Tool wird erfolgreich ausgeführt, gibt aber Daten zurück, die für die spezifische Abfrage des Nutzers nicht relevant sind. |
| Toolfehler | Das Tool gibt aufgrund eines externen Problems (z. B. eines API-Ausfalls oder ungültiger Berechtigungen) einen expliziten Fehler oder einen Fehlerstatus zurück. |
Empfohlener Workflow für die Priorisierung
Verwenden Sie den folgenden Workflow, um Bewertungsausfälle systematisch zu priorisieren:
- Beginnen Sie mit den Zusammenfassungsmesswerten , um die Messwerte mit den niedrigsten Werten in Ihrem Bewertungs-Dataset zu ermitteln.
- Analysieren Sie die Ergebnisse pro Fall , um bestimmte Bewertungsfälle zu finden, die fehlgeschlagen sind.
- Generieren Sie Fehlercluster , um systemische Verlustmuster bei Fehlern zu ermitteln.
- Analysieren Sie die Traces , um den genauen Zug oder Toolaufruf zu finden, bei dem der Fehler aufgetreten ist. Rufen Sie in der Console Agent Platform > Agents > Deployments auf, wählen Sie Ihren Agenten aus und öffnen Sie den Tab Traces. Wählen Sie einen Trace aus, um den vollständigen Unterhaltungsverlauf und die genaue Reihenfolge der Modelleingaben, Toolaufrufe und Antworten zu sehen.
- Ermitteln Sie die Grundursache: Verwenden Sie die Kategorie des Verlustmusters, um zu ermitteln, ob es sich um ein Prompt-, Toolkonfigurations- oder Datenproblem handelt.
- Wenden Sie eine gezielte Korrektur auf die Systemanweisungen, Tooldefinitionen oder Few-Shot-Beispiele des Agenten an.
- Führen Sie die Bewertung noch einmal aus und vergleichen Sie die Werte, um die Verbesserung zu überprüfen.