Google verwendet KI-Technologie, um Inhalte in Ihre bevorzugte Sprache zu übersetzen. KI-Übersetzungen können Fehler enthalten.

KI-Agentenbewertung

In diesem Dokument wird beschrieben, wie Sie die Agentenbewertung verwenden, um die Leistung, Sicherheit und Qualität Ihrer Agenten zu messen und zu verbessern.

Weitere Informationen zur Modellbewertung finden Sie unter Gen AI Evaluation Service Übersicht.

Zusammenfassung der Vorgehensweise

Phase	Aktivität	Ziel
Design	Bewertungsfälle definieren	Aufgaben des Agenten und erwartete Ergebnisse angeben.
Ausführung	Inferenzen ausführen	Unterhaltungs-Traces aus der Praxis oder aus Simulationen generieren.
Bewertungen	Messwerte berechnen	Traces mit automatisierten Bewertern bewerten (Aufgabenerfolg, Sicherheit).
Optimierung	Agenten optimieren	Verbesserungen an Anweisungen oder Tools vorschlagen und überprüfen.

Bewertungsprozess

Die Bewertung folgt einem strukturierten, iterativen Workflow:

Bewertungsfälle definieren: Ein Bewertungsfall ist eine Spezifikation, die die Aufgabe eines Agenten definiert. Ein Bewertungsfall kann einen oder mehrere Unterhaltungsschritte, den Unterhaltungskontext (den Status des Agenten) und eine Spezifikation zum Simulieren von Nutzerantworten während der Inferenz enthalten.
Inferenzen ausführen: Inferenz ist die Ausführung eines Bewertungsfalls. Wenn ein Bewertungsfall einen Unterhaltungsplan enthält, werden während der Inferenz Nutzerantworten simuliert.
Traces generieren: Bei jeder Inferenz werden die Aktionen des Agenten in einem Trace erfasst. Ein Trace ist ein faktischer, unveränderlicher Datensatz der Aktionen des Agenten, einschließlich Modelleingaben, Antworten und Tool-Aufrufen.
Messwerte berechnen: Messwerte sind Werte, die für jeden Trace mit vordefinierten oder benutzerdefinierten Bewertern berechnet werden. Einige Messwerte wie Exact Match sind referenzbasiert und erfordern einen Bewertungsfall mit einer Referenzantwort. Andere wie Helpfulness (Hilfreichkeit) sind referenzfrei und bewerten den Trace für sich. Mit dieser automatisierten Bewertung können Sie Traces bewerten, die aus dem Produktions-Traffic oder aus externen Logs erfasst wurden, unabhängig von einer verwalteten Testumgebung.
Analyse durchführen: Analysieren Sie Messwerte, Rubriken und Ergebnisse, um wichtige Agentenprobleme zu identifizieren, die Agentenprobleme mit Testfällen zu verknüpfen und Erkenntnisse zur Verbesserung zu gewinnen.
Agenten optimieren: Verwenden Sie die Optimierung, um den gesamten Bewertungszyklus zu verwalten. Bei diesem automatisierten Prozess werden Ergebnisse analysiert, Verbesserungen am Agenten vorgeschlagen und der Prozess iterativ wiederholt, um Leistungssteigerungen zu überprüfen.

Bewertungs-Workflow

Sie können die Bewertung in zwei Hauptphasen Ihres Workflows einbinden:

Lokale Entwicklung: Bewerten Sie einen auf dem Agent Development Kit (ADK) basierenden Agenten lokal, um schnell Prompt-Engineering und Tool Konfigurationen zu iterieren.
Bewertung bereitgestellter Agenten: Messen Sie die Qualität bereitgestellter Agenten, indem Sie historische Traces analysieren oder synthetische Benchmarks für Agenten endpunkte ausführen.

Hauptfunktionen

Mit der Agentenbewertung können Sie eine erste Bewertungssuite erstellen, auch ohne vorhandene Testdaten. Die folgenden Funktionen helfen, den Prozess der Testfallgenerierung zu automatisieren und Ihre Agentensysteme zu optimieren:

Szenariogenerierung und Nutzersimulation: Generieren Sie automatisch vielfältige, mehrstufige synthetische Testszenarien basierend auf den Anweisungen und Tool-Definitionen Ihres Agenten. Mit dieser Automatisierung können Sie sofort mit dem Testen beginnen, da Sie keine ersten Testfälle manuell erstellen müssen.
Umgebungssimulation: Fangen Sie bestimmte Tool-Aufrufe ab, um benutzerdefinierte Verhaltensweisen, simulierte Daten oder simulierte Fehler (z. B. HTTP-503 Fehler oder Latenzspitzen) einzufügen. Mit dieser Simulation können Sie die Resilienz des Agenten validieren, ohne die Produktions-Back-Ends zu beeinträchtigen.
Mehrstufige Bewertung: Bewerten Sie automatisch gesamte Unterhaltungsverläufe mit mehrstufigen automatischen Bewertern. Diese Bewerter analysieren die Intent-Extraktion, generieren dynamisch Rubriken und liefern objektive Bewertungsergebnisse, um die Einhaltung der Anweisungen zu gewährleisten.
Prompt-Optimierung: Generieren und validieren Sie programmatisch optimierte Systemanweisungen mit der Prompt-Optimierung. Das Optimierungsframework identifiziert Fehlerpunkte und schlägt iterativ gezielte Updates vor.

Mit KI-Programmierassistenten bewerten

Wenn Sie die Gemini CLI oder einen anderen KI-Programmierassistenten verwenden, können Sie Agenten Skills installieren, mit denen Ihr Assistent die auf dieser Seite beschriebene Methodik zur Agentenbewertung erlernt. Jeder Skill bietet den Bewertungs-Workflow, das Datensetschema, eine Anleitung zur Messwertauswahl und Schritte zur Fehleranalyse direkt in Ihrer Programmiersitzung. So kann Ihr Assistent Bewertungen erstellen, bewerten und verbessern, ohne den Editor zu verlassen.

Eine Installationsanleitung finden Sie bei jedem Skill.

Bewertungs-Skill für die Agents CLI

Ein CLI-gesteuerter Workflow zum Bewerten und Optimieren von Agenten des Agent Development Kit (ADK) mit den Befehlen agents-cli eval. Dieser Skill umfasst:

Bewertungsdatensets vorbereiten und mehrstufige Szenarien mit Nutzersimulation synthetisieren
Inferenz ausführen, Traces bewerten und Fehlercluster analysieren
Prompts und Tools mit der eval-fix-Schleife iterieren

Führen Sie den folgenden Befehl aus, um den Skill zu installieren:

npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval

Flywheel-Skill für den Gen AI Evaluation Service auf der Agent Platform

Ein SDK-gesteuertes Playbook zum Bewerten und Verbessern von Modellen und Agenten mit dem Gen AI Evaluation Service auf der Agent Platform und dem Gen AI Evaluation SDK auf der Agent Platform (client.evals.evaluate()). Dieser Skill umfasst:

Bewertungsdatensets aus Sitzungs-Traces, DataFrames oder synthetischer Generierung erstellen
Benutzerdefinierte Messwerte mit LLM-as-Judge-Bewertung auswählen, konfigurieren und schreiben
Bewertungsschema-Ergebnisse und Verlustmuster analysieren, um konkrete Verbesserungen zu erzielen