KI-Agentenbewertung

In diesem Dokument wird beschrieben, wie Sie die Agent-Bewertung verwenden können, um die Leistung, Sicherheit und Qualität Ihrer Agents zu messen und zu verbessern.

Weitere Informationen zur Modellbewertung finden Sie unter Übersicht über den Gen AI Evaluation Service.

Zusammenfassung des Verfahrens

Phase Aktivität Ziel
Gestaltung Bewertungsfälle definieren Geben Sie Agent-Aufgaben und erwartete Ergebnisse an.
Ausführung Inferenzen ausführen Erstellen Sie Gesprächsverläufe aus der realen Welt oder simulierte Gesprächsverläufe.
Bewertungen Messwerte berechnen Bewerten Sie Traces mit automatisierten Ratern (Task Success, Safety).
Optimierung Agent optimieren Verbesserungen an Anleitungen oder Tools vorschlagen und überprüfen.

Bewertungsprozess

Die Bewertung folgt einem strukturierten, iterativen Workflow:

  1. Evaluierungsfälle definieren: Ein Evaluierungsfall ist eine Spezifikation, die die Aufgabe eines Kundenservicemitarbeiters definiert. Ein Evaluierungsfall kann einen oder mehrere Gesprächsschritte, den Gesprächskontext (den Status des Kundenservicemitarbeiters) und eine Spezifikation zum Simulieren von Nutzerantworten während der Inferenz enthalten.
  2. Inferenz ausführen: Inferenz ist die Ausführung eines Testlaufs. Wenn ein Testlauf einen Unterhaltungsplan enthält, werden Nutzerantworten während der Inferenz simuliert.
  3. Traces generieren: Bei jeder Inferenz wird das Verhalten des Agents in einem Trace erfasst. Ein Trace ist ein sachlicher, unveränderlicher Datensatz des Verhaltens des KI-Agenten, einschließlich Modelleingaben, Antworten und Toolaufrufen.
  4. Messwerte berechnen: Messwerte sind Werte, die für jeden Trace mithilfe von vordefinierten oder benutzerdefinierten Ratern berechnet werden. Einige Messwerte, z. B. Genaue Übereinstimmung, sind referenzbasiert und erfordern einen Testlauf mit einer Referenzantwort. Andere, wie Nützlichkeit, sind referenzfrei und bewerten den Trace für sich. Mit dieser automatisierten Auswertung können Sie Traces bewerten, die aus Produktions-Traffic oder externen Logs erfasst wurden, unabhängig von einer verwalteten Testumgebung.
  5. Analyse durchführen: Analysieren Sie Messwerte, Rubriken und Ergebnisse, um wichtige Probleme mit dem Agenten zu ermitteln, die Probleme mit dem Agenten mit Testläufen zu verknüpfen und Erkenntnisse zur Verbesserung zu gewinnen.
  6. Agent optimieren: Verwenden Sie die Optimierung, um den gesamten Bewertungszyklus zu verwalten. Bei diesem automatisierten Prozess werden Ergebnisse analysiert, Verbesserungen für den Agenten vorgeschlagen und der Prozess wird iterativ wiederholt, um Leistungssteigerungen zu überprüfen.

Bewertungs-Workflow

Sie können die Bewertung in zwei Hauptphasen Ihres Workflows einbinden:

  • Lokale Entwicklungsiteration: Sie können einen auf dem Agent Development Kit (ADK) basierenden Agenten lokal bewerten, um schnell Iterationen für Prompt Engineering und Tool-Konfigurationen durchzuführen.
  • Bewertung bereitgestellter Agents: Messen Sie die Qualität bereitgestellter Agents, indem Sie bisherige Traces analysieren oder synthetische Benchmarks für Agent-Endpunkte ausführen.

Hauptfunktionen

Mithilfe der Agentenbewertung können Sie eine erste Testsuite erstellen, auch ohne vorhandene Testdaten. Die folgenden Funktionen helfen Ihnen, den Prozess der Generierung von Testläufen und der Optimierung Ihrer agentischen Systeme zu automatisieren:

  • Szenariogenerierung und Nutzersimulation: Generieren Sie automatisch vielfältige, mehrstufige synthetische Testszenarien basierend auf den Anweisungen und Tool-Definitionen Ihres Agents. Mit dieser Automatisierung können Sie sofort mit dem Testen beginnen, da Sie keine ersten Testläufe manuell erstellen müssen.

  • Umgebungssimulation: Bestimmte Tool-Aufrufe werden abgefangen, um benutzerdefinierte Verhaltensweisen, simulierte Daten oder simulierte Fehler (z. B. HTTP 503-Fehler oder Latenzspitzen) einzuschleusen. Mit dieser Simulation können Sie die Robustheit von Agents validieren, ohne die Produktions-Back-Ends zu beeinträchtigen.

  • Multi-Turn-Bewertung: Ganze Unterhaltungsverläufe werden automatisch mit Multi-Turn-Autoratern bewertet. Diese Rater analysieren die Absichtsextraktion, generieren dynamisch Bewertungsschemas und liefern objektive Validierungsergebnisse, um die Einhaltung von Anweisungen zu gewährleisten.

  • Prompt-Optimierung: Mit der Prompt-Optimierung können Sie programmgesteuert verfeinerte Systemanweisungen generieren und validieren. Das Optimierungsframework identifiziert Fehlerquellen und schlägt iterativ gezielte Aktualisierungen vor.

Mit KI‑Programmierassistenten bewerten

Wenn Sie die Gemini CLI oder einen anderen KI-Coding-Assistenten verwenden, können Sie Agent-Skills installieren, mit denen Ihr Assistent die auf dieser Seite beschriebene Methode zur Agent-Bewertung lernt. Für jede Skill werden der Evaluierungsworkflow, das Datensatzschema, die Anleitung zur Auswahl von Messwerten und die Schritte zur Fehleranalyse direkt in Ihrer Codingsitzung bereitgestellt. Ihr Assistent kann also Evaluierungen erstellen, bewerten und verbessern, ohne dass Sie den Editor verlassen müssen.

Die Installationsanleitung folgt auf jede Skill-Beschreibung.

Agents CLI-Bewertungs-Skill

Ein CLI-basierter Workflow zum Bewerten und Optimieren von Agent Development Kit (ADK)-Agenten mit den agents-cli eval-Befehlen. In diesem Kurs werden folgende Themen behandelt:

  • Evaluierungsdatasets vorbereiten und Szenarien mit mehreren Durchgängen mit Nutzersimulation synthetisieren
  • Inferenz ausführen, Traces bewerten und Fehlercluster analysieren
  • Prompts und Tools mit dem Eval-Fix-Loop iterieren

Führen Sie den folgenden Befehl aus, um die Erweiterung zu installieren:

npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval

Flywheel-Skill für den GenAI Evaluation Service der Agent Platform

Ein SDK-basiertes Playbook zum Bewerten und Verbessern von Modellen und Agenten mit dem GenAI Evaluation Service der Agent Platform unter Verwendung des GenAI Evaluation SDK der Agent Platform (client.evals.evaluate()). In diesem Skill geht es um:

  • Evaluierungsdatasets aus Sitzungstraces, DataFrames oder synthetischen Daten erstellen
  • Benutzerdefinierte Messwerte mit LLM-as-Judge-Bewertung auswählen, konfigurieren und schreiben
  • Rubrikurteile und Verlustmuster analysieren, um konkrete Verbesserungen zu erzielen

Führen Sie den folgenden Befehl aus, um die Erweiterung zu installieren:

npx skills add https://github.com/google/skills --skill agent-platform-eval-flywheel

Nächste Schritte