KI-Agentenbewertung

In diesem Dokument wird beschrieben, wie Sie die Agent-Bewertung verwenden, um die Leistung, Sicherheit und Qualität Ihrer Agenten zu messen und zu verbessern.

Weitere Informationen zur Modellbewertung finden Sie unter Übersicht über den Generative AI Evaluation Service.

Zusammenfassung der Vorgehensweise

Phase	Aktivität	Ziel
Design	Bewertungsfälle definieren	Agent-Aufgaben und erwartete Ergebnisse angeben.
Ausführung	Inferenzen ausführen	Unterhaltungsspuren aus der Praxis oder aus Simulationen generieren.
Bewertungen	Messwerte berechnen	Spuren mit automatisierten Bewertern bewerten (Aufgabenerfolg, Sicherheit).
Optimierung	Agent optimieren	Verbesserungen an Anweisungen oder Tools vorschlagen und überprüfen.

Bewertungsprozess

Die Bewertung folgt einem strukturierten, iterativen Workflow:

Bewertungsfälle definieren: Ein Bewertungsfall ist eine Spezifikation, die die Aufgabe eines Agenten definiert. Ein Bewertungsfall kann einen oder mehrere Unterhaltungsschritte, den Unterhaltungskontext (den Status des Agenten) und eine Spezifikation zum Simulieren von Nutzerantworten während der Inferenz enthalten.
Inferenzen ausführen: Inferenz ist die Ausführung eines Bewertungsfalls. Wenn ein Bewertungsfall einen Unterhaltungsplan enthält, werden während der Inferenz Nutzerantworten simuliert.
Spuren generieren: Bei jeder Inferenz wird das Verhalten des Agenten in einer Spur erfasst. Eine Spur ist ein faktischer, unveränderlicher Datensatz des Verhaltens des Agenten, einschließlich Modelleingaben, Antworten und Tool-Aufrufen.
Messwerte berechnen: Messwerte sind Ergebnisse, die für jede Spur mit vordefinierten oder benutzerdefinierten Bewertern berechnet werden. Einige Messwerte wie Exact Match sind referenzbasiert und erfordern einen Bewertungsfall mit einer Referenzantwort. Andere wie Helpfulness sind referenzfrei und bewerten die Spur für sich. Mit dieser automatisierten Bewertung können Sie Traces bewerten, die aus dem Produktionsdatenverkehr oder aus externen Logs erfasst wurden, unabhängig von einer verwalteten Testumgebung.
Analyse durchführen: Analysieren Sie Messwerte, Bewertungsschemas und Ergebnisse, um wichtige Agent-Probleme zu identifizieren, die Agent-Probleme mit Testfällen zu verknüpfen und Verbesserungsvorschläge zu generieren.
Agent optimieren: Verwenden Sie die Optimierung, um den gesamten Bewertungszyklus zu verwalten. Dieser automatisierte Prozess analysiert Ergebnisse, schlägt Verbesserungen für den Agenten vor und führt den Prozess iterativ noch einmal aus, um Leistungssteigerungen zu überprüfen.

Bewertungs-Workflow

Sie können die Bewertung in zwei Hauptphasen Ihres Workflows einbinden:

Lokale Entwicklung: Bewerten Sie einen auf dem Agent Development Kit (ADK) basierenden Agenten lokal, um schnell Iterationen für das Prompt-Engineering und die Tool Konfigurationen durchzuführen.
Bewertung bereitgestellter Agenten: Messen Sie die Qualität bereitgestellter Agenten, indem Sie historische Spuren analysieren oder synthetische Benchmarks für Agent Endpunkte ausführen.

Hauptfunktionen

Mit der Agent-Bewertung können Sie eine erste Bewertungssuite erstellen, auch ohne vorhandene Testdaten. Die folgenden Funktionen helfen dabei, den Prozess der Testfallgenerierung zu automatisieren und Ihre Agent-Systeme zu optimieren:

Szenariogenerierung und Nutzersimulation: Generieren Sie automatisch vielfältige, mehrstufige synthetische Testszenarien basierend auf den Anweisungen und Tool-Definitionen Ihres Agenten. Mit dieser Automatisierung können Sie sofort mit dem Testen beginnen, da Sie keine ersten Testfälle manuell erstellen müssen.
Umgebungssimulation: Fangen Sie bestimmte Tool-Aufrufe ab, um benutzerdefinierte Verhaltensweisen, simulierte Daten oder simulierte Fehler (z. B. HTTP-503 Fehler oder Latenzspitzen) einzufügen. Mit dieser Simulation können Sie die Resilienz des Agenten überprüfen, ohne die Produktions-Back-Ends zu beeinträchtigen.
Mehrstufige Bewertung: Bewerten Sie automatisch gesamte Unterhaltungsverläufe mit mehrstufigen automatischen Bewertern. Diese Bewerter analysieren die Intent-Extraktion, generieren dynamisch Bewertungsschemas und liefern objektive Bewertungsergebnisse, um die Einhaltung der Anweisungen sicherzustellen.
Prompt-Optimierung: Generieren und validieren Sie programmatisch optimierte Systemanweisungen mithilfe der Prompt-Optimierung. Das Optimierungsframework identifiziert Fehlerpunkte und schlägt iterativ gezielte Updates vor.