KI-Agentenbewertung

In diesem Dokument wird beschrieben, wie Sie die Agent-Bewertung verwenden, um die Leistung, Sicherheit und Qualität Ihrer Agenten zu messen und zu verbessern.

Weitere Informationen zur Modellbewertung finden Sie unter Übersicht über den Generative AI Evaluation Service.

Zusammenfassung der Vorgehensweise

Phase Aktivität Ziel
Design Bewertungsfälle definieren Aufgaben des Agenten und erwartete Ergebnisse angeben.
Ausführung Inferenzen ausführen Unterhaltungsspuren aus der Praxis oder aus Simulationen generieren.
Bewertungen Messwerte berechnen Spuren mit automatisierten Bewertern bewerten (Aufgabenerfolg, Sicherheit).
Optimierung Agent optimieren Verbesserungen an Anweisungen oder Tools vorschlagen und überprüfen.

Bewertungsprozess

Die Bewertung folgt einem strukturierten, iterativen Workflow:

  1. Bewertungsfälle definieren: Ein Bewertungsfall ist eine Spezifikation, die die Aufgabe eines Agenten definiert. Ein Bewertungsfall kann einen oder mehrere Unterhaltungsschritte, den Unterhaltungskontext (den Status des Agenten) und eine Spezifikation zum Simulieren von Nutzerantworten während der Inferenz enthalten.
  2. Inferenzen ausführen: Inferenz ist die Ausführung eines Bewertungsfalls. Wenn ein Bewertungsfall einen Unterhaltungsplan enthält, werden während der Inferenz Nutzerantworten simuliert.
  3. Spuren generieren: Bei jeder Inferenz wird das Verhalten des Agenten in einer Spur erfasst. Eine Spur ist ein faktischer, unveränderlicher Datensatz des Verhaltens des Agenten, einschließlich Modelleingaben, Antworten und Tool-Aufrufen.
  4. Messwerte berechnen: Messwerte sind Ergebnisse, die für jede Spur mit vordefinierten oder benutzerdefinierten Bewertern berechnet werden. Einige Messwerte wie Exact Match sind referenzbasiert und erfordern einen Bewertungsfall mit einer Referenzantwort. Andere wie Helpfulness sind referenzfrei und bewerten die Spur für sich. Mit dieser automatisierten Bewertung können Sie Spuren bewerten, die aus dem Produktionsdatenverkehr oder aus externen Logs erfasst wurden, unabhängig von einer verwalteten Testumgebung.
  5. Analyse durchführen: Analysieren Sie Messwerte, Rubriken und Ergebnisse, um wichtige Agent-Probleme zu identifizieren, die Agent-Probleme mit Testfällen zu verknüpfen und Erkenntnisse zur Verbesserung zu gewinnen.
  6. Agent optimieren: Verwenden Sie die Optimierung, um den gesamten Bewertungszyklus zu verwalten. Bei diesem automatisierten Prozess werden Ergebnisse analysiert, Verbesserungen am Agenten vorgeschlagen und der Prozess iterativ wiederholt, um Leistungssteigerungen zu überprüfen.

Bewertungs-Workflow

Sie können die Bewertung in zwei Hauptphasen Ihres Workflows einbinden:

  • Lokale Entwicklungswiederholung: Bewerten Sie einen auf dem Agent Development Kit (ADK) basierenden Agenten lokal, um schnell Iterationen an Prompt-Engineering und Tool Konfigurationen vorzunehmen.
  • Bewertung bereitgestellter Agenten: Messen Sie die Qualität bereitgestellter Agenten, indem Sie historische Spuren analysieren oder synthetische Benchmarks für Agent Endpunkte ausführen.

Hauptfunktionen

Mit der Agent-Bewertung können Sie eine erste Bewertungssuite erstellen, auch ohne vorhandene Testdaten. Die folgenden Funktionen helfen, den Prozess der Testfallgenerierung zu automatisieren und Ihre agentischen Systeme zu optimieren:

  • Szenariogenerierung und Nutzersimulation: Generieren Sie automatisch vielfältige, mehrstufige synthetische Testszenarien basierend auf den Anweisungen und Tool-Definitionen Ihres Agenten. Mit dieser Automatisierung können Sie sofort mit dem Testen beginnen, da Sie keine ersten Testfälle manuell erstellen müssen.

  • Umgebungssimulation: Fangen Sie bestimmte Tool-Aufrufe ab, um benutzerdefinierte Verhaltensweisen, Scheindaten oder simulierte Fehler (z. B. HTTP-503 Fehler oder Latenzspitzen) einzuschleusen. Mit dieser Simulation können Sie die Resilienz des Agenten validieren, ohne die Produktions-Back-Ends zu beeinträchtigen.

  • Mehrstufige Bewertung: Bewerten Sie automatisch gesamte Unterhaltungsverläufe mit mehrstufigen automatischen Bewertern. Diese Bewerter analysieren die Intent-Extraktion, generieren dynamisch Rubriken und liefern objektive Validierungsergebnisse, um die Einhaltung der Anweisungen zu gewährleisten.

  • Prompt-Optimierung: Generieren und validieren Sie programmatisch optimierte Systemanweisungen mithilfe der Prompt-Optimierung. Das Optimierungsframework identifiziert Fehlerpunkte und schlägt iterativ gezielte Updates vor.

Nächste Schritte