KI-Agenten bewerten

Mit dieser Funktion können Sie KI-Agents bewerten. Mit dem Gen AI Evaluation Service können Sie die Leistung, Sicherheit und Qualität Ihrer Agents messen und verbessern.

Bewertungstypen

Bewertungstyp Anwendungsfall Häufigkeit
Schnelle Bewertung Neue Agentenlogik oder Modelländerungen testen Häufig (Entwicklung)
Testlaufbewertung Regressionstests für einen bestimmten Datensatz. Geplant (CI/CD)
Online-Monitoring Qualität eines Produktionsagent-Deployments im Blick behalten. Kontinuierlich (Produktion)

Bewertungs-Workflow

Sie können Ihre Agenten über die Google Cloud Console oder das Agent Platform SDK bewerten.

Google Cloud Console

So führen Sie eine grundlegende Bewertung für die Bereitstellung eines Agents durch:

  1. Rufen Sie in der Google Cloud Console die Seite Agent Platform > Agents auf.
  2. Wählen Sie im linken Navigationsmenü Bereitstellungen und dann Ihren Agent aus.

    Zu Deployments

  3. Wählen Sie den Tab Dashboard und dann den Unterabschnitt Bewertung aus.
  4. Klicken Sie auf Neue Bewertung.
  5. Folgen Sie der Anleitung, um Ihre Testläufe zu definieren und Messwerte auszuwählen.
  6. Klicken Sie auf Bewertung ausführen.

Ausführlichere Anleitungen finden Sie unter Offline-Evaluierungen durchführen und Kontinuierliche Evaluierung mit Onlinemonitoren.

Agent Platform SDK

Der Workflow zur Verbesserung von Agenten basiert auf dem Qualitäts-Flywheel, einem kontinuierlichen Zyklus aus Bewertung, Analyse und Optimierung. Sie bewerten die Leistung Ihres Agents, analysieren die Ergebnisse, um Fehlercluster zu identifizieren, und optimieren dann Ihre Prompts oder Konfiguration, um diese Probleme zu beheben. Mit diesem iterativen Prozess können Sie Leistungslücken proaktiv erkennen und beheben.

Hinweis

  1. Installieren Sie das Agent Platform SDK mit den erforderlichen Erweiterungen:

    pip install google-cloud-aiplatform[adk,evaluation]
  2. Initialisieren Sie den Client des Agent Platform SDK:

    import vertexai
    from vertexai import Client
    
    client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")

    Wobei:

    • YOUR_PROJECT_ID: Projekt-ID in Google Cloud .
    • YOUR_LOCATION: Ihre Cloud-Region, z. B. us-central1.

1. Bewertungsfälle definieren (Nutzersimulation)

Anstatt Testläufe manuell zu erstellen, können Sie mit der Nutzersimulation synthetische Unterhaltungspläne mit mehreren Durchgängen basierend auf den Anweisungen Ihres KI-Agenten generieren.

# Generate scenarios from agent info
eval_dataset = client.evals.generate_conversation_scenarios(
    agent_info=my_agent_info,
    config={
        "count": 5,
        "generation_instruction": "Generate scenarios where a user asks for a refund.",
    },
)

Weitere Informationen finden Sie in der Referenz zum Agent Platform SDK.

2. Inferenzen ausführen

Führen Sie die Testläufe für Ihren Agenten aus, um Traces zu erfassen.

# Generate behavior traces using a multi-turn user simulator
traces = client.evals.run_inference(
    agent=my_agent,
    src=eval_dataset,
    config={"user_simulator_config": {"max_turn": 5}}
)

3. Messwerte berechnen (AutoRaters)

Verwenden Sie AutoRaters mit mehreren Durchgängen, um die erfassten Traces zu bewerten. Diese Rater analysieren den gesamten Unterhaltungsverlauf, um die Einhaltung von Anweisungen und die Tool-Nutzung zu überprüfen.

# Evaluate the traces using multi-turn metrics
eval_result = client.evals.evaluate(
    traces=traces,
    metrics=[
        "MULTI_TURN_TASK_SUCCESS",
        "MULTI_TURN_TOOL_USE_QUALITY"
    ]
)

4. Analyse durchführen (Fehlercluster)

Das System gruppiert fehlgeschlagene Auswertungen automatisch in Verlustclustern, um wichtige Probleme mit Kundenservicemitarbeitern zu identifizieren.

# Identify the top failure patterns in the results
loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)

5. Agent optimieren

Verwenden Sie schließlich den Optimizer-Dienst, um die Systemanweisungen oder Tool-Beschreibungen Ihres Agents basierend auf den Fehlerdaten programmatisch zu optimieren.

# Automatically refine the system prompt to fix identified issues
optimize_result = client.optimizer.optimize(
    targets=["system_prompt"],
    benchmark=eval_result,
    tests=eval_dataset
)

Nächste Schritte