Mit dieser Funktion können Sie KI-Agents bewerten. Mit dem Gen AI Evaluation Service können Sie die Leistung, Sicherheit und Qualität Ihrer Agents messen und verbessern.
Bewertungstypen
| Bewertungstyp | Anwendungsfall | Häufigkeit |
|---|---|---|
| Schnelle Bewertung | Neue Agentenlogik oder Modelländerungen testen | Häufig (Entwicklung) |
| Testlaufbewertung | Regressionstests für einen bestimmten Datensatz. | Geplant (CI/CD) |
| Online-Monitoring | Qualität eines Produktionsagent-Deployments im Blick behalten. | Kontinuierlich (Produktion) |
Bewertungs-Workflow
Sie können Ihre Agenten über die Google Cloud Console oder das Agent Platform SDK bewerten.
Google Cloud Console
So führen Sie eine grundlegende Bewertung für die Bereitstellung eines Agents durch:
- Rufen Sie in der Google Cloud Console die Seite Agent Platform > Agents auf.
- Wählen Sie im linken Navigationsmenü Bereitstellungen und dann Ihren Agent aus.
- Wählen Sie den Tab Dashboard und dann den Unterabschnitt Bewertung aus.
- Klicken Sie auf Neue Bewertung.
- Folgen Sie der Anleitung, um Ihre Testläufe zu definieren und Messwerte auszuwählen.
- Klicken Sie auf Bewertung ausführen.
Ausführlichere Anleitungen finden Sie unter Offline-Evaluierungen durchführen und Kontinuierliche Evaluierung mit Onlinemonitoren.
Agent Platform SDK
Der Workflow zur Verbesserung von Agenten basiert auf dem Qualitäts-Flywheel, einem kontinuierlichen Zyklus aus Bewertung, Analyse und Optimierung. Sie bewerten die Leistung Ihres Agents, analysieren die Ergebnisse, um Fehlercluster zu identifizieren, und optimieren dann Ihre Prompts oder Konfiguration, um diese Probleme zu beheben. Mit diesem iterativen Prozess können Sie Leistungslücken proaktiv erkennen und beheben.
Hinweis
Installieren Sie das Agent Platform SDK mit den erforderlichen Erweiterungen:
pip install google-cloud-aiplatform[adk,evaluation]
Initialisieren Sie den Client des Agent Platform SDK:
import vertexai from vertexai import Client client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")
Wobei:
YOUR_PROJECT_ID: Projekt-ID in Google Cloud .YOUR_LOCATION: Ihre Cloud-Region, z. B.us-central1.
1. Bewertungsfälle definieren (Nutzersimulation)
Anstatt Testläufe manuell zu erstellen, können Sie mit der Nutzersimulation synthetische Unterhaltungspläne mit mehreren Durchgängen basierend auf den Anweisungen Ihres KI-Agenten generieren.
# Generate scenarios from agent info eval_dataset = client.evals.generate_conversation_scenarios( agent_info=my_agent_info, config={ "count": 5, "generation_instruction": "Generate scenarios where a user asks for a refund.", }, )
Weitere Informationen finden Sie in der Referenz zum Agent Platform SDK.
2. Inferenzen ausführen
Führen Sie die Testläufe für Ihren Agenten aus, um Traces zu erfassen.
# Generate behavior traces using a multi-turn user simulator traces = client.evals.run_inference( agent=my_agent, src=eval_dataset, config={"user_simulator_config": {"max_turn": 5}} )
3. Messwerte berechnen (AutoRaters)
Verwenden Sie AutoRaters mit mehreren Durchgängen, um die erfassten Traces zu bewerten. Diese Rater analysieren den gesamten Unterhaltungsverlauf, um die Einhaltung von Anweisungen und die Tool-Nutzung zu überprüfen.
# Evaluate the traces using multi-turn metrics eval_result = client.evals.evaluate( traces=traces, metrics=[ "MULTI_TURN_TASK_SUCCESS", "MULTI_TURN_TOOL_USE_QUALITY" ] )
4. Analyse durchführen (Fehlercluster)
Das System gruppiert fehlgeschlagene Auswertungen automatisch in Verlustclustern, um wichtige Probleme mit Kundenservicemitarbeitern zu identifizieren.
# Identify the top failure patterns in the results loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)
5. Agent optimieren
Verwenden Sie schließlich den Optimizer-Dienst, um die Systemanweisungen oder Tool-Beschreibungen Ihres Agents basierend auf den Fehlerdaten programmatisch zu optimieren.
# Automatically refine the system prompt to fix identified issues optimize_result = client.optimizer.optimize( targets=["system_prompt"], benchmark=eval_result, tests=eval_dataset )
Nächste Schritte
- Offline-Bewertungen durchführen
- Bewertungsergebnisse ansehen
- Weitere Informationen zum Gen AI Evaluation Service