Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Offline-Evaluierungen durchführen

Mit der Offline-Bewertung können Sie die Leistung, Sicherheit und Qualität Ihrer Agents anhand von Verlaufsdaten analysieren, die während der Entwicklung oder Produktion erfasst wurden. Sie können einzelne Traces (einzelne Ausführungspfade) oder vollständige Sitzungen (Gesprächsverläufe mit mehreren Durchgängen) anhand einer Reihe vordefinierter oder benutzerdefinierter Messwerte bewerten.

Traces im Vergleich zu Sitzungen

Trace:Eine sachliche, unveränderliche Aufzeichnung des Verhaltens des KI-Agenten, einschließlich Modelleingaben, Antworten und Tool-Aufrufen. Ein Trace stellt einen einzelnen Ausführungspfad dar.
Sitzung:Umfasst die gesamte Multi-Turn-Interaktion zwischen einem Nutzer und einem Agent. Verwenden Sie Sitzungen, um die Kontextbeibehaltung und den Gesprächsfluss im Zeitverlauf zu bewerten.

Hinweis

Damit Sie die erforderlichen Daten und die Umgebung für die Offline-Evaluierung haben, führen Sie die folgenden Schritte aus:

Achten Sie darauf, dass eine funktionierende Agent Runtime mit aktiviertem Cloud Trace bereitgestellt ist.
Richten Sie einen Cloud Storage-Bucket zum Speichern der Bewertungsergebnisse ein. Sie müssen diesen Pfad nur einmal angeben. Er wird für zukünftige Ausführungen vorausgefüllt.
Wenn Sie das Agent Platform SDK für die Bewertung verwenden möchten, initialisieren Sie den Client wie unter Agents bewerten beschrieben.

Telemetrieanforderungen

Für die Offline-Bewertung muss Ihr Agent bestimmte OpenTelemetry-Signale exportieren, um den erforderlichen Kontext für die Bewertung bereitzustellen. Diese Anforderungen sind identisch mit denen für Online-Monitore:

Invoke agent span: Muss die folgenden Attribute enthalten:
- gen_ai.agent.name: Die Kennung für den Agenten.
- gen_ai.agent.description: Eine kurze Beschreibung des Zwecks des Agenten.
- gen_ai.conversation.id: Eine eindeutige Kennung für die jeweilige Unterhaltungssitzung.
Inferenzereignisse: Das gen_ai.client.inference.operation.details-Ereignis muss Folgendes erfassen:
- gen_ai.input.messages: Die an den Agent gesendeten Prompts.
- gen_ai.output.messages: Die vom Agenten generierten Antworten.
- gen_ai.system_instructions: Die zugrunde liegenden Systemprompts.
- gen_ai.tool.definitions: Metadaten zu allen Tools, die dem Agenten zur Verfügung stehen.

Wenn Sie das Agent Development Kit verwenden, müssen Sie diese Telemetriefunktionen aktivieren, indem Sie die folgenden Umgebungsvariablen festlegen:

OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'

Medien in Cloud Storage aufzeichnen

Wenn Ihr Agent multimodale Daten wie Bilder oder große Dokumente verwendet, empfehlen wir, die Ein- und Ausgaben in einem Cloud Storage-Bucket aufzuzeichnen, anstatt sie direkt in Trace-Spans einzubetten. Konfigurieren Sie die folgenden Umgebungsvariablen, um dies zu aktivieren:

OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'

Weitere Informationen finden Sie unter Multimodale Prompts und Antworten erfassen.

Bewertung aus der Registry erstellen

Rufen Sie in der Google Cloud Console die Seite Agent Platform > Agents > Evaluation auf.
Zur Seite „Bewertung“
Klicken Sie auf Neue Bewertung.
Wählen Sie je nach Zielvorhaben für die Analyse den Tab Traces oder Sitzungen aus.
Verwenden Sie das Filtersymbol und die Zeitachse, um Daten zu filtern (z. B. nach Version oder „Letzte 2 Wochen“) und die spezifischen IDs auszuwählen, die Sie auswerten möchten.
Klicken Sie auf Weiter.
Optional: Geben Sie im Feld Name der Bewertung einen Namen für die Bewertung ein oder verwenden Sie den vorausgefüllten Standardnamen.
Geben Sie im Feld Ausgabepfad für vertrauliche Daten den URI Ihres Cloud Storage-Buckets ein. Nach der ersten Verwendung wird dieser Pfad für zukünftige Läufe vorausgefüllt.
Standardmäßig werden alle vier Kernmesswerte hinzugefügt. Sie können Messwerte nach Bedarf hinzufügen oder entfernen.
Klicken Sie auf Agent bewerten.

Einzelnen Trace oder einzelne Sitzung bewerten

Sie können Bewertungen direkt auslösen, während Sie einzelne Ausführungspfade untersuchen:

Rufen Sie in der Google Cloud Console die Seite Agent Platform > Agents auf.
Wählen Sie im linken Navigationsmenü Bereitstellungen aus.
Wählen Sie den Agent aus.
Zu Deployments
Wählen Sie den Tab Traces aus.
Klicken Sie auf Sitzungsansicht oder Trace-Ansicht, um den Ausführungspfad zu prüfen.
Wählen Sie eine bestimmte Zeile in der Tabelle aus, um den Detailbereich zu öffnen.
Wählen Sie den Tab Bewertung aus.
Wenn der Trace oder die Sitzung noch nicht ausgewertet wurde, klicken Sie auf Bewerten, um eine Ad-hoc-Bewertung auszuführen.

Bewertungsergebnisse ansehen

Nach Abschluss der Auswertung können Sie die Ergebnisse analysieren, um Leistungslücken und systemische Probleme zu ermitteln:

Ergebnisse für einen Lauf ansehen:Rufen Sie in der Google Cloud Console die Seite Agent Platform > Agents > Evaluation auf und wählen Sie den Tab Evaluations aus. Klicken Sie auf den Namen einer Bewertung, um den detaillierten Bericht aufzurufen.
Zur Seite „Bewertung“
Traces aufschlüsseln:Klicken Sie in einem Ergebnisbericht auf eine beliebige Zeile, um direkt zum zugehörigen Trace zu gelangen und die Begründung (Rationale) für die Ergebnisse zu prüfen.

Weitere Informationen finden Sie unter Evaluierungsergebnisse analysieren.

Offline-Evaluierungen durchführen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.