Offline-Evaluierungen durchführen

Mit der Offline-Bewertung können Sie die Leistung, Sicherheit und Qualität Ihrer Agenten messen, indem Sie Verlaufsdaten analysieren, die während der Entwicklung oder Produktion erfasst wurden. Sie können einzelne Traces (einzelne Ausführungspfade) oder vollständige Sitzungen (Unterhaltungsverläufe mit mehreren Runden) anhand einer Reihe vordefinierter oder benutzerdefinierter Messwerte bewerten.

Traces im Vergleich zu Sitzungen

  • Trace:Eine faktische, unveränderliche Aufzeichnung des Verhaltens des Agenten, einschließlich Modelleingaben, Antworten und Tool-Aufrufen. Ein Trace stellt einen einzelnen Ausführungspfad dar.
  • Sitzung:Umfasst die gesamte Interaktion mit mehreren Runden zwischen einem Nutzer und einem Agenten. Verwenden Sie Sitzungen, um die Kontextbeibehaltung und den Unterhaltungsfluss im Zeitverlauf zu bewerten.

Hinweis

Damit Sie die erforderlichen Daten und die Umgebung für die Offline-Bewertung haben, führen Sie die folgenden Schritte aus:

  • Prüfen Sie, ob eine funktionierende Agent Runtime mit aktiviertem Cloud Trace bereitgestellt wurde.
  • Richten Sie einen Cloud Storage -Bucket ein, um die Bewertungsergebnisse zu speichern. Sie müssen diesen Pfad nur einmal angeben. Er wird für zukünftige Ausführungen vorab ausgefüllt.
  • Wenn Sie das Agent Platform SDK für die Bewertung verwenden möchten, initialisieren Sie den Client wie unter Agenten bewerten beschrieben.

Telemetrieanforderungen

Für die Offline-Bewertung muss Ihr Agent bestimmte OpenTelemetry-Signale exportieren, um den erforderlichen Kontext für die Bewertung bereitzustellen. Diese Anforderungen sind mit denen für Online-Monitore identisch:

  1. Invoke agent span: Muss die folgenden Attribute enthalten:

    • gen_ai.agent.name: Die Kennung für den Agenten.
    • gen_ai.agent.description: Eine kurze Beschreibung des Zwecks des Agenten.
    • gen_ai.conversation.id: Eine eindeutige Kennung für die jeweilige Unterhaltungssitzung.
  2. Inferenzereignisse: Das Ereignis gen_ai.client.inference.operation.details muss Folgendes erfassen:

    • gen_ai.input.messages: Die an den Agenten gesendeten Prompts.
    • gen_ai.output.messages: Die vom Agenten generierten Antworten.
    • gen_ai.system_instructions: Die zugrunde liegenden System-Prompts.
    • gen_ai.tool.definitions: Metadaten zu allen Tools, die dem Agenten zur Verfügung stehen.

Wenn Sie das Agent Development Kit verwenden, müssen Sie diese Telemetrie funktionen aktivieren, indem Sie die folgenden Umgebungsvariablen festlegen:

OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'

Medien in Cloud Storage aufzeichnen

Wenn Ihr Agent multimodale Daten wie Bilder oder große Dokumente verwendet, empfehlen wir, die Eingaben und Ausgaben in einem Cloud Storage -Bucket aufzuzeichnen, anstatt sie direkt in Trace-Spans einzubetten. Konfigurieren Sie die folgenden Umgebungsvariablen, um diese Funktion zu aktivieren:

OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'

Weitere Informationen finden Sie unter Multimodale Prompts und Antworten erfassen.

Bewertung aus der Registrierung erstellen

  1. Rufen Sie in der Google Cloud -Console die Seite Agent Platform > Agents > Evaluation auf.

    Zu „Evaluation“

  2. Klicken Sie auf Neue Bewertung.

  3. Wählen Sie je nach Bewertungsziel den Tab Traces oder Sitzungen aus.

  4. Verwenden Sie das Filtersymbol und die Zeitauswahl, um Daten zu filtern (z. B. nach Version oder „Letzte 2 Wochen“), und wählen Sie die spezifischen IDs aus, die Sie bewerten möchten.

  5. Klicken Sie auf Weiter.

  6. Optional: Geben Sie im Feld Name der Bewertung einen Namen für die Bewertung ein oder verwenden Sie den vorab ausgefüllten Standardwert.

  7. Geben Sie im Feld Pfad zu privaten Ausgabedaten den Cloud Storage -Bucket-URI ein. Nach der ersten Verwendung wird dieser Pfad für zukünftige Ausführungen vorab ausgefüllt.

  8. Standardmäßig werden alle vier Kernmesswerte hinzugefügt. Sie können Messwerte nach Bedarf hinzufügen oder entfernen.

  9. Klicken Sie auf Agenten bewerten.

Einzelnen Trace oder einzelne Sitzung bewerten

Sie können Bewertungen direkt auslösen, während Sie einzelne Ausführungspfade prüfen:

  1. Rufen Sie in der Google Cloud -Console die Seite Agent Platform > Agents auf.
  2. Wählen Sie im linken Navigationsmenü Deployments aus.
  3. Wählen Sie den Agent aus.

    Zu Deployments

  4. Wählen Sie den Tab Traces aus.
  5. Klicken Sie auf Sitzungsansicht oder Trace-Ansicht , um den Ausführungspfad zu prüfen.
  6. Wählen Sie eine bestimmte Zeile in der Tabelle aus, um den Detailbereich zu öffnen.
  7. Wählen Sie den Tab Bewertung aus.
  8. Wenn der Trace oder die Sitzung noch nicht bewertet wurde, klicken Sie auf Bewerten , um eine Ad-hoc-Bewertung auszuführen.

Bewertungsergebnisse ansehen

Nach Abschluss der Bewertung können Sie die Ergebnisse analysieren, um Leistungslücken und systemische Probleme zu ermitteln:

  • Ergebnisse für eine Ausführung ansehen:Rufen Sie in der Google Cloud -Console die Seite Agent Platform > Agents > Evaluation auf und wählen Sie den Tab Bewertungen aus. Klicken Sie auf einen Bewertungsnamen, um den detaillierten Bericht aufzurufen.

    Zu „Evaluation“

  • Details zu Traces aufrufen:Klicken Sie in einem Ergebnisbericht auf eine beliebige Zeile, um direkt zum zugehörigen Trace zu wechseln und die Begründungen für die Ergebnisse zu prüfen.

Weitere Informationen finden Sie unter Bewertungsergebnisse analysieren.