Kontinuierliche Evaluierung mit Online-Monitoren

Mit der Online-Überwachung können Sie die Qualität Ihrer Agents in der Produktion kontinuierlich bewerten. Mit diesem proaktiven Ansatz können Sie Qualitätsabweichungen erkennen – eine im Laufe der Zeit beobachtbare Abnahme der Agentenleistung, die durch Änderungen im Nutzerverhalten oder in externen Daten verursacht wird. Wenn Sie Online-Monitore konfigurieren, können Sie Livetraces asynchron anhand von vordefinierten und benutzerdefinierten Messwerten bewerten. So bleibt Ihr Agent zuverlässig und entspricht Ihren Leistungsstandards.

Hinweis

Damit Sie das Onlinemonitoring für Ihre Kundenservicemitarbeiter aktivieren können, müssen die folgenden Anforderungen erfüllt sein:

  • Stellen Sie Ihren Agent wie unter Agent bereitstellen beschrieben bereit.
  • Achten Sie darauf, dass Cloud Trace für Ihr Projekt aktiviert ist.
  • Optional: Wenn Sie Monitore programmatisch erstellen möchten, finden Sie auf der Seite Agents bewerten eine Anleitung zur Initialisierung des Agent Platform SDK.

Telemetrieanforderungen

Für das Onlinemonitoring muss Ihr Agent bestimmte OpenTelemetry-Signale exportieren, um den erforderlichen Kontext für die Auswertung bereitzustellen:

  1. Zeitraum zum Aufrufen des Kundenservicemitarbeiters: Muss die folgenden Attribute enthalten:

    • gen_ai.agent.name: Die Kennung für den Agenten.
    • gen_ai.agent.description: Eine kurze Beschreibung des Zwecks des Agenten.
    • gen_ai.conversation.id: Eine eindeutige Kennung für die jeweilige Unterhaltungssitzung.
  2. Inferenzereignisse: Das gen_ai.client.inference.operation.details-Ereignis muss Folgendes erfassen:

    • gen_ai.input.messages: Die an den Agent gesendeten Prompts.
    • gen_ai.output.messages: Die vom Agenten generierten Antworten.
    • gen_ai.system_instructions: Die zugrunde liegenden Systemprompts.
    • gen_ai.tool.definitions: Metadaten zu allen Tools, die dem Agenten zur Verfügung stehen.

Wenn Sie das Agent Development Kit verwenden, müssen Sie diese Telemetriefunktionen aktivieren, indem Sie die folgenden Umgebungsvariablen festlegen:

OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'

Medien in Cloud Storage aufzeichnen

Wenn Ihr Agent multimodale Daten wie Bilder oder große Dokumente verwendet, empfehlen wir, die Ein- und Ausgaben in einem Cloud Storage-Bucket aufzuzeichnen, anstatt sie direkt in Trace-Spans einzubetten. Konfigurieren Sie die folgenden Umgebungsvariablen, um dies zu aktivieren:

OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'

Weitere Informationen finden Sie unter Multimodale Prompts und Antworten erfassen.

So funktionieren Online-Monitore

Online-Monitore werden in einem geplanten Auswertungszyklus ausgeführt, in der Regel alle 10 Minuten. Der Loop umfasst folgende Schritte:

  1. Abfrage:Es werden Beispieldaten aus Cloud Trace und Cloud Logging basierend auf Ihren Filtern abgerufen.
  2. Bewerten:Konfigurierte Messwerte werden mit dem Gemini Enterprise Agent Platform Evaluation Service ausgeführt.
  3. Bericht:Schreibt Ergebnisse zurück in Cloud Logging und exportiert numerische Werte nach Cloud Monitoring.

Online-Monitor erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Agent Platform > Agents > Evaluation auf.

    Zur Seite „Bewertung“

  2. Wählen Sie den Tab Online monitors (Onlinemonitore) aus und klicken Sie auf New monitor (Neuer Monitor).

  3. Filterspuren angeben:

    • Agent-Engine:Wählen Sie im Drop-down-Menü den Agent aus, den Sie überwachen möchten.
    • Filterkriterien:Wählen Sie aus, ob Alle Traces für den Agenten ausgewertet werden sollen oder ob bestimmte Filterkriterien angewendet werden sollen.
  4. Filterkriterien definieren (bei Verwendung gefilterter Traces):

    • Erste Prüfung:Wählen Sie einen Zeitraum aus (z. B. Letzter Tag), um eine Vorschau der Produktions-Traces zu sehen, die mit Ihrem Filter übereinstimmen.
    • Filter:Geben Sie Kriterien ein, um bestimmte Zugriffe auszurichten. Sie können nach Eigenschaften wie Duration (z. B. Duration > 2) oder Token usage filtern.
  5. Messwerte konfigurieren:Fügen Sie die Messwerte hinzu, die Sie kontinuierlich erfassen möchten, z. B. Sicherheit.

  6. Stichprobenerhebung festlegen:

    • Prozentsatz der Stichproben:Legen Sie fest, welcher Prozentsatz Ihres Live-Traffics ausgewertet werden soll.
    • Maximale Anzahl von Stichproben pro Ausführung:Legen Sie eine Obergrenze fest, um die Kosten für die Analyse zu begrenzen.
  7. Klicken Sie auf Erstellen.

Monitore verwalten

Nachdem Sie einen Monitor erstellt haben, können Sie ihn über die Liste Online-Monitore verwalten:

  • Status ein-/ausschalten:Klicken Sie auf das Dreipunkt-Menü und wählen Sie Aktivieren oder Deaktivieren aus, um die Auswertung zu pausieren, ohne die Konfiguration zu löschen.
  • Pausieren und fortsetzen:Verwenden Sie Weitere Optionen , um die Auswertung vorübergehend zu beenden.
  • Duplizieren:Erstellen Sie einen neuen Monitor mit vorab ausgefüllten Einstellungen aus einem vorhandenen Monitor.
  • Traces ansehen:Klicken Sie in der Spalte Sampled traces (Erfasste Traces) für einen Monitor auf den Link View traces (Traces ansehen), um direkt zum Tab Traces (Traces) des Agents mit den gefilterten Traces zu gelangen.

Ergebnisse im Observability-Dashboard ansehen

So rufen Sie Ihre Bewertungsmesswerte zusammen mit anderen Leistungssignalen auf:

  1. Rufen Sie in der Google Cloud Console die Seite Agent Platform > Agents auf.
  2. Wählen Sie im linken Navigationsmenü Bereitstellungen aus.
  3. Wählen Sie den Agent aus.

    Zu Deployments

  4. Wählen Sie in der Ansicht Dashboard den Unterabschnitt Bewertung aus, um Zeitreihendiagramme für Ihre konfigurierten Messwerte wie Antwortqualität, Sicherheit und Halluzinationsraten aufzurufen.

Ergebnisse für einzelne Traces ansehen

Sie können sich die Bewertungsergebnisse für bestimmte Unterhaltungen auch direkt in der Ansicht „Traces“ ansehen:

  1. Rufen Sie in der Google Cloud Console den Tab Traces des Agents auf.
  2. Wählen Sie eine Sitzung oder einen Trace aus der Tabelle aus, um den Detailbereich zu öffnen.
  3. Wählen Sie den Tab Bewertung aus, um die Punktzahlen und Begründungen für die jeweilige Interaktion aufzurufen.

Fehlerbehebung bei Online-Monitoren

Wenn Ihr Online Monitor aktiv ist, aber keine Ergebnisse in Ihrem Dashboard angezeigt werden, kann das folgende Gründe haben:

  1. Telemetrie prüfen:Prüfen Sie, ob Ihr Agent die erforderlichen OpenTelemetry-Spans und -Ereignisse korrekt exportiert. Prüfen Sie in Cloud Trace, ob Live-Traces die Attribute gen_ai. enthalten.
  2. Filter prüfen:Sehen Sie sich die Filterkriterien Ihres Monitors an. Mit der Funktion Erste Überprüfung können Sie prüfen, ob Ihre Filter mit Ihrem Produktions-Traffic übereinstimmen.
  3. Interne Logs prüfen:Online-Monitore schreiben Diagnoseinformationen in Cloud Logging. Wenn eine Auswertung fehlschlägt, wird ein Fehlerlog erstellt. Sie finden diese Logs im Log-Explorer, indem Sie nach Ihrer Monitor-ID oder nach bestimmten Traces und Agents suchen:

    resource.labels.online_evaluator="projects/YOUR_PROJECT_ID/locations/YOUR_REGION/onlineEvaluators/YOUR_MONITOR_ID"
    # Or search by trace or agent
    labels.trace="YOUR_TRACE_ID"
    labels.reasoning_engine_id="YOUR_AGENT_ID"