Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Evaluasi berkelanjutan dengan monitor online

Pemantauan online memungkinkan Anda terus menilai kualitas agen dalam produksi. Pendekatan proaktif ini membantu Anda mengidentifikasi penurunan kualitas—penurunan performa agen yang dapat diamati seiring waktu—yang disebabkan oleh perubahan perilaku pengguna atau data eksternal. Dengan mengonfigurasi Monitor Online, Anda dapat memberi skor pada rekaman aktivitas live secara asinkron menggunakan metrik standar dan kustom, sehingga memastikan agen Anda tetap andal dan sesuai dengan standar performa Anda.

Sebelum memulai

Untuk mengaktifkan pemantauan online bagi agen Anda, pastikan persyaratan berikut terpenuhi:

Deploy agen Anda seperti yang dijelaskan dalam Men-deploy agen.
Pastikan Cloud Trace diaktifkan untuk project Anda.
(Opsional) Jika Anda berencana membuat monitor secara terprogram, lihat halaman Mengevaluasi agen untuk mengetahui petunjuk inisialisasi Agent Platform SDK.

Persyaratan telemetri

Pemantauan online mengharuskan agen Anda mengekspor sinyal OpenTelemetry tertentu untuk memberikan konteks yang diperlukan untuk evaluasi:

Rentang pemanggilan agen: Harus menyertakan atribut berikut:
- gen_ai.agent.name: ID untuk agen.
- gen_ai.agent.description: Deskripsi singkat tentang tujuan agen.
- gen_ai.conversation.id: ID unik untuk sesi percakapan tertentu.
Peristiwa inferensi: Peristiwa gen_ai.client.inference.operation.details harus merekam:
- gen_ai.input.messages: Perintah yang dikirim ke agen.
- gen_ai.output.messages: Respons yang dihasilkan oleh agen.
- gen_ai.system_instructions: Perintah sistem yang mendasarinya.
- gen_ai.tool.definitions: Metadata tentang alat apa pun yang tersedia untuk agen.

Jika Anda menggunakan Agent Development Kit, Anda harus mengaktifkan kemampuan telemetri ini dengan menetapkan variabel lingkungan berikut:

OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'

Merekam media di Cloud Storage

Jika agen Anda menggunakan data multimodal, seperti gambar atau dokumen besar, sebaiknya rekam input dan output dalam bucket Cloud Storage, bukan menyematkannya langsung dalam rentang rekaman aktivitas. Konfigurasi variabel lingkungan berikut untuk mengaktifkannya:

OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'

Untuk mengetahui informasi selengkapnya, lihat Mengumpulkan perintah dan respons multimodal.

Cara kerja monitor online

Monitor Online berjalan pada loop evaluasi terjadwal, biasanya setiap 10 menit. Loop mengikuti langkah-langkah berikut:

Kueri: Mengambil sampel data dari Cloud Trace dan Cloud Logging berdasarkan filter Anda.
Evaluasi: Menjalankan metrik yang dikonfigurasi menggunakan Layanan Evaluasi Gemini Enterprise Agent Platform.
Laporan: Menulis hasil kembali ke Cloud Logging dan mengekspor skor numerik ke Cloud Monitoring.

Membuat monitor online

Di konsol Google Cloud , buka halaman Agent Platform > Agents > Evaluation.
Buka Evaluasi
Pilih tab Monitor online, lalu klik Monitor baru.
Tentukan Rekaman Aktivitas Filter:
- Mesin agen: Pilih agen yang ingin Anda pantau dari dropdown.
- Kriteria filter: Pilih apakah akan mengevaluasi Semua rekaman aktivitas untuk agen atau menerapkan Kriteria filter tertentu.
Tentukan Kriteria Filter (jika menggunakan rekaman aktivitas yang difilter):
- Pemeriksaan Awal: Pilih jangka waktu (misalnya, 1 hari terakhir) untuk melihat pratinjau rekaman aktivitas produksi yang cocok dengan filter Anda.
- Filter: Masukkan kriteria untuk menargetkan traffic tertentu. Anda dapat memfilter menurut properti seperti Duration (misalnya, Duration > 2) atau Token usage.
Konfigurasi Metrik: Tambahkan metrik yang ingin Anda lacak secara berkelanjutan, seperti Keamanan.
Menetapkan Pengambilan Sampel:
- Persentase pengambilan sampel: Tentukan persentase traffic live yang harus dievaluasi.
- Sampel maks per proses: Tetapkan batas untuk mengelola biaya evaluasi.
Klik Create.

Mengelola monitor

Setelah membuat monitor, Anda dapat mengelolanya dari daftar Monitor online:

Tombol Status: Klik Opsi lainnya lalu pilih Aktifkan atau Nonaktifkan untuk menjeda evaluasi tanpa menghapus konfigurasi.
Jeda dan Lanjutkan: Gunakan Opsi lainnya untuk menghentikan evaluasi sementara.
Duplikat: Buat monitor baru dengan setelan yang telah diisi sebelumnya dari monitor yang ada.
Melihat Rekaman Aktivitas: Klik link Lihat rekaman aktivitas di kolom Rekaman aktivitas yang disampel untuk monitor guna menavigasi langsung ke rekaman aktivitas yang difilter di tab Rekaman aktivitas agen.

Melihat hasil di dasbor kemampuan pengamatan

Untuk melihat metrik evaluasi bersama sinyal performa lainnya:

Di konsol Google Cloud , buka halaman Agent Platform > Agents.
Di menu navigasi kiri, pilih Deployments.
Pilih agen Anda.
Buka Deployment
Dalam tampilan Dasbor, pilih subbagian Evaluasi untuk melihat diagram deret waktu untuk metrik yang dikonfigurasi, seperti kualitas respons, keamanan, dan tingkat halusinasi.

Melihat hasil untuk setiap rekaman aktivitas

Anda juga dapat memeriksa hasil evaluasi untuk percakapan tertentu langsung dalam tampilan rekaman aktivitas:

Di konsol Google Cloud , buka tab Traces agen.
Pilih sesi atau rekaman aktivitas dari tabel untuk membuka panel detail.
Pilih tab Evaluasi untuk melihat skor dan alasan untuk interaksi tertentu tersebut.

Memecahkan masalah monitor online

Jika Monitor Online Anda aktif, tetapi tidak ada hasil yang muncul di dasbor:

Verifikasi Telemetri: Pastikan agen Anda mengekspor rentang dan peristiwa OpenTelemetry yang diperlukan dengan benar. Periksa Cloud Trace untuk melihat apakah live trace berisi atribut gen_ai..
Periksa Filter: Tinjau kriteria filter monitor Anda. Gunakan fitur Pemeriksaan Awal untuk mengonfirmasi bahwa filter Anda cocok dengan traffic produksi.
Periksa Log Internal: Monitor Online menulis informasi diagnostik ke Cloud Logging. Jika evaluasi gagal, log error akan dibuat. Anda dapat menemukan log ini di Logs Explorer dengan menelusuri ID monitor Anda, atau untuk trace dan agen tertentu:
```
resource.labels.online_evaluator="projects/YOUR_PROJECT_ID/locations/YOUR_REGION/onlineEvaluators/YOUR_MONITOR_ID"
# Or search by trace or agent
labels.trace="YOUR_TRACE_ID"
labels.reasoning_engine_id="YOUR_AGENT_ID"
```