Evaluasi offline memungkinkan Anda mengukur performa, keamanan, dan kualitas agen dengan menganalisis data historis yang diambil selama pengembangan atau produksi. Anda dapat mengevaluasi Trace individual (jalur eksekusi tunggal) atau Sesi lengkap (histori percakapan multi-turn) terhadap serangkaian metrik yang telah ditentukan atau kustom.
Trace vs. sesi
- Trace: Catatan faktual dan tidak dapat diubah tentang perilaku agen, termasuk input model, respons, dan panggilan alat. Trace mewakili jalur eksekusi tunggal.
- Sesi: Mencakup seluruh interaksi multi-turn antara pengguna dan agen. Gunakan sesi untuk mengevaluasi retensi konteks dan alur percakapan dari waktu ke waktu.
Sebelum memulai
Untuk memastikan Anda memiliki data dan lingkungan yang diperlukan untuk evaluasi offline, selesaikan langkah-langkah berikut:
- Pastikan Anda telah men-deploy Runtime Agen yang berfungsi dengan Cloud Trace diaktifkan.
- Siapkan bucket Cloud Storage untuk menyimpan hasil evaluasi. Anda hanya perlu memberikan jalur ini satu kali; jalur ini akan diisi otomatis untuk operasi mendatang.
- Jika Anda berencana menggunakan Agent Platform SDK untuk evaluasi, lakukan inisialisasi klien seperti yang dijelaskan dalam Mengevaluasi agen.
Persyaratan telemetri
Evaluasi offline mengharuskan agen Anda mengekspor sinyal OpenTelemetry tertentu untuk memberikan konteks yang diperlukan untuk penilaian. Persyaratan ini sama dengan persyaratan untuk Monitor Online:
Rentang panggil agen: Harus menyertakan atribut berikut:
gen_ai.agent.name: ID untuk agen.gen_ai.agent.description: Deskripsi singkat tentang tujuan agen.gen_ai.conversation.id: ID unik untuk sesi percakapan tertentu.
Peristiwa inferensi: Peristiwa
gen_ai.client.inference.operation.detailsharus menangkap:gen_ai.input.messages: Perintah yang dikirim ke agen.gen_ai.output.messages: Respons yang dihasilkan oleh agen.gen_ai.system_instructions: Perintah sistem yang mendasarinya.gen_ai.tool.definitions: Metadata tentang alat apa pun yang tersedia untuk agen.
Jika Anda menggunakan Agent Development Kit, Anda harus mengaktifkan kemampuan telemetri ini dengan menetapkan variabel lingkungan berikut:
OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'
Merekam media di Cloud Storage
Jika agen Anda menggunakan data multimodal, seperti gambar atau dokumen besar, sebaiknya rekam input dan output dalam bucket Cloud Storage , bukan menyematkannya langsung di rentang trace. Konfigurasikan variabel lingkungan berikut untuk mengaktifkan fitur ini:
OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'
Untuk mengetahui informasi selengkapnya, lihat Mengumpulkan perintah dan respons multimodal.
Membuat evaluasi dari registry
Di Google Cloud konsol, buka halaman Agent Platform > Agents > Evaluation.
Klik New evaluation.
Pilih tab Traces atau Sessions berdasarkan sasaran penilaian Anda.
Gunakan ikon filter dan pemilih waktu untuk memfilter data (misalnya, berdasarkan Version atau "Last 2 weeks") dan pilih ID tertentu yang ingin Anda evaluasi.
Klik Lanjutkan.
(Opsional) Di kolom Evaluation name, masukkan nama untuk penilaian atau gunakan default yang telah diisi otomatis.
Di kolom Output private data path, masukkan URI bucket Cloud Storage Anda. Setelah penggunaan pertama, jalur ini akan diisi otomatis untuk operasi mendatang.
Secara default, keempat metrik inti akan ditambahkan. Anda dapat menambahkan atau menghapus metrik sesuai kebutuhan.
Klik Evaluate agent.
Mengevaluasi satu trace atau sesi
Anda dapat memicu evaluasi secara langsung saat memeriksa jalur eksekusi individual:
- Di Google Cloud konsol, buka halaman Agent Platform > Agents.
- Di menu navigasi kiri, pilih Deployments.
- Pilih agen Anda.
- Pilih tab Traces.
- Klik Session view atau Trace view untuk memeriksa jalur eksekusi.
- Pilih baris tertentu dari tabel untuk membuka panel detail.
- Pilih tab Evaluation.
- Jika trace atau sesi belum dievaluasi, klik Evaluate untuk menjalankan penilaian ad-hoc.
Melihat hasil evaluasi
Setelah evaluasi selesai, Anda dapat menganalisis hasilnya untuk mengidentifikasi kesenjangan performa dan masalah sistemik:
- Melihat hasil untuk operasi: Di Google Cloud konsol, buka halaman Agent Platform > Agents > Evaluation , lalu pilih tab Evaluations. Klik nama evaluasi untuk melihat laporan mendetail.
- Melihat detail trace: Dari laporan hasil, klik baris mana pun untuk membuka trace terkait secara langsung dan memeriksa penalaran (rasional) di balik skor.
Untuk mengetahui informasi selengkapnya, lihat Menganalisis hasil evaluasi.