Menjalankan evaluasi offline

Evaluasi offline memungkinkan Anda mengukur performa, keamanan, dan kualitas agen dengan menganalisis data historis yang diambil selama pengembangan atau produksi. Anda dapat mengevaluasi Traces individual (jalur eksekusi tunggal) atau Sesi lengkap (histori percakapan multi-turn) terhadap serangkaian metrik yang telah ditentukan sebelumnya atau kustom.

Trace vs. sesi

  • Rekam jejak: Catatan faktual dan tidak dapat diubah tentang perilaku agen, termasuk input model, respons, dan panggilan alat. Trace mewakili jalur eksekusi tunggal.
  • Sesi: Mencakup seluruh interaksi multi-turn antara pengguna dan agen. Gunakan sesi untuk mengevaluasi retensi konteks dan alur percakapan dari waktu ke waktu.

Sebelum memulai

Untuk memastikan Anda memiliki data dan lingkungan yang diperlukan untuk evaluasi offline, selesaikan langkah-langkah berikut:

  • Pastikan Anda telah men-deploy Agent Runtime yang berfungsi dengan Cloud Trace yang diaktifkan.
  • Siapkan bucket Cloud Storage untuk menyimpan hasil evaluasi. Anda hanya perlu memberikan jalur ini satu kali; jalur ini akan diisi otomatis untuk proses berikutnya.
  • Jika Anda berencana menggunakan Agent Platform SDK untuk evaluasi, inisialisasi klien seperti yang dijelaskan dalam Mengevaluasi agen Anda.

Persyaratan telemetri

Evaluasi offline mengharuskan agen Anda mengekspor sinyal OpenTelemetry tertentu untuk memberikan konteks yang diperlukan untuk penilaian. Persyaratan ini sama dengan persyaratan untuk Monitor Online:

  1. Rentang pemanggilan agen: Harus menyertakan atribut berikut:

    • gen_ai.agent.name: ID untuk agen.
    • gen_ai.agent.description: Deskripsi singkat tentang tujuan agen.
    • gen_ai.conversation.id: ID unik untuk sesi percakapan tertentu.
  2. Peristiwa inferensi: Peristiwa gen_ai.client.inference.operation.details harus merekam:

    • gen_ai.input.messages: Perintah yang dikirim ke agen.
    • gen_ai.output.messages: Respons yang dihasilkan oleh agen.
    • gen_ai.system_instructions: Perintah sistem yang mendasarinya.
    • gen_ai.tool.definitions: Metadata tentang alat apa pun yang tersedia untuk agen.

Jika Anda menggunakan Agent Development Kit, Anda harus mengaktifkan kemampuan telemetri ini dengan menetapkan variabel lingkungan berikut:

OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'

Merekam media di Cloud Storage

Jika agen Anda menggunakan data multimodal, seperti gambar atau dokumen besar, sebaiknya rekam input dan output dalam bucket Cloud Storage, bukan menyematkannya langsung dalam rentang rekaman aktivitas. Konfigurasi variabel lingkungan berikut untuk mengaktifkannya:

OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'

Untuk mengetahui informasi selengkapnya, lihat Mengumpulkan perintah dan respons multimodal.

Membuat evaluasi dari registry

  1. Di konsol Google Cloud , buka halaman Agent Platform > Agents > Evaluation.

    Buka Evaluasi

  2. Klik Evaluasi baru.

  3. Pilih tab Traces atau Sesi berdasarkan sasaran penilaian Anda.

  4. Gunakan ikon filter dan pemilih waktu untuk memfilter data (misalnya, menurut Versi atau "2 minggu terakhir") dan pilih ID tertentu yang ingin Anda evaluasi.

  5. Klik Lanjutkan.

  6. (Opsional) Di kolom Nama evaluasi, masukkan nama untuk penilaian atau gunakan default yang telah diisi sebelumnya.

  7. Di kolom Output private data path, masukkan URI bucket Cloud Storage Anda. Setelah penggunaan pertama, jalur ini akan diisi otomatis untuk menjalankan perintah di masa mendatang.

  8. Secara default, keempat metrik inti ditambahkan. Anda dapat menambahkan atau menghapus metrik sesuai kebutuhan.

  9. Klik Evaluate agent.

Mengevaluasi satu rekaman aktivitas atau sesi

Anda dapat memicu evaluasi secara langsung saat memeriksa jalur eksekusi individual:

  1. Di konsol Google Cloud , buka halaman Agent Platform > Agents.
  2. Di menu navigasi kiri, pilih Deployment.
  3. Pilih agen Anda.

    Buka Deployment

  4. Pilih tab Traces.
  5. Klik Tampilan sesi atau Tampilan rekaman aktivitas untuk memeriksa jalur eksekusi.
  6. Pilih baris tertentu dari tabel untuk membuka panel detail.
  7. Pilih tab Evaluasi.
  8. Jika rekaman aktivitas atau sesi belum dievaluasi, klik Evaluasi untuk menjalankan penilaian ad-hoc.

Melihat hasil evaluasi

Setelah evaluasi selesai, Anda dapat menganalisis hasilnya untuk mengidentifikasi kesenjangan performa dan masalah sistemik:

  • Melihat hasil untuk suatu proses: Di konsol Google Cloud , buka halaman Agent Platform > Agents > Evaluation, lalu pilih tab Evaluations. Klik nama evaluasi untuk melihat laporan mendetail.

    Buka Evaluasi

  • Melihat perincian rekaman aktivitas: Dari laporan hasil, klik baris mana pun untuk membuka rekaman aktivitas terkait secara langsung dan memeriksa alasan (rasional) di balik skor.

Untuk mengetahui informasi selengkapnya, lihat Menganalisis hasil evaluasi.