Evaluasi offline memungkinkan Anda mengukur performa, keamanan, dan kualitas agen dengan menganalisis data historis yang diambil selama pengembangan atau produksi. Anda dapat mengevaluasi Traces individual (jalur eksekusi tunggal) atau Sesi lengkap (histori percakapan multi-turn) terhadap serangkaian metrik yang telah ditentukan sebelumnya atau kustom.
Trace vs. Sesi
- Rekam jejak: Catatan faktual dan tidak dapat diubah tentang perilaku agen, termasuk input model, respons, dan panggilan alat. Trace mewakili jalur eksekusi tunggal.
- Sesi: Mencakup seluruh interaksi multi-turn antara pengguna dan agen. Gunakan sesi untuk mengevaluasi retensi konteks dan alur percakapan dari waktu ke waktu.
Sebelum memulai
Untuk memastikan Anda memiliki data dan lingkungan yang diperlukan untuk evaluasi offline, selesaikan langkah-langkah berikut:
- Pastikan Anda telah men-deploy Agent Runtime yang berfungsi dengan Cloud Trace yang diaktifkan.
- Siapkan bucket Cloud Storage untuk menyimpan hasil evaluasi. Anda hanya perlu memberikan jalur ini satu kali; jalur ini akan diisi otomatis untuk proses berikutnya.
- Jika Anda berencana menggunakan Python SDK untuk evaluasi, lakukan inisialisasi klien Agent Platform SDK seperti yang dijelaskan dalam Mengevaluasi agen Anda.
Membuat evaluasi dari registry
Di konsol Google Cloud , buka halaman Agent Platform > Agents > Evaluation.
Klik Evaluasi baru.
Pilih tab Traces atau Sesi berdasarkan sasaran penilaian Anda.
Gunakan ikon filter dan pemilih waktu untuk memfilter data (misalnya, menurut Versi atau "2 minggu terakhir") dan pilih ID tertentu yang ingin Anda evaluasi.
Klik Lanjutkan.
(Opsional) Di kolom Nama evaluasi, masukkan nama untuk penilaian atau gunakan default yang telah diisi sebelumnya.
Di kolom Output private data path, masukkan URI bucket Cloud Storage Anda. Setelah penggunaan pertama, jalur ini akan diisi otomatis untuk menjalankan perintah di masa mendatang.
Secara default, keempat metrik inti ditambahkan. Anda dapat menambahkan atau menghapus metrik sesuai kebutuhan.
Klik Evaluate agent.
Mengevaluasi satu rekaman aktivitas atau sesi
Anda juga dapat memicu evaluasi secara langsung saat memeriksa setiap log: 1. Di konsol Google Cloud , buka halaman Agent Platform > Agent Registry.
2. Pilih entri log tertentu. 3. Klik tab Evaluasi di panel detail. 4. Jika log belum dievaluasi, klik Evaluate untuk menjalankan penilaian ad-hoc.