Evaluasi agen

Dokumen ini menjelaskan cara menggunakan evaluasi agen untuk mengukur dan meningkatkan performa, keamanan, dan kualitas agen Anda.

Untuk mempelajari evaluasi model lebih lanjut, lihat Ringkasan layanan evaluasi AI generatif.

Ringkasan prosedur

Fase Aktivitas Sasaran
Desain Menentukan kasus evaluasi Tentukan tugas agen dan hasil yang diharapkan.
Eksekusi Menjalankan inferensi Buat jejak percakapan dunia nyata atau simulasi.
Pemberian skor Metrik komputasi Memberi nilai rekaman aktivitas menggunakan pemberi nilai otomatis (Keberhasilan Tugas, Keamanan).
Penyempurnaan Agen pengoptimalan Mengusulkan dan memverifikasi peningkatan kualitas petunjuk atau alat.

Proses evaluasi

Evaluasi mengikuti alur kerja terstruktur dan berulang:

  1. Menentukan kasus evaluasi: Kasus evaluasi adalah spesifikasi yang menentukan tugas agen. Kasus evaluasi dapat mencakup satu atau beberapa langkah percakapan, konteks percakapan (status agen), dan spesifikasi untuk menyimulasikan respons pengguna selama inferensi.
  2. Jalankan inferensi: Inferensi adalah eksekusi kasus evaluasi. Jika kasus evaluasi berisi rencana percakapan, respons pengguna disimulasikan selama inferensi.
  3. Buat rekaman aktivitas: Setiap proses inferensi merekam perilaku agen dalam rekaman aktivitas. Trace adalah catatan faktual dan tidak dapat diubah tentang perilaku agen, termasuk input model, respons, dan panggilan alat.
  4. Metrik komputasi: Metrik adalah skor yang dihitung untuk setiap rekaman aktivitas menggunakan pemberi rating bawaan atau kustom. Beberapa metrik, seperti Cocok Persis, bersifat berbasis referensi dan memerlukan kasus evaluasi dengan jawaban referensi. Yang lain, seperti Manfaat, bebas referensi dan mengevaluasi rekaman aktivitas dengan sendirinya. Evaluasi otomatis ini memungkinkan Anda memberi skor pada rekaman aktivitas yang diambil dari traffic produksi atau log eksternal, terlepas dari lingkungan pengujian terkelola.
  5. Lakukan analisis: Analisis metrik, rubrik, dan putusan untuk mengidentifikasi masalah utama agen, menautkan masalah agen kembali ke kasus pengujian, dan menghasilkan insight untuk peningkatan.
  6. Mengoptimalkan agen: Gunakan pengoptimalan untuk mengelola seluruh siklus evaluasi. Proses otomatis ini menganalisis hasil, menyarankan peningkatan pada agen, dan menjalankan ulang proses secara berulang untuk memverifikasi peningkatan performa.

Alur kerja evaluasi

Anda dapat mengintegrasikan evaluasi ke dalam dua tahap utama alur kerja Anda:

  • Iterasi pengembangan lokal: Evaluasi agen berbasis Agent Development Kit (ADK) secara lokal untuk melakukan iterasi dengan cepat pada teknik pembuatan perintah dan konfigurasi alat.
  • Penilaian agen yang di-deploy: Mengukur kualitas agen yang di-deploy dengan menganalisis rekaman aktivitas historis atau menjalankan tolok ukur sintetis terhadap endpoint agen.

Kemampuan inti

Evaluasi agen membantu Anda membuat rangkaian evaluasi awal, bahkan tanpa data pengujian yang ada. Fitur berikut membantu mengotomatiskan proses pembuatan kasus pengujian dan menyempurnakan sistem agentic Anda:

  • Pembuatan skenario dan simulasi pengguna: Otomatis membuat skenario pengujian sintetis multi-turn yang beragam berdasarkan petunjuk dan definisi alat agen Anda. Otomatisasi ini memungkinkan Anda memulai pengujian dengan segera karena Anda tidak perlu membuat kasus pengujian awal secara manual.

  • Simulasi lingkungan: Intersep panggilan alat tertentu untuk menyuntikkan perilaku kustom, data tiruan, atau error simulasi (seperti error HTTP 503 atau lonjakan latensi). Simulasi ini memungkinkan Anda memvalidasi ketahanan agen tanpa memengaruhi backend produksi.

  • Evaluasi multi-turn: Mengevaluasi histori seluruh percakapan secara otomatis menggunakan penilai otomatis multi-turn. Penilai ini menganalisis ekstraksi niat, membuat rubrik secara dinamis, dan memberikan hasil validasi objektif untuk membantu memastikan kepatuhan terhadap petunjuk.

  • Pengoptimalan perintah: Buat dan validasi petunjuk sistem yang lebih baik secara terprogram menggunakan pengoptimalan perintah. Framework pengoptimalan mengidentifikasi titik kegagalan dan secara iteratif mengusulkan pembaruan yang ditargetkan.

Langkah berikutnya