Evaluasi agen

Dokumen ini menjelaskan cara menggunakan evaluasi agen untuk mengukur dan meningkatkan performa, keamanan, dan kualitas agen Anda.

Untuk mempelajari evaluasi model lebih lanjut, lihat Ringkasan layanan evaluasi AI generatif overview.

Ringkasan prosedur

Fase Aktivitas Target
Desain Menentukan kasus evaluasi Menentukan tugas agen dan hasil yang diharapkan.
Eksekusi Menjalankan inferensi Membuat trace percakapan dunia nyata atau simulasi.
Pemberian skor Menghitung metrik Memberi skor pada trace menggunakan pemberi skor otomatis (Keberhasilan Tugas, Keamanan).
Penyempurnaan Mengoptimalkan agen Mengusulkan dan memverifikasi peningkatan pada petunjuk atau alat.

Proses evaluasi

Evaluasi mengikuti alur kerja terstruktur dan berulang:

  1. Menentukan kasus evaluasi: Kasus evaluasi adalah spesifikasi yang menentukan tugas agen. Kasus evaluasi dapat mencakup satu atau beberapa langkah percakapan, konteks percakapan (status agen), dan spesifikasi untuk menyimulasikan respons pengguna selama inferensi.
  2. Menjalankan inferensi: Inferensi adalah eksekusi kasus evaluasi. Jika kasus evaluasi berisi rencana percakapan, respons pengguna akan disimulasikan selama inferensi.
  3. Membuat trace: Setiap inferensi yang dijalankan akan merekam perilaku agen dalam trace. Trace adalah catatan faktual dan tidak dapat diubah tentang perilaku agen, termasuk input model, respons, dan panggilan alat.
  4. Menghitung metrik: Metrik adalah skor yang dihitung untuk setiap trace menggunakan pemberi skor bawaan atau kustom. Beberapa metrik, seperti Kesesuaian Persis, berbasis referensi dan memerlukan kasus evaluasi dengan jawaban referensi. Metrik lainnya, seperti Manfaat, tidak berbasis referensi dan mengevaluasi trace itu sendiri. Evaluasi otomatis ini memungkinkan Anda memberi skor pada trace yang diambil dari traffic produksi atau log eksternal, terlepas dari lingkungan pengujian terkelola.
  5. Melakukan analisis: Analisis metrik, rubrik, dan putusan untuk mengidentifikasi masalah utama agen, menautkan masalah agen kembali ke kasus pengujian, dan menghasilkan insight untuk peningkatan.
  6. Mengoptimalkan agen: Gunakan pengoptimalan untuk mengelola seluruh siklus evaluasi. Proses otomatis ini menganalisis hasil, mengusulkan peningkatan pada agen, dan menjalankan ulang proses secara berulang untuk memverifikasi peningkatan performa.

Alur kerja evaluasi

Anda dapat mengintegrasikan evaluasi ke dalam dua tahap utama alur kerja:

  • Iterasi pengembangan lokal: Evaluasi agen berbasis Agent Development Kit (ADK) secara lokal untuk melakukan iterasi dengan cepat pada rekayasa perintah dan konfigurasi alat.
  • Penilaian agen yang di-deploy: Ukur kualitas agen yang di-deploy dengan menganalisis histori trace atau menjalankan tolok ukur sintetis terhadap endpoint agen.

Kemampuan inti

Evaluasi agen membantu Anda membuat rangkaian evaluasi awal, bahkan tanpa data pengujian yang ada. Fitur berikut membantu mengotomatiskan proses pembuatan kasus pengujian dan menyempurnakan sistem agentic Anda:

  • Pembuatan skenario dan simulasi pengguna: Membuat skenario pengujian sintetis multi-turn yang beragam secara otomatis berdasarkan petunjuk dan definisi alat agen Anda. Otomatisasi ini memungkinkan Anda segera memulai pengujian dengan menghilangkan kebutuhan untuk membuat kasus pengujian awal secara manual.

  • Simulasi lingkungan: Mencegat panggilan alat tertentu untuk menyisipkan perilaku kustom, data tiruan (mock), atau error simulasi (seperti error HTTP 503 error atau lonjakan latensi). Simulasi ini memungkinkan Anda memvalidasi ketahanan agen tanpa memengaruhi backend produksi.

  • Evaluasi multi-turn: Mengevaluasi seluruh histori percakapan secara otomatis menggunakan pemberi skor otomatis multi-turn. Pemberi skor ini menganalisis ekstraksi intent, membuat rubrik secara dinamis, dan memberikan putusan validasi objektif untuk membantu memastikan kepatuhan terhadap petunjuk.

  • Pengoptimalan perintah: Membuat dan memvalidasi petunjuk sistem yang disempurnakan secara terprogram menggunakan pengoptimalan perintah. Framework pengoptimalan mengidentifikasi titik kegagalan dan secara berulang mengusulkan pembaruan yang ditargetkan.

Mengevaluasi dengan asisten coding AI

Jika menggunakan Gemini CLI atau asisten coding AI lainnya, Anda dapat menginstal Keterampilan agen yang mengajarkan metodologi evaluasi agen kepada asisten Anda yang dijelaskan di halaman ini. Setiap keterampilan menyediakan alur kerja evaluasi, skema set data, panduan pemilihan metrik, dan langkah-langkah analisis kegagalan langsung di sesi coding Anda, sehingga asisten Anda dapat membuat, memberi skor, dan meningkatkan evaluasi tanpa meninggalkan editor.

Petunjuk penginstalan mengikuti setiap keterampilan.

Keterampilan evaluasi Agents CLI

Alur kerja berbasis CLI untuk mengevaluasi dan mengoptimalkan agen Agent Development Kit (ADK) menggunakan perintah agents-cli eval. Keterampilan ini mencakup:

  • Menyiapkan set data evaluasi dan mensintesis skenario multi-turn dengan simulasi pengguna
  • Menjalankan inferensi, memberi skor pada trace, dan menganalisis cluster kegagalan
  • Melakukan iterasi pada perintah dan alat dengan loop eval-fix

Untuk menginstal, jalankan perintah berikut:

npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval

Keterampilan flywheel Layanan Evaluasi AI Generatif Agent Platform

Playbook berbasis SDK untuk mengevaluasi dan meningkatkan model dan agen melalui Layanan Evaluasi AI Generatif Agent Platform, menggunakan Agent Platform GenAI Evaluation SDK (client.evals.evaluate()). Keterampilan ini mencakup:

  • Membuat set data evaluasi dari trace sesi, DataFrame, atau pembuatan sintetis
  • Memilih, mengonfigurasi, dan menulis metrik kustom dengan pemberian skor LLM-as-judge
  • Menganalisis putusan rubrik dan pola kerugian untuk mendorong peningkatan konkret

Untuk menginstal, jalankan perintah berikut:

npx skills add https://github.com/google/skills --skill agent-platform-eval-flywheel

Langkah berikutnya