Dengan fitur ini, Anda dapat mengevaluasi agen AI. Anda dapat menggunakan layanan evaluasi AI generatif untuk mengukur dan meningkatkan performa, keamanan, dan kualitas agen Anda.
Jenis evaluasi
| Jenis Evaluasi | Kasus Penggunaan | Frekuensi |
|---|---|---|
| Evaluasi Cepat | Menguji logika agen baru atau perubahan model. | Sering (Pengembangan) |
| Evaluasi Kasus Pengujian | Pengujian regresi terhadap set data tertentu. | Terjadwal (CI/CD) |
| Pemantauan Online | Melacak kualitas deployment agen produksi. | Berkelanjutan (Produksi) |
Alur kerja evaluasi
Anda dapat mengevaluasi agen menggunakan konsolGoogle Cloud atau Agent Platform SDK.
KonsolGoogle Cloud
Untuk menjalankan evaluasi dasar bagi deployment agen:
- Di konsol Google Cloud , buka halaman Agent Platform > Agents.
- Di menu navigasi sebelah kiri, pilih Deployment, lalu pilih agen Anda.
- Pilih tab Dasbor, lalu pilih subbagian Evaluasi.
- Klik Evaluasi Baru.
- Ikuti petunjuk untuk menentukan kasus pengujian dan memilih metrik.
- Klik Run Evaluation.
Untuk panduan yang lebih mendetail, lihat Menjalankan evaluasi offline atau Evaluasi berkelanjutan dengan monitor online.
Agent Platform SDK
Alur kerja peningkatan kualitas agen dibangun berdasarkan Roda Penggerak Kualitas, yaitu siklus evaluasi, analisis, dan pengoptimalan berkelanjutan. Anda mengevaluasi performa agen, menganalisis hasilnya untuk mengidentifikasi kelompok kegagalan, lalu mengoptimalkan perintah atau konfigurasi untuk mengatasi masalah tersebut. Proses berulang ini membantu Anda mendeteksi dan menyelesaikan kesenjangan performa secara proaktif.
Sebelum memulai
Instal Agent Platform SDK dengan ekstensi yang diperlukan:
pip install google-cloud-aiplatform[adk,evaluation]
Lakukan inisialisasi klien Agent Platform SDK:
import vertexai from vertexai import Client client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")
Dengan:
YOUR_PROJECT_ID: Google Cloud Project ID Anda.YOUR_LOCATION: region cloud Anda, misalnya,us-central1.
1. Menentukan kasus evaluasi (Simulasi Pengguna)
Daripada membuat kasus pengujian secara manual, gunakan Simulasi Pengguna untuk membuat rencana percakapan multi-giliran sintetis berdasarkan petunjuk agen Anda.
# Generate scenarios from agent info eval_dataset = client.evals.generate_conversation_scenarios( agent_info=my_agent_info, config={ "count": 5, "generation_instruction": "Generate scenarios where a user asks for a refund.", }, )
Untuk mengetahui informasi selengkapnya, lihat referensi SDK Platform Agen.
2. Menjalankan inferensi
Jalankan kasus evaluasi terhadap agen Anda untuk merekam Traces.
# Generate behavior traces using a multi-turn user simulator traces = client.evals.run_inference( agent=my_agent, src=eval_dataset, config={"user_simulator_config": {"max_turn": 5}} )
3. Metrik komputasi (AutoRaters)
Gunakan Multi-turn AutoRaters untuk memberi skor pada rekaman aktivitas yang diambil. Penilai ini menganalisis histori percakapan lengkap untuk memverifikasi kepatuhan terhadap petunjuk dan penggunaan alat.
# Evaluate the traces using multi-turn metrics eval_result = client.evals.evaluate( traces=traces, metrics=[ "MULTI_TURN_TASK_SUCCESS", "MULTI_TURN_TOOL_USE_QUALITY" ] )
4. Lakukan analisis (Cluster Kegagalan)
Sistem secara otomatis mengelompokkan evaluasi yang gagal ke dalam Kelompok Kerugian untuk mengidentifikasi masalah utama agen.
# Identify the top failure patterns in the results loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)
5. Mengoptimalkan agen
Terakhir, gunakan layanan Pengoptimal untuk menyempurnakan petunjuk sistem atau deskripsi alat agen Anda secara terprogram berdasarkan data kegagalan.
# Automatically refine the system prompt to fix identified issues optimize_result = client.optimizer.optimize( targets=["system_prompt"], benchmark=eval_result, tests=eval_dataset )
Langkah berikutnya
- Menjalankan evaluasi offline
- Melihat hasil evaluasi
- Pelajari lebih lanjut layanan evaluasi AI generatif