Mengevaluasi agen Anda

Dengan fitur ini, Anda dapat mengevaluasi agen AI. Anda dapat menggunakan layanan evaluasi AI generatif untuk mengukur dan meningkatkan performa, keamanan, dan kualitas agen Anda.

Jenis evaluasi

Jenis Evaluasi Kasus Penggunaan Frekuensi
Evaluasi Cepat Menguji logika agen baru atau perubahan model. Sering (Pengembangan)
Evaluasi Kasus Pengujian Pengujian regresi terhadap set data tertentu. Terjadwal (CI/CD)
Pemantauan Online Melacak kualitas deployment agen produksi. Berkelanjutan (Produksi)

Alur kerja evaluasi

Anda dapat mengevaluasi agen menggunakan konsolGoogle Cloud atau Agent Platform SDK.

KonsolGoogle Cloud

Untuk menjalankan evaluasi dasar bagi deployment agen:

  1. Di konsol Google Cloud , buka halaman Agent Platform > Agents.
  2. Di menu navigasi sebelah kiri, pilih Deployment, lalu pilih agen Anda.

    Buka Deployment

  3. Pilih tab Dasbor, lalu pilih subbagian Evaluasi.
  4. Klik Evaluasi Baru.
  5. Ikuti petunjuk untuk menentukan kasus pengujian dan memilih metrik.
  6. Klik Run Evaluation.

Untuk panduan yang lebih mendetail, lihat Menjalankan evaluasi offline atau Evaluasi berkelanjutan dengan monitor online.

Agent Platform SDK

Alur kerja peningkatan kualitas agen dibangun berdasarkan Roda Penggerak Kualitas, yaitu siklus evaluasi, analisis, dan pengoptimalan berkelanjutan. Anda mengevaluasi performa agen, menganalisis hasilnya untuk mengidentifikasi kelompok kegagalan, lalu mengoptimalkan perintah atau konfigurasi untuk mengatasi masalah tersebut. Proses berulang ini membantu Anda mendeteksi dan menyelesaikan kesenjangan performa secara proaktif.

Sebelum memulai

  1. Instal Agent Platform SDK dengan ekstensi yang diperlukan:

    pip install google-cloud-aiplatform[adk,evaluation]
  2. Lakukan inisialisasi klien Agent Platform SDK:

    import vertexai
    from vertexai import Client
    
    client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")

    Dengan:

    • YOUR_PROJECT_ID: Google Cloud Project ID Anda.
    • YOUR_LOCATION: region cloud Anda, misalnya, us-central1.

1. Menentukan kasus evaluasi (Simulasi Pengguna)

Daripada membuat kasus pengujian secara manual, gunakan Simulasi Pengguna untuk membuat rencana percakapan multi-giliran sintetis berdasarkan petunjuk agen Anda.

# Generate scenarios from agent info
eval_dataset = client.evals.generate_conversation_scenarios(
    agent_info=my_agent_info,
    config={
        "count": 5,
        "generation_instruction": "Generate scenarios where a user asks for a refund.",
    },
)

Untuk mengetahui informasi selengkapnya, lihat referensi SDK Platform Agen.

2. Menjalankan inferensi

Jalankan kasus evaluasi terhadap agen Anda untuk merekam Traces.

# Generate behavior traces using a multi-turn user simulator
traces = client.evals.run_inference(
    agent=my_agent,
    src=eval_dataset,
    config={"user_simulator_config": {"max_turn": 5}}
)

3. Metrik komputasi (AutoRaters)

Gunakan Multi-turn AutoRaters untuk memberi skor pada rekaman aktivitas yang diambil. Penilai ini menganalisis histori percakapan lengkap untuk memverifikasi kepatuhan terhadap petunjuk dan penggunaan alat.

# Evaluate the traces using multi-turn metrics
eval_result = client.evals.evaluate(
    traces=traces,
    metrics=[
        "MULTI_TURN_TASK_SUCCESS",
        "MULTI_TURN_TOOL_USE_QUALITY"
    ]
)

4. Lakukan analisis (Cluster Kegagalan)

Sistem secara otomatis mengelompokkan evaluasi yang gagal ke dalam Kelompok Kerugian untuk mengidentifikasi masalah utama agen.

# Identify the top failure patterns in the results
loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)

5. Mengoptimalkan agen

Terakhir, gunakan layanan Pengoptimal untuk menyempurnakan petunjuk sistem atau deskripsi alat agen Anda secara terprogram berdasarkan data kegagalan.

# Automatically refine the system prompt to fix identified issues
optimize_result = client.optimizer.optimize(
    targets=["system_prompt"],
    benchmark=eval_result,
    tests=eval_dataset
)

Langkah berikutnya