Menganalisis hasil evaluasi dan kelompok kegagalan

Sebelum memulai

Untuk melihat dan menganalisis hasil evaluasi, pastikan Anda memiliki hal berikut:

  • Jalankan setidaknya satu evaluasi seperti yang dijelaskan dalam Mengevaluasi agen Anda atau Menjalankan evaluasi offline.
  • Mengonfigurasi bucket Cloud Storage untuk output evaluasi jika menjalankan evaluasi offline.
  • (Opsional) Jika menggunakan SDK untuk mengambil hasil, pastikan lingkungan Anda diautentikasi.

Setelah menjalankan evaluasi, Platform Agen menyediakan alat diagnostik untuk membantu Anda mengidentifikasi penyebab utama kegagalan. Anda dapat menganalisis hasil di tiga tingkat: tren gabungan di dasbor, grup semantik dalam cluster kegagalan, dan jalur logika terperinci dalam setiap pelacakan.

Dasbor evaluasi untuk monitor online

Untuk agen dengan Monitor Online aktif, Anda dapat melihat tren performa gabungan di dasbor:

  1. Di Google Cloud konsol, buka halaman Agent Platform > Agents.
  2. Di menu navigasi kiri, pilih Deployments.
  3. Pilih agen Anda.

    Buka Deployment

  4. Klik tab Dashboard , lalu pilih subbagian Evaluation.

  • Tren Performa: Visualisasikan perubahan skor untuk metrik seperti Task Success atau Tool Use Quality di berbagai versi agen atau jangka waktu.
  • Status Nol: Untuk agen tanpa Monitor Online aktif, tampilan ini mengidentifikasi kesenjangan cakupan dan memberikan ajakan bertindak untuk memulai evaluasi.

Melihat hasil evaluasi dengan SDK

Anda dapat mengakses hasil evaluasi secara terprogram menggunakan Agent Platform SDK. SDK menyediakan visualisasi interaktif bawaan untuk lingkungan Colab dan Jupyter notebook yang menampilkan metrik ringkasan gabungan dan hasil mendetail per kasus.

Setelah menjalankan evaluasi, panggil .show() pada objek hasil untuk merender laporan interaktif langsung di notebook Anda:

from vertexai import evals, types

# Run an evaluation
result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        types.RubricMetric.FINAL_RESPONSE_QUALITY,
        types.RubricMetric.TOOL_USE_QUALITY,
        types.RubricMetric.HALLUCINATION,
        types.RubricMetric.SAFETY,
    ],
)

# Visualize aggregate and per-case results in your notebook
result.show()

Visualisasi mencakup:

  • Metrik ringkasan: Skor gabungan di semua kasus evaluasi, termasuk skor rata-rata dan tingkat kelulusan untuk setiap metrik.
  • Hasil per kasus: Skor kasus evaluasi individual yang dapat Anda luaskan untuk memeriksa hasil mendetail.

Contoh berikut menunjukkan metrik ringkasan dari result.show():

Laporan ringkasan evaluasi yang menampilkan skor rata-rata dan standar deviasi untuk setiap metrik.

Anda dapat meluaskan setiap kasus evaluasi untuk melihat skor per metrik, putusan rubrik, dan alasan:

Hasil evaluasi per kasus yang menampilkan skor metrik dan keputusan lulus atau gagal rubrik individual dengan penjelasan.

Menafsirkan hasil evaluasi

Metrik yang telah ditentukan sebelumnya menampilkan hasil dalam dua format, bergantung pada jenis metrik:

  • Metrik rubrik adaptif otomatis membuat rubrik berdasarkan konfigurasi agen dan perintah pengguna. Setiap rubrik menerima putusan Lulus atau Gagal individual dengan alasan bahasa alami yang menjelaskan alasan LLM hakim. Skor keseluruhan mewakili tingkat kelulusan—proporsi rubrik yang menerima putusan Lulus.
  • Metrik rubrik statis menggunakan kumpulan kriteria evaluasi tetap. Misalnya, Halusinasi menyegmentasikan respons ke dalam klaim atomik dan memeriksa setiap klaim terhadap bukti penggunaan alat. Pemeriksaan keamanan untuk PII, ujaran kebencian, konten berbahaya, dan pelanggaran kebijakan lainnya. Metrik ini menampilkan satu skor numerik (0 hingga 1).

Mengidentifikasi dan memprioritaskan kegagalan

Setelah meninjau hasil evaluasi, langkah berikutnya adalah mengidentifikasi pola kegagalan sistemik dan memprioritaskannya untuk meningkatkan kualitas agen Anda. Platform Agen menyediakan Analisis Kerugian Otomatis, yang menganalisis sinyal lulus atau gagal dari metrik berbasis rubrik, mengklasifikasikan kegagalan ke dalam pola kerugian yang telah ditentukan sebelumnya, dan mengelompokkannya ke dalam cluster semantik. Hal ini membantu Anda memahami tidak hanya bahwa agen Anda gagal, tetapi juga mengapa dan bagaimana agen tersebut gagal.

Mengakses cluster kegagalan di konsol

  1. Buka halaman Agent Platform > Agents > Evaluation.
  2. Pilih tab Evaluations.
  3. Klik nama proses evaluasi yang telah selesai untuk membuka laporan.
  4. Jika evaluasi mendeteksi cluster, cluster tersebut akan ditampilkan di bagian Failure Clusters laporan.

Membuat cluster kegagalan dengan SDK

Anda juga dapat membuat cluster kegagalan secara terprogram menggunakan metode generate_loss_clusters:

# Generate failure clusters from evaluation results
loss_clusters = client.evals.generate_loss_clusters(
    eval_result=result,
)

# Visualize the loss pattern analysis in your notebook
loss_clusters.show()

Contoh berikut menunjukkan analisis pola kerugian dari loss_clusters.show():

Laporan analisis pola kerugian yang menampilkan cluster kegagalan yang dikelompokkan menurut kategori dengan contoh skenario dan alasan.

Taksonomi pola kerugian

Analisis kerugian otomatis mengklasifikasikan setiap kegagalan ke dalam satu atau beberapa pola kerugian yang telah ditentukan sebelumnya. Pola ini dirancang agar konkret dan dapat ditindaklanjuti, yang dipetakan langsung ke area tertentu agen Anda yang dapat ditingkatkan.

Ada dua taksonomi yang telah ditentukan sebelumnya, yang masing-masing selaras dengan metrik tertentu:

Taksonomi keberhasilan tugas agen

Taksonomi ini digunakan dengan metrik Agent Multi-turn Task Success (multi_turn_task_success_v1). Taksonomi ini mencakup kegagalan perilaku agen tingkat tinggi di seluruh halusinasi, mengikuti petunjuk, panggilan alat, penanganan output alat, dan kualitas alat:

Kategori Pola kerugian Deskripsi
Halusinasi Halusinasi Tindakan Agen mengklaim telah menyelesaikan tindakan tanpa menjalankan panggilan alat yang diperlukan.
Halusinasi Informasi yang Tidak Ada Agen membuat detail (seperti nilai, fakta, atau tanggal) yang tidak ada dalam kueri pengguna atau output alat.
Halusinasi Alat atau Kemampuan Agen mengklaim memiliki alat atau kemampuan yang tidak dimilikinya.
Mengikuti Petunjuk Pelanggaran Batasan Agen melakukan tugas, tetapi melanggar batasan pengguna eksplisit (seperti aturan pemformatan atau batasan negatif).
Tindakan Sia-Sia (Under-Punting) Agen mengambil tindakan yang tidak relevan, bukan menyatakan bahwa tugas tidak mungkin dilakukan dengan alat yang tersedia.
Eksekusi Tidak Selesai Agen menyelesaikan sebagian tugas, tetapi berhenti sebelum waktunya atau meminta izin yang tidak perlu untuk langkah-langkah yang diminta secara eksplisit.
Over-Punting Agen menolak tugas, dengan mengklaim bahwa agen tersebut tidak memiliki alat atau kemampuan yang sebenarnya dimilikinya.
Panggilan Alat Pemilihan Alat yang Salah Agen memilih alat yang salah dari opsi yang tersedia.
Parameter Alat yang Salah Secara Semantik Panggilan alat valid secara sintaksis, tetapi berisi error logis atau semantik dalam nilai parameter.
Panggilan Alat yang Salah Secara Sintaksis Panggilan alat memiliki error sintaksis, parameter wajib yang tidak ada, atau nilai argumen yang tidak valid.
Penanganan Output Alat Pemrosesan Output Alat yang Salah Agen menerima output alat yang valid, tetapi mengekstrak, memproses, atau menafsirkan informasi secara tidak akurat.
Kualitas Alat Output Alat Tidak Mencukupi Alat berhasil dijalankan, tetapi menampilkan data yang tidak mencukupi atau tidak ada data yang diperlukan agar agen dapat melanjutkan.
Kegagalan Alat Alat gagal karena masalah infrastruktur seperti kegagalan autentikasi waktu tunggu habis, atau error internal.

Taksonomi kualitas penggunaan alat

Taksonomi ini digunakan dengan metrik Agent Multi-turn Tool Use Quality (multi_turn_tool_use_quality_v1). Taksonomi ini berfokus secara khusus pada kebenaran panggilan alat dan penanganan respons alat:

Kategori Pola kerugian Deskripsi
Halusinasi Halusinasi Nilai Parameter Agen membuat nilai tertentu untuk parameter yang tidak diberikan oleh pengguna atau tidak dapat diturunkan dari konteks.
Halusinasi Alat Agen mencoba memanggil fungsi yang tidak ada dalam kumpulan alat yang ditentukan.
Panggilan Alat Gagal Menetapkan Parameter Agen menghilangkan parameter yang diperlukan untuk memenuhi batasan pengguna, secara default ditetapkan ke nilai yang tidak diinginkan.
Jenis Data Parameter yang Salah Agen memberikan nilai jenis data yang salah untuk parameter (seperti string saat bilangan bulat diperlukan).
Pemetaan Parameter yang Salah Agen menetapkan nilai ke parameter yang salah (seperti menukar tanggal mulai dan akhir).
Nilai Parameter yang Salah Agen memberikan nilai parameter yang salah secara logis atau faktual, atau gagal menerapkan transformasi data yang diperlukan.
Pemilihan Alat yang Salah Agen memilih fungsi yang salah dari kumpulan alat yang tersedia.
Sintaksis Panggilan Alat Tidak Valid Agen membuat panggilan fungsi dengan error sintaksis yang mencegah penguraian atau eksekusi.
Parameter yang Tidak Ada Agen menyertakan argumen parameter yang tidak ditentukan dalam tanda tangan alat.
Penghilangan Panggilan Alat yang Diperlukan Agen gagal menjalankan fungsi yang diperlukan, baik dengan menjawab secara langsung, melewati bagian dari permintaan gabungan, atau melewati langkah prasyarat.
Under-Punting Agen memaksa panggilan alat saat harus merespons dengan bahasa alami (seperti meminta klarifikasi atau menolak permintaan di luar cakupan).
Respons Alat Respons Alat yang Tidak Relevan Alat berhasil dijalankan, tetapi menampilkan data yang tidak relevan dengan kueri spesifik pengguna.
Error Alat Alat menampilkan status error atau kegagalan eksplisit karena masalah eksternal (seperti gangguan API atau izin yang tidak valid).

Gunakan alur kerja berikut untuk memprioritaskan kegagalan evaluasi secara sistematis:

  1. Mulai dengan metrik ringkasan untuk mengidentifikasi metrik dengan skor terendah di seluruh set data evaluasi Anda.
  2. Telusuri hasil per kasus untuk menemukan kasus evaluasi tertentu yang gagal.
  3. Buat cluster kegagalan untuk mengidentifikasi pola kerugian sistemik di seluruh kegagalan.
  4. Telusuri pelacakan untuk menemukan panggilan alat atau giliran yang tepat saat kegagalan terjadi. Di konsol, buka Agent Platform > Agents > Deployments, pilih agen Anda, lalu buka tab Traces. Pilih pelacakan untuk melihat histori percakapan lengkap dan urutan input model, panggilan alat, dan respons yang tepat.
  5. Identifikasi penyebab utama—gunakan kategori pola kerugian untuk menentukan apakah masalahnya adalah masalah perintah, masalah konfigurasi alat, atau masalah data.
  6. Terapkan perbaikan yang ditargetkan ke petunjuk sistem agen, definisi alat, atau contoh beberapa kali.
  7. Jalankan kembali evaluasi dan bandingkan skor untuk memverifikasi peningkatan.