Google menggunakan teknologi AI untuk menerjemahkan konten ke dalam bahasa pilihan Anda. Terjemahan AI mungkin mengandung kesalahan.

Menganalisis hasil evaluasi dan kelompok kegagalan

Sebelum memulai

Untuk melihat dan menganalisis hasil evaluasi, pastikan Anda memiliki hal berikut:

Jalankan setidaknya satu evaluasi seperti yang dijelaskan dalam Mengevaluasi agen Anda atau Menjalankan evaluasi offline.
Mengonfigurasi bucket Cloud Storage untuk output evaluasi jika menjalankan evaluasi offline.
(Opsional) Jika menggunakan SDK untuk mengambil hasil, pastikan lingkungan Anda diautentikasi.

Setelah menjalankan evaluasi, Agent Platform menyediakan alat diagnostik untuk membantu Anda mengidentifikasi akar penyebab kegagalan. Anda dapat menganalisis hasil di tiga tingkat: tren gabungan di dasbor, grup semantik dalam cluster kegagalan, dan jalur logika terperinci dalam setiap rekaman aktivitas.

Dasbor evaluasi untuk monitor online

Untuk agen dengan Monitor Online yang aktif, Anda dapat melihat tren performa gabungan di dasbor:

Di konsol Google Cloud , buka halaman Agent Platform > Agents.
Di menu navigasi kiri, pilih Deployments.
Pilih agen Anda.
Buka Deployment
Klik tab Dashboard, lalu pilih subbagian Evaluasi.

Tren Performa: Visualisasikan perubahan skor untuk metrik seperti Keberhasilan Tugas atau Kualitas Penggunaan Alat di berbagai versi agen atau jangka waktu.
Status Nol: Untuk agen tanpa Monitor Online yang aktif, tampilan ini mengidentifikasi kesenjangan cakupan dan memberikan pesan ajakan (CTA) untuk memulai evaluasi.

Melihat hasil evaluasi dengan SDK

Anda dapat mengakses hasil evaluasi secara terprogram menggunakan Agent Platform SDK. SDK menyediakan visualisasi interaktif bawaan untuk lingkungan notebook Colab dan Jupyter yang menampilkan metrik ringkasan gabungan dan hasil mendetail per kasus.

Setelah menjalankan evaluasi, panggil .show() pada objek hasil untuk merender laporan interaktif langsung di notebook Anda:

from vertexai import evals, types

# Run an evaluation
result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        types.RubricMetric.FINAL_RESPONSE_QUALITY,
        types.RubricMetric.TOOL_USE_QUALITY,
        types.RubricMetric.HALLUCINATION,
        types.RubricMetric.SAFETY,
    ],
)

# Visualize aggregate and per-case results in your notebook
result.show()

Visualisasi mencakup:

Metrik ringkasan: Skor gabungan di semua kasus evaluasi, termasuk skor rata-rata dan tingkat kelulusan untuk setiap metrik.
Hasil per kasus: Skor kasus evaluasi individual yang dapat Anda luaskan untuk memeriksa hasil mendetail.

Contoh berikut menunjukkan metrik ringkasan dari result.show():

Laporan ringkasan evaluasi yang menampilkan skor rata-rata dan standar deviasi untuk setiap metrik.

Anda dapat meluaskan setiap kasus evaluasi untuk melihat skor per metrik, putusan rubrik, dan alasan:

Hasil evaluasi per kasus yang menampilkan skor metrik dan putusan lulus atau gagal rubrik individual dengan penjelasan.

Menafsirkan hasil evaluasi

Metrik standar menampilkan hasil dalam dua format, bergantung pada jenis metrik:

Metrik rubrik adaptif otomatis membuat rubrik berdasarkan konfigurasi agen dan perintah pengguna. Setiap rubrik menerima putusan Lulus atau Gagal dengan alasan dalam bahasa alami yang menjelaskan alasan LLM hakim. Skor keseluruhan menunjukkan tingkat kelulusan—proporsi rubrik yang menerima vonis Lulus.
Metrik rubrik statis menggunakan kumpulan kriteria evaluasi tetap. Misalnya, Halusinasi menyegmentasikan respons menjadi klaim atomik dan memeriksa setiap klaim berdasarkan bukti penggunaan alat. Pemeriksaan keamanan untuk PII, ujaran kebencian, konten berbahaya, dan pelanggaran kebijakan lainnya. Metrik ini menampilkan skor numerik tunggal (0 hingga 1).

Mengidentifikasi dan melakukan triase kegagalan

Setelah meninjau hasil evaluasi, langkah selanjutnya adalah mengidentifikasi pola kegagalan sistemik dan memilahnya untuk meningkatkan kualitas agen Anda. Agent Platform menyediakan Analisis Kerugian Otomatis, yang menganalisis sinyal lulus atau gagal dari metrik berbasis rubrik, mengklasifikasikan kegagalan ke dalam pola kerugian yang telah ditentukan sebelumnya, dan mengelompokkannya ke dalam cluster semantik. Hal ini membantu Anda memahami tidak hanya bahwa agen Anda gagal, tetapi juga mengapa dan bagaimana agen tersebut gagal.

Mengakses cluster kegagalan di konsol

Buka halaman Agent Platform > Agents > Evaluation.
Pilih tab Evaluasi.
Klik nama proses evaluasi yang telah selesai untuk membuka laporan.
Jika evaluasi mendeteksi cluster, cluster tersebut akan ditampilkan di bagian Cluster Kegagalan dalam laporan.

Membuat cluster kegagalan dengan SDK

Anda juga dapat membuat cluster kegagalan secara terprogram menggunakan metode generate_loss_clusters:

# Generate failure clusters from evaluation results
loss_clusters = client.evals.generate_loss_clusters(
    eval_result=result,
)

# Visualize the loss pattern analysis in your notebook
loss_clusters.show()

Contoh berikut menunjukkan analisis pola kerugian dari loss_clusters.show():

Laporan analisis pola kerugian yang menampilkan cluster kegagalan yang dikelompokkan menurut kategori dengan contoh skenario dan alasan.

Taksonomi pola kerugian

Analisis kerugian otomatis mengklasifikasikan setiap kegagalan ke dalam satu atau beberapa pola kerugian yang telah ditentukan sebelumnya. Pola ini dirancang agar konkret dan dapat ditindaklanjuti, serta dipetakan langsung ke area spesifik agen yang dapat Anda tingkatkan.

Ada dua taksonomi standar, yang masing-masing diselaraskan dengan metrik tertentu:

Taksonomi keberhasilan tugas agen

Taksonomi ini digunakan dengan metrik Keberhasilan Tugas Multi-turn Agen (multi_turn_task_success_v1). Taksonomi ini mencakup kegagalan perilaku agen tingkat tinggi di seluruh halusinasi, mengikuti petunjuk, pemanggilan alat, penanganan output alat, dan kualitas alat:

Kategori	Pola kehilangan	Deskripsi
Halusinasi	Halusinasi Tindakan	Agen mengklaim telah menyelesaikan tindakan tanpa mengeksekusi panggilan alat yang diperlukan.
	Halusinasi Informasi yang Tidak Ada	Agen mengarang detail (seperti nilai, fakta, atau tanggal) yang tidak ada dalam kueri pengguna atau output alat.
	Halusinasi Alat atau Kemampuan	Agen mengklaim memiliki alat atau kemampuan yang tidak dimilikinya.
Mengikuti Petunjuk (Instruction Following)	Pelanggaran Batasan	Agen melakukan tugas, tetapi melanggar batasan pengguna yang eksplisit (seperti aturan pemformatan atau batasan negatif).
	Tindakan Sia-Sia (Kurang Menendang)	Agen melakukan tindakan yang tidak relevan, alih-alih menyatakan bahwa tugas tidak mungkin dilakukan dengan alat yang tersedia.
	Eksekusi Tidak Selesai	Agen menyelesaikan sebagian tugas, tetapi berhenti sebelum waktunya atau meminta izin yang tidak perlu untuk langkah-langkah yang diminta secara eksplisit.
	Over-Punting	Agen menolak tugas, dengan mengklaim bahwa ia tidak memiliki alat atau kemampuan yang sebenarnya ia miliki.
Pemanggilan Alat	Pemilihan Alat yang Salah	Agen memilih alat yang salah dari opsi yang tersedia.
	Parameter Alat yang Salah Secara Semantis	Panggilan alat valid secara sintaksis, tetapi berisi error logis atau semantik dalam nilai parameter.
	Panggilan Alat yang Salah Secara Sintaksis	Panggilan alat memiliki kesalahan sintaksis, tidak ada parameter wajib, atau nilai argumen tidak valid.
Penanganan Output Alat	Pemrosesan Output Alat yang Salah	Agen menerima output alat yang valid, tetapi secara tidak akurat mengekstrak, memproses, atau menafsirkan informasi.
Kualitas Alat	Output Alat Tidak Memadai	Alat berhasil dieksekusi, tetapi menampilkan data yang tidak memadai atau tidak ada yang diperlukan agar agen dapat melanjutkan.
Kualitas Alat	Kegagalan Alat	Alat gagal karena masalah infrastruktur seperti kegagalan autentikasi, waktu tunggu habis, atau error internal.

Taksonomi kualitas penggunaan alat

Taksonomi ini digunakan dengan metrik Kualitas Penggunaan Alat Multi-turn Agen (multi_turn_tool_use_quality_v1). Taksonomi ini berfokus secara khusus pada kebenaran panggilan alat dan penanganan respons alat:

Kategori	Pola kehilangan	Deskripsi
Halusinasi	Halusinasi Nilai Parameter	Agen membuat nilai tertentu untuk parameter yang tidak disediakan oleh pengguna atau tidak dapat diperoleh dari konteks.
Halusinasi	Halusinasi Alat	Agen mencoba memanggil fungsi yang tidak ada dalam toolset yang ditentukan.
Pemanggilan Alat	Gagal Menetapkan Parameter	Agen menghilangkan parameter yang diperlukan untuk memenuhi batasan pengguna, yang menyebabkan nilai default yang tidak diinginkan.
	Jenis Data Parameter Salah	Agen memberikan nilai jenis data yang salah untuk parameter (seperti string saat bilangan bulat diperlukan).
	Pemetaan Parameter yang Salah	Agen menetapkan nilai ke parameter yang salah (seperti menukar tanggal mulai dan berakhir).
	Nilai Parameter Salah	Agen memberikan nilai parameter yang secara logis atau faktual salah, atau gagal menerapkan transformasi data yang diperlukan.
	Pemilihan Alat yang Salah	Agen memilih fungsi yang salah dari toolset yang tersedia.
	Sintaksis Panggilan Alat Tidak Valid	Agen membuat panggilan fungsi dengan kesalahan sintaksis yang mencegah penguraian atau eksekusi.
	Parameter Tidak Ada	Agen menyertakan argumen parameter yang tidak ditentukan dalam tanda tangan alat.
	Tidak Adanya Panggilan Alat yang Diperlukan	Agen gagal menjalankan fungsi yang diperlukan, baik dengan menjawab secara langsung, melewati bagian dari permintaan gabungan, atau melewati langkah prasyarat.
	Under-Punting	Agen memaksakan panggilan alat saat harus merespons dengan bahasa alami (seperti meminta klarifikasi atau menolak permintaan di luar cakupan).
Respons Alat	Respons Alat Tidak Relevan	Alat berhasil dijalankan, tetapi menampilkan data yang tidak relevan dengan kueri spesifik pengguna.
Respons Alat	Error Alat	Alat ini menampilkan error atau status kegagalan eksplisit karena masalah eksternal (seperti gangguan API atau izin tidak valid).

Alur kerja triase yang direkomendasikan

Gunakan alur kerja berikut untuk secara sistematis memilah kegagalan evaluasi:

Mulai dengan metrik ringkasan untuk mengidentifikasi metrik dengan skor terendah di seluruh set data evaluasi Anda.
Lihat perincian hasil per kasus untuk menemukan kasus evaluasi tertentu yang gagal.
Buat cluster kegagalan untuk mengidentifikasi pola kehilangan sistemik di seluruh kegagalan.
Telusuri trace untuk menemukan panggilan alat atau belokan yang tepat saat kegagalan terjadi. Di konsol, buka Agent Platform > Agents > Deployments, pilih agen Anda, lalu buka tab Traces. Pilih rekaman aktivitas untuk melihat histori percakapan lengkap dan urutan yang tepat dari input model, panggilan alat, dan respons.
Identifikasi penyebab utama—gunakan kategori pola kerugian untuk menentukan apakah masalahnya adalah masalah perintah, masalah konfigurasi alat, atau masalah data.
Terapkan perbaikan yang ditargetkan pada petunjuk sistem, definisi alat, atau contoh few-shot agen.
Jalankan kembali evaluasi dan bandingkan skor untuk memverifikasi peningkatan.

Menganalisis hasil evaluasi dan kelompok kegagalan Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.