Detail untuk metrik berbasis rubrik terkelola
Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Halaman ini menyediakan daftar lengkap metrik berbasis rubrik terkelola yang ditawarkan oleh layanan evaluasi AI generatif, yang dapat Anda gunakan di Klien GenAI di Vertex AI SDK.
Layanan evaluasi AI generatif menawarkan daftar metrik berbasis rubrik terkelola untuk framework evaluasi berbasis pengujian:
Untuk metrik dengan rubrik adaptif, sebagian besar metrik menyertakan alur kerja untuk pembuatan rubrik bagi setiap perintah dan validasi rubrik. Anda dapat menjalankannya secara terpisah jika diperlukan. Lihat Menjalankan evaluasi untuk mengetahui detailnya.
Untuk metrik dengan rubrik statis, tidak ada rubrik per-prompt yang dibuat. Untuk mengetahui detail terkait output yang diinginkan, lihat Detail metrik.
Setiap metrik berbasis rubrik terkelola memiliki nomor versi. Metrik menggunakan versi terbaru secara default, tetapi Anda dapat menyematkan ke versi tertentu jika diperlukan:
Untuk metrik yang ditawarkan sebagai Template perintah metrik, Anda masih dapat mengakses metrik pointwise melalui Klien GenAI di Vertex AI SDK melalui pendekatan yang sama. Metrik berpasangan tidak didukung oleh Klien GenAI di Vertex AI SDK, tetapi lihat Menjalankan evaluasi untuk membandingkan dua model dalam evaluasi yang sama.
fromvertexaiimporttypes# Access metrics represented by metric prompt template examplescoherence=types.RubricMetric.COHERENCEfluency=types.RubricMetric.FLUENCY
Detail metrik terkelola
Bagian ini mencantumkan metrik terkelola dengan detail seperti jenis, input yang diperlukan, dan output yang diharapkan:
Metrik rubrik adaptif komprehensif yang mengevaluasi kualitas keseluruhan respons model. Alat ini otomatis membuat dan menilai berbagai kriteria berdasarkan konten perintah. Ini adalah titik awal yang direkomendasikan untuk sebagian besar evaluasi.
Cara mengakses di SDK
types.RubricMetric.GENERAL_QUALITY
Input
prompt
response
(Opsional) rubric_groups
Jika sudah membuat rubrik, Anda dapat langsung memberikannya untuk dievaluasi.
Output
score
rubrics dan verdicts yang sesuai
Skor ini menunjukkan tingkat kelulusan respons berdasarkan rubrik.
Jumlah panggilan LLM
6 panggilan ke Gemini 2.5 Flash
Kualitas teks
Versi terbaru
text_quality_v1
Jenis
Rubrik adaptif
Deskripsi
Metrik rubrik adaptif yang ditargetkan dan secara khusus mengevaluasi kualitas linguistik respons. Alat ini menilai aspek seperti kelancaran, koherensi, dan tata bahasa.
Cara mengakses di SDK
types.RubricMetric.TEXT_QUALITY
Input
prompt
response
(Opsional) rubric_groups
Jika sudah membuat rubrik, Anda dapat langsung memberikannya untuk evaluasi.
Output
score
rubrics dan verdicts yang sesuai
Skor mewakili tingkat kelulusan respons berdasarkan rubrik.
Jumlah panggilan LLM
6 panggilan ke Gemini 2.5 Flash
Mengikuti petunjuk
Versi terbaru
instruction_following_v1
Jenis
Rubrik adaptif
Deskripsi
Metrik rubrik adaptif yang ditargetkan yang mengukur seberapa baik respons mematuhi batasan dan petunjuk khusus yang diberikan dalam perintah.
Cara mengakses di SDK
types.RubricMetric.INSTRUCTION_FOLLOWING
Input
prompt
response
(Opsional) rubric_groups
Jika sudah membuat rubrik, Anda dapat langsung memberikannya untuk dievaluasi.
Output
score (tingkat kelulusan)
rubrics dan verdicts yang sesuai
Skor mewakili tingkat kelulusan respons berdasarkan rubrik.
Jumlah panggilan LLM
6 panggilan ke Gemini 2.5 Flash
Grounding
Versi terbaru
grounding_v1
Jenis
Rubrik statis
Deskripsi
Metrik berbasis skor yang memeriksa faktualitas dan konsistensi. Hal ini memverifikasi bahwa respons model didasarkan pada konteks.
Cara mengakses di SDK
types.RubricMetric.GROUNDING
Input
prompt
response
context
Output
score
explanation
Skor memiliki rentang 0-1, dan merepresentasikan rasio klaim yang diberi label sebagai supported atau no_rad (tidak memerlukan atribusi faktual, seperti salam, pertanyaan, atau pernyataan penyangkalan) terhadap perintah input.
Penjelasan berisi pengelompokan kalimat, label, alasan, dan kutipan dari konteks.
Jumlah panggilan LLM
1 panggilan ke Gemini 2.5 Flash
Keamanan
Versi terbaru
safety_v1
Jenis
Rubrik statis
Deskripsi
Metrik berbasis skor yang menilai apakah respons model melanggar satu atau beberapa kebijakan berikut:
Data PII & Demografi
Ujaran Kebencian
Konten Berbahaya
Pelecehan
Seksual Vulgar
Cara mengakses di SDK
types.RubricMetric.SAFETY
Input
prompt
response
Output
score
explanation
Untuk skor, 0 tidak aman dan 1 aman.
Kolom penjelasan mencakup kebijakan yang dilanggar.
Jumlah panggilan LLM
10 panggilan ke Gemini 2.5 Flash
Kualitas umum multi-turn
Versi terbaru
multi_turn_general_quality_v1
Jenis
Rubrik adaptif
Deskripsi
Metrik rubrik adaptif yang mengevaluasi kualitas keseluruhan respons model dalam konteks dialog multi-giliran.
Cara mengakses di SDK
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Input
prompt dengan percakapan multi-giliran
response
(Opsional) rubric_groups
Jika sudah membuat rubrik, Anda dapat langsung memberikannya untuk evaluasi.
Output
score
rubrik dan verdict yang sesuai
Skor mewakili tingkat kelulusan respons berdasarkan rubrik.
Jumlah panggilan LLM
6 panggilan ke Gemini 2.5 Flash
Kualitas teks multi-turn
Versi terbaru
multi_turn_text_quality_v1
Jenis
Rubrik adaptif
Deskripsi
Metrik rubrik adaptif yang mengevaluasi kualitas teks respons model dalam konteks dialog multi-giliran.
Cara mengakses di SDK
types.RubricMetric.TEXT_QUALITY
Input
prompt dengan percakapan multi-giliran
response
(Opsional) rubric_groups
Jika sudah membuat rubrik, Anda dapat langsung memberikannya untuk evaluasi.
Output
score
rubrics dan verdicts yang sesuai
Skor mewakili tingkat kelulusan respons berdasarkan rubrik.
Jumlah panggilan LLM
6 panggilan ke Gemini 2.5 Flash
Pencocokan respons akhir agen
Versi terbaru
final_response_match_v2
Jenis
Rubrik statis
Deskripsi
Metrik yang mengevaluasi kualitas jawaban akhir agen AI dengan membandingkannya dengan jawaban referensi (kebenaran nyata) yang diberikan.
Cara mengakses di SDK
types.RubricMetric.FINAL_RESPONSE_MATCH
Input
prompt
response
reference
Output
Skor
1: Respons valid yang cocok dengan referensi.
0: Respons tidak valid yang tidak cocok dengan referensi.
Penjelasan
Jumlah panggilan LLM
5 panggilan ke Gemini 2.5 Flash
Referensi respons akhir agen tanpa biaya
Versi terbaru
final_response_reference_free_v1
Jenis
Rubrik adaptif
Deskripsi
Metrik rubrik adaptif yang mengevaluasi kualitas jawaban akhir agen AI tanpa memerlukan jawaban referensi.
Anda harus memberikan rubrik untuk metrik ini, karena metrik ini tidak mendukung rubrik yang dibuat secara otomatis.
Cara mengakses di SDK
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Input
prompt
response
rubric_groups
Output
score
rubrics dan verdicts yang sesuai
Skor mewakili tingkat kelulusan respons berdasarkan rubrik.
Jumlah panggilan LLM
5 panggilan ke Gemini 2.5 Flash
Kualitas respons akhir agen
Versi terbaru
final_response_quality_v1
Jenis
Rubrik adaptif
Deskripsi
Metrik rubrik adaptif komprehensif yang mengevaluasi kualitas keseluruhan respons agen. Secara otomatis, alat ini membuat berbagai kriteria berdasarkan konfigurasi agen (petunjuk dan pernyataan developer untuk alat yang tersedia bagi agen) dan perintah pengguna, lalu menilai kriteria yang dibuat berdasarkan penggunaan alat dalam peristiwa perantara dan jawaban akhir oleh agen.
Cara mengakses di SDK
types.RubricMetric.FINAL_RESPONSE_QUALITY
Input
prompt
response
developer_instruction
tool_declarations (dapat berupa daftar kosong)
intermediate_events (berisi panggilan & respons fungsi, dapat berupa daftar kosong)
(Opsional) rubric_groups (Jika Anda sudah membuat rubrik, Anda dapat langsung memberikannya untuk dievaluasi)
Output
score
rubrics dan verdicts yang sesuai
Skor ini menunjukkan tingkat kelulusan respons berdasarkan rubrik.
Jumlah panggilan LLM
5 panggilan ke Gemini 2.5 Flash dan 1 panggilan ke Gemini 2.5 Pro
Halusinasi agen
Versi terbaru
hallucination_v1
Jenis
Rubrik Statis
Deskripsi
Metrik berbasis skor yang memeriksa faktualitas dan konsistensi respons teks dengan menyegmentasikan respons menjadi klaim atomik. Hal ini memverifikasi apakah setiap klaim memiliki dasar atau tidak berdasarkan penggunaan alat dalam peristiwa perantara.
Hal ini juga dapat dimanfaatkan untuk mengevaluasi respons teks perantara dengan menyetel tanda evaluate_intermediate_nl_responses ke benar (true).
Cara mengakses di SDK
types.RubricMetric.HALLUCINATION
Input
response
developer_instruction
tool_declarations (dapat berupa daftar kosong)
intermediate_events (berisi panggilan & respons fungsi, dapat berupa daftar kosong)
evaluate_intermediate_nl_responses (defaultnya adalah False)
Output
score
explanation dan verdicts yang sesuai
Skor memiliki rentang 0-1, dan merepresentasikan rasio klaim yang diberi label sebagai supported atau no_rad (tidak memerlukan atribusi faktual, seperti salam, pertanyaan, atau pernyataan penyangkalan) relatif terhadap perintah input. Penjelasan berisi perincian terstruktur dari klaim, label, alasan, dan kutipan yang mendukung konteks.
Jumlah panggilan LLM
2 panggilan ke Gemini 2.5 Flash
Kualitas penggunaan alat agen
Versi terbaru
tool_use_quality_v1
Jenis
Rubrik adaptif
Deskripsi
Metrik rubrik adaptif yang ditargetkan yang mengevaluasi pemilihan alat yang sesuai, penggunaan parameter yang benar, dan kepatuhan terhadap urutan operasi yang ditentukan.
Cara mengakses di SDK
types.RubricMetric.TOOL_USE_QUALITY
Input
prompt
developer_instruction
tool_declarations (dapat berupa daftar kosong)
intermediate_events (berisi panggilan & respons fungsi, dapat berupa daftar kosong)
(Opsional) rubric_groups (Jika Anda sudah membuat rubrik, Anda dapat langsung memberikannya untuk dievaluasi)
Output
score
rubrics dan verdicts yang sesuai
Skor mewakili tingkat kelulusan respons berdasarkan rubrik.
Jumlah panggilan LLM
5 panggilan ke Gemini 2.5 Flash dan 1 panggilan ke Gemini 2.5 Pro
Kualitas text-to-image Gecko
Versi terbaru
gecko_text2image_v1
Jenis
Rubrik adaptif
Deskripsi
Metrik text-to-image Gecko adalah metode adaptif berbasis rubrik untuk mengevaluasi kualitas gambar yang dihasilkan berdasarkan perintah teks yang sesuai. Cara kerjanya adalah dengan terlebih dahulu membuat serangkaian pertanyaan dari perintah, yang berfungsi sebagai rubrik spesifik per perintah yang mendetail. Kemudian, model menjawab pertanyaan ini berdasarkan gambar yang dihasilkan.
Cara mengakses di SDK
types.RubricMetric.GECKO_TEXT2IMAGE
Input
prompt
response - harus berupa data file dengan jenis MIME gambar
Output
score
rubrics dan verdicts yang sesuai
Skor ini menunjukkan tingkat kelulusan respons berdasarkan rubrik.
Jumlah panggilan LLM
2 panggilan ke Gemini 2.5 Flash
Kualitas text-to-video Gecko
Versi terbaru
gecko_text2video_v1
Jenis
Rubrik adaptif
Deskripsi
Metrik teks-ke-video Gecko adalah metode adaptif berbasis rubrik untuk mengevaluasi kualitas video yang dihasilkan berdasarkan perintah teks yang sesuai. Cara kerjanya adalah dengan terlebih dahulu membuat serangkaian pertanyaan dari perintah, yang berfungsi sebagai rubrik spesifik per perintah yang mendetail. Kemudian, model menjawab pertanyaan ini berdasarkan video yang dibuat.
Cara mengakses di SDK
types.RubricMetric.GECKO_TEXT2VIDEO
Input
prompt
response - harus berupa data file dengan jenis MIME video
Output
score
rubrics dan verdicts yang sesuai
Skor ini menunjukkan tingkat kelulusan respons berdasarkan rubrik.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-12-04 UTC."],[],[]]