Layanan evaluasi AI generatif menyediakan alat tingkat perusahaan untuk penilaian objektif dan berbasis data terhadap model AI generatif. Layanan ini mendukung dan memberikan informasi untuk sejumlah tugas pengembangan seperti migrasi model, pengeditan perintah, dan penyesuaian.
Fitur layanan evaluasi AI generatif
Fitur yang menentukan dari layanan evaluasi AI generatif adalah kemampuan untuk menggunakan rubrik adaptif, yaitu kumpulan pengujian lulus atau gagal yang disesuaikan untuk setiap perintah. Rubrik evaluasi mirip dengan pengujian unit dalam pengembangan software dan bertujuan untuk meningkatkan performa model di berbagai tugas.

Layanan evaluasi AI generatif mendukung metode evaluasi umum berikut:
Rubrik adaptif (Direkomendasikan): Menghasilkan kumpulan rubrik lulus atau gagal yang unik untuk setiap perintah dalam set data Anda.
Rubrik statis: Menerapkan kumpulan kriteria penilaian tetap di semua perintah.
Metrik berbasis komputasi: Menggunakan algoritma deterministik seperti
ROUGEatauBLEUjika kebenaran nyata tersedia.Fungsi kustom: Menentukan logika evaluasi Anda sendiri di Python untuk persyaratan khusus.
Pembuatan set data evaluasi
Anda dapat membuat set data evaluasi melalui metode berikut:
Mengupload file yang berisi instance perintah lengkap, atau memberikan template perintah beserta file nilai variabel yang sesuai untuk mengisi perintah yang telah selesai.
Mengambil sampel langsung dari log produksi untuk mengevaluasi penggunaan model Anda di dunia nyata.
Menggunakan pembuatan data sintetis untuk menghasilkan sejumlah besar contoh yang konsisten untuk template perintah apa pun.
Antarmuka yang didukung
Anda dapat menentukan dan menjalankan evaluasi menggunakan antarmuka berikut:
Google Cloud konsol: Antarmuka pengguna web yang menyediakan alur kerja terpandu dan menyeluruh. Kelola set data, jalankan evaluasi, dan pelajari laporan dan visualisasi interaktif secara mendalam. Lihat Melakukan evaluasi menggunakan konsol.
Python SDK: Menjalankan evaluasi secara terprogram dan merender perbandingan model berdampingan langsung di lingkungan Colab atau Jupyter. Lihat Melakukan evaluasi menggunakan Klien GenAI di Agent Platform SDK
Kasus penggunaan
Layanan evaluasi AI generatif memungkinkan Anda melihat performa model pada tugas tertentu dan terhadap kriteria unik Anda, sehingga memberikan insight berharga yang tidak dapat diperoleh dari papan peringkat publik dan tolok ukur umum. Hal ini mendukung tugas pengembangan penting, termasuk:
Migrasi model: Membandingkan versi model untuk memahami perbedaan perilaku dan menyesuaikan perintah serta setelan Anda.
Menemukan model terbaik: Menjalankan perbandingan langsung model Google dan pihak ketiga pada data Anda untuk menetapkan dasar performa dan mengidentifikasi model yang paling sesuai untuk kasus penggunaan Anda.
Peningkatan perintah: Menggunakan hasil evaluasi untuk memandu upaya penyesuaian Anda. Menjalankan kembali evaluasi akan membuat loop masukan yang ketat, sehingga memberikan masukan yang langsung dan terukur pada perubahan Anda.
Penyesuaian model: Mengevaluasi kualitas model yang telah disesuaikan dengan menerapkan kriteria evaluasi yang konsisten pada setiap sesi.
Evaluasi agen: Mengevaluasi performa agen menggunakan metrik khusus agen, seperti pelacakan agen dan kualitas respons.
Alur kerja evaluasi
Untuk menyelesaikan evaluasi, Anda biasanya harus melalui langkah-langkah berikut:
Membuat set data evaluasi: Mengumpulkan set data instance perintah yang mencerminkan kasus penggunaan spesifik Anda. Anda dapat menyertakan jawaban referensi (kebenaran nyata) jika berencana menggunakan metrik berbasis komputasi.
Menentukan metrik evaluasi: Pilih metrik yang ingin Anda gunakan untuk mengukur performa model.
Membuat respons model: Pilih satu atau beberapa model untuk membuat respons untuk set data Anda. Agent Platform SDK mendukung model apa pun yang dapat dipanggil melalui
LiteLLM, sedangkan konsol mendukung model Google Gemini.Menjalankan evaluasi: Menjalankan tugas evaluasi, yang menilai respons setiap model terhadap metrik yang Anda pilih.
Menginterpretasikan hasil: Meninjau skor gabungan dan respons individual untuk menganalisis performa model.
Metrik evaluasi
Berikut adalah konsep inti yang terkait dengan metrik evaluasi:
Rubrik: Kriteria untuk menilai respons model atau aplikasi LLM.
Metrik: Skor yang mengukur output model terhadap rubrik penilaian.
Layanan evaluasi AI generatif menawarkan kategori metrik berikut:
Metrik berbasis rubrik: Menggabungkan LLM ke dalam alur kerja evaluasi untuk menilai kualitas respons model. Evaluasi berbasis rubrik cocok untuk berbagai tugas, terutama kualitas penulisan, keamanan, dan kepatuhan terhadap petunjuk, yang sering kali sulit dievaluasi dengan algoritma deterministik.
Rubrik adaptif (direkomendasikan): Rubrik dibuat secara dinamis untuk setiap perintah, seperti pengujian unit. Respons dievaluasi dengan kumpulan pengujian lulus atau gagal yang unik untuk setiap perintah dalam set data Anda. Rubrik membuat evaluasi tetap relevan dengan tugas yang diminta dan bertujuan untuk memberikan hasil yang objektif, dapat dijelaskan, dan konsisten.
Rubrik adaptif biasanya merupakan cara tercepat untuk memulai evaluasi, sehingga memastikan bahwa setiap evaluasi relevan dengan tugas spesifik yang dievaluasi.
Rubrik statis: Rubrik ditentukan secara eksplisit dan rubrik yang sama berlaku untuk semua perintah. Respons dievaluasi dengan kumpulan evaluator berbasis penilaian numerik yang sama. Satu skor numerik (seperti 1-5) per perintah. Gunakan rubrik statis jika evaluasi diperlukan pada dimensi yang sangat spesifik atau jika rubrik yang sama persis diperlukan di semua perintah.
Metrik berbasis komputasi: Mengevaluasi respons dengan algoritma deterministik, biasanya menggunakan kebenaran nyata. Skor numerik (seperti 0.0-1.0) per perintah. Jika kebenaran nyata tersedia dan dapat dicocokkan dengan metode deterministik.
Metrik fungsi kustom (Agent Platform SDK saja): Menentukan metrik Anda sendiri melalui fungsi Python.
Contoh rubrik adaptif
Proses evaluasi untuk setiap perintah menggunakan sistem dua langkah:
Pembuatan rubrik: Layanan ini pertama-tama menganalisis perintah Anda dan membuat daftar pengujian spesifik dan dapat diverifikasi—rubrik—yang harus dipenuhi oleh respons yang baik.
Validasi rubrik: Setelah model Anda membuat respons, layanan ini menilai respons terhadap setiap rubrik, memberikan putusan
PassatauFailyang jelas dan alasan.
Hasil akhirnya adalah tingkat kelulusan gabungan dan perincian mendetail tentang rubrik yang dilalui model, sehingga memberi Anda insight yang dapat ditindaklanjuti untuk mendiagnosis masalah dan mengukur peningkatan.
Dengan beralih dari skor subjektif tingkat tinggi ke hasil pengujian objektif yang mendetail, Anda dapat mengadopsi siklus pengembangan berbasis evaluasi dan menerapkan praktik terbaik rekayasa software ke dalam proses pembuatan aplikasi AI generatif.
Contoh berikut menunjukkan contoh rubrik adaptif yang dibuat untuk sekumpulan perintah:
Perintah pengguna: Write a four-sentence summary of the provided article about renewable energy, maintaining an optimistic tone.
Untuk perintah ini, langkah pembuatan rubrik dapat menghasilkan rubrik berikut:
Rubrik 1: Respons adalah ringkasan dari artikel yang diberikan.
Rubrik 2: Respons berisi tepat empat kalimat.
Rubrik 3: Respons mempertahankan nada optimis.
Model Anda dapat menghasilkan respons berikut: The article highlights significant growth in solar and wind power. These advancements are making clean energy more affordable. The future looks bright for renewables. However, the report also notes challenges with grid infrastructure.
Selama validasi rubrik, layanan evaluasi AI generatif menilai respons terhadap setiap rubrik:
Rubrik 1: Respons adalah ringkasan dari artikel yang diberikan.
Putusan:
PassAlasan: Respons meringkas poin-poin utama secara akurat.
Rubrik 2: Respons berisi tepat empat kalimat.
Putusan:
PassAlasan: Respons terdiri dari empat kalimat yang berbeda
Rubrik 3: Respons mempertahankan nada optimis.
Putusan:
FailAlasan: Kalimat terakhir memperkenalkan poin negatif, yang mengurangi nada optimis.
Tingkat kelulusan akhir untuk respons ini adalah 66,7%. Untuk membandingkan dua model, Anda dapat mengevaluasi responsnya terhadap kumpulan pengujian yang sama ini dan membandingkan tingkat kelulusan keseluruhannya.
Mulai menggunakan evaluasi
Anda dapat mulai menggunakan evaluasi menggunakan konsol.
Atau, kode berikut menunjukkan cara menyelesaikan evaluasi dengan Klien GenAI di Agent Platform SDK:
from vertexai import Client
from vertexai import types
import pandas as pd
client = Client(project=PROJECT_ID, location=LOCATION)
# Create an evaluation dataset
prompts_df = pd.DataFrame({
"prompt": [
"Write a simple story about a dinosaur",
"Generate a poem about Agent Platform",
],
})
# Get responses from one or multiple models
eval_dataset = client.evals.run_inference(model="gemini-2.5-flash", src=prompts_df)
# Define the evaluation metrics and run the evaluation job
eval_result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[types.RubricMetric.GENERAL_QUALITY]
)
# View the evaluation results
eval_result.show()
Layanan evaluasi AI generatif menawarkan dua antarmuka Agent Platform SDK:
Klien GenAI di Agent Platform SDK (Direkomendasikan) (Pratinjau)
from vertexai import clientKlien GenAI adalah antarmuka yang lebih baru dan direkomendasikan untuk evaluasi, yang dapat diakses melalui class Klien terpadu. Antarmuka ini mendukung semua metode evaluasi dan dirancang untuk alur kerja yang mencakup perbandingan model, visualisasi dalam notebook, dan insight untuk penyesuaian model.
Modul evaluasi di Agent Platform SDK (GA)
from vertexai.evaluation import EvalTaskModul evaluasi adalah antarmuka yang lebih lama, yang dipertahankan untuk kompatibilitas mundur dengan alur kerja yang ada, tetapi tidak lagi dalam pengembangan aktif. Modul ini dapat diakses melalui class
EvalTask. Metode ini mendukung metrik berbasis komputasi dan LLM-as-a-judge standar, tetapi tidak mendukung metode evaluasi yang lebih baru seperti rubrik adaptif.
Region yang didukung
Region berikut didukung untuk layanan evaluasi AI generatif:
Iowa (
us-central1)Northern Virginia (
us-east4)Oregon (
us-west1)Las Vegas, Nevada (
us-west4)Belgia (
europe-west1)Belanda (
europe-west4)Paris, Prancis (
europe-west9)
Notebook yang tersedia
| Link notebook | Deskripsi |
|---|---|
| Memulai: Evaluasi AI Generatif Cepat | Memberikan pengantar tentang layanan evaluasi AI generatif. |
| Mengevaluasi model pihak ketiga dengan layanan evaluasi AI generatif | Menunjukkan cara menggunakan **Agent Platform SDK** untuk mengevaluasi berbagai jenis model pihak ketiga, termasuk model yang diakses menggunakan API (seperti OpenAI, Anthropic), Model as a Service (MaaS) dari Vertex Model Garden, dan endpoint Bring Your Own Model (BYOM). |
| Migrasi model dengan layanan evaluasi AI generatif | Menunjukkan cara menggunakan **Agent Platform SDK** untuk layanan evaluasi AI generatif guna membandingkan dua model pihak pertama (seperti Gemini 2.0 Flash dengan Gemini 2.5 Flash). Notebook ini menyoroti penggunaan metrik berbasis rubrik adaptif yang telah ditentukan sebelumnya dan cara hasil evaluasi dapat memandu pengoptimalan perintah. Fitur utama seperti evaluasi multi-kandidat, visualisasi dalam notebook, dan evaluasi batch asinkron juga dibahas. |
| Mengevaluasi kualitas teks ke gambar dengan layanan evaluasi AI generatif | Menunjukkan cara menggunakan Vertex AI SDK untuk layanan evaluasi AI generatif guna mengevaluasi kualitas gambar yang dihasilkan berdasarkan perintah teks. Notebook ini menunjukkan penggunaan metrik Gecko berbasis rubrik adaptif yang telah ditentukan sebelumnya. |
| Mengevaluasi kualitas teks ke video dengan layanan evaluasi AI generatif | Menunjukkan cara menggunakan **Agent Platform SDK** untuk layanan evaluasi AI generatif guna mengevaluasi kualitas video yang dihasilkan berdasarkan perintah teks. Notebook ini menunjukkan penggunaan metrik Gecko berbasis rubrik adaptif yang telah ditentukan sebelumnya. |