Melihat dan menafsirkan hasil evaluasi

Halaman ini menjelaskan cara melihat dan menafsirkan hasil evaluasi model setelah menjalankan evaluasi model menggunakan layanan evaluasi AI generatif.

Melihat hasil evaluasi

Layanan evaluasi AI generatif memungkinkan Anda memvisualisasikan hasil evaluasi langsung dalam lingkungan pengembangan, seperti notebook Colab atau Jupyter. Metode .show(), yang tersedia di objek EvaluationDataset dan EvaluationResult, merender laporan HTML interaktif untuk analisis.

Memvisualisasikan rubrik yang dihasilkan dalam set data

Jika Anda menjalankan client.evals.generate_rubrics(), objek EvaluationDataset yang dihasilkan akan berisi kolom rubric_groups. Anda dapat memvisualisasikan set data ini untuk memeriksa rubrik yang dihasilkan untuk setiap perintah sebelum menjalankan evaluasi.

# Example: Generate rubrics using a predefined method
data_with_rubrics = client.evals.generate_rubrics(
    src=prompts_df,
    rubric_group_name="general_quality_rubrics",
    predefined_spec_name=types.RubricMetric.GENERAL_QUALITY,
)

# Display the dataset with the generated rubrics
data_with_rubrics.show()

Tabel interaktif ditampilkan dengan setiap perintah dan rubrik terkait yang dihasilkan untuknya, yang bertingkat dalam kolom rubric_groups:

Memvisualisasikan rubrik yang dibuat dalam set data Anda

Memvisualisasikan hasil inferensi

Setelah membuat respons dengan run_inference(), Anda dapat memanggil .show() pada objek EvaluationDataset yang dihasilkan untuk memeriksa output model bersama dengan perintah dan referensi asli Anda. Hal ini berguna untuk pemeriksaan kualitas cepat sebelum menjalankan evaluasi lengkap:

# First, run inference to get an EvaluationDataset
gpt_response = client.evals.run_inference(
    model='gpt-4o',
    src=prompt_df
)

# Now, visualize the inference results
gpt_response.show()

Tabel ditampilkan dengan setiap perintah, referensi yang sesuai (jika disediakan), dan respons yang baru dibuat:

Memvisualisasikan hasil inferensi

Untuk inferensi agen, input sesi (jika disediakan) dan peristiwa perantara (jika dibuat) juga ditampilkan.

Memvisualisasikan laporan evaluasi

Saat Anda memanggil .show() pada objek EvaluationResult atau EvaluationRun, laporan akan menampilkan bagian berikut:

  • Metrik ringkasan: Tampilan gabungan semua metrik, yang menampilkan skor rata-rata dan standar deviasi di seluruh set data.

  • Hasil mendetail: Perincian kasus per kasus, yang memungkinkan Anda memeriksa perintah, referensi, respons kandidat, serta skor dan penjelasan spesifik untuk setiap metrik. Untuk evaluasi agen, hasil mendetail juga mencakup pelacakan yang menunjukkan interaksi agen. Untuk mengetahui informasi selengkapnya tentang pelacakan, lihat Melacak agen.

  • Informasi agen (hanya untuk evaluasi agen): Informasi yang menjelaskan agen yang dievaluasi, seperti petunjuk developer, deskripsi agen, dan definisi alat.

Laporan evaluasi kandidat tunggal

Untuk evaluasi model tunggal, laporan akan memerinci skor untuk setiap metrik:

# First, run an evaluation on a single candidate
eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        types.RubricMetric.TEXT_QUALITY,
        types.RubricMetric.FLUENCY,
        types.Metric(name='rouge_1'),
    ]
)

# Visualize the detailed evaluation report
eval_result.show()

Laporan evaluasi

Untuk semua laporan, Anda dapat memperluas bagian Lihat JSON Mentah untuk memeriksa data dalam format terstruktur apa pun seperti Gemini, atau format Chat Completion API OpenAI.

Laporan evaluasi berbasis rubrik adaptif dengan putusan

Saat menggunakan metrik berbasis rubrik adaptif, hasilnya akan mencakup putusan lulus atau gagal dan penalaran untuk setiap rubrik yang diterapkan pada respons.

eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[types.PrebuiltMetric.GENERAL_QUALITY],
)

eval_result.show()

Visualisasi menampilkan setiap rubrik, putusannya (Lulus atau Gagal), dan alasan, yang bertingkat dalam hasil metrik untuk setiap kasus. Untuk setiap putusan rubrik tertentu, Anda dapat memperluas kartu untuk menampilkan payload JSON mentah. Payload JSON ini mencakup detail tambahan seperti deskripsi rubrik lengkap, jenis rubrik, tingkat kepentingan, dan alasan mendetail di balik putusan.

Laporan evaluasi berbasis rubrik adaptif dengan putusan

Laporan perbandingan multi-kandidat

Format laporan akan disesuaikan bergantung pada apakah Anda mengevaluasi satu kandidat atau membandingkan beberapa kandidat. Untuk evaluasi multi-kandidat, laporan akan memberikan tampilan berdampingan dan menyertakan perhitungan tingkat kemenangan atau seri dalam tabel ringkasan.

# Example of comparing two models
inference_result_1 = client.evals.run_inference(
    model="gemini-2.0-flash",
    src=prompts_df,
)
inference_result_2 = client.evals.run_inference(
   model="gemini-2.5-flash",
    src=prompts_df,
)

comparison_result = client.evals.evaluate(
    dataset=[inference_result_1, inference_result_2],
    metrics=[types.PrebuiltMetric.TEXT_QUALITY]
)

comparison_result.show()

Laporan perbandingan multikandidat