本頁說明如何使用 Gen AI Evaluation Service 執行模型評估後,查看及解讀模型評估結果。
查看評估結果
您可以在開發環境 (例如 Colab 或 Jupyter 筆記本) 中,直接查看評估結果。.show() 方法適用於 EvaluationDataset 和 EvaluationResult 物件,可轉譯用於分析的互動式 HTML 報表。
在資料集中以視覺化方式呈現產生的評量表
如果您執行 client.evals.generate_rubrics(),產生的 EvaluationDataset 物件會包含 rubric_groups 資料欄。您可以將這個資料集視覺化,在執行評估前檢查每個提示產生的評量表。
# Example: Generate rubrics using a predefined method
data_with_rubrics = client.evals.generate_rubrics(
src=prompts_df,
rubric_group_name="general_quality_rubrics",
predefined_spec_name=types.RubricMetric.GENERAL_QUALITY,
)
# Display the dataset with the generated rubrics
data_with_rubrics.show()
互動式表格會顯示每個提示和相關評量表,並巢狀內嵌於 rubric_groups 欄中:

以圖表呈現推論結果
使用 run_inference() 生成回覆後,您可以對產生的 EvaluationDataset 物件呼叫 .show(),檢查模型輸出內容以及原始提示和參照。這項功能有助於在執行完整評估前,快速檢查品質:
# First, run inference to get an EvaluationDataset
gpt_response = client.evals.run_inference(
model='gpt-4o',
src=prompt_df
)
# Now, visualize the inference results
gpt_response.show()
表格會顯示每個提示、對應的參照 (如有) 和新生成的回覆:

如果是代理程式推論,系統也會顯示工作階段輸入內容 (如有提供) 和中繼事件 (如有產生)。
評估報告的視覺化呈現
在 EvaluationResult 或 EvaluationRun 物件上呼叫 .show() 時,報表會顯示下列部分:
摘要指標:所有指標的匯總檢視畫面,顯示整個資料集的平均分數和標準差。
詳細結果:逐一列出結果,方便您檢查提示、參考資料、候選答案,以及每個指標的具體分數和說明。如果是代理程式評估,詳細結果也會包含顯示代理程式互動的追蹤記錄。如要進一步瞭解追蹤記錄,請參閱「追蹤代理程式」。
代理程式資訊 (僅適用於代理程式評估):描述所評估代理程式的資訊,例如開發人員指令、代理程式說明和工具定義。
單一候選人評估報告
如果是單一模型評估,報告會詳細列出各項指標的分數:
# First, run an evaluation on a single candidate
eval_result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[
types.RubricMetric.TEXT_QUALITY,
types.RubricMetric.FLUENCY,
types.Metric(name='rouge_1'),
]
)
# Visualize the detailed evaluation report
eval_result.show()

在所有報表中,您都可以展開「查看原始 JSON」部分,檢查任何結構化格式的資料,例如 Gemini 或 OpenAI Chat Completion API 格式。
根據評量表自動調整的評估報告,內含評估結果
使用以評分量表為基礎的調整型指標時,結果會包含套用至回覆的每個評分量表的通過或失敗判定結果和原因。
eval_result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[types.PrebuiltMetric.GENERAL_QUALITY],
)
eval_result.show()
圖表會顯示每個評量表、其結果 (通過或未通過),以及每個案例的指標結果中巢狀結構的推理。您可以展開每張資訊卡,查看各項評量標準判斷的原始 JSON 酬載內容。這個 JSON 酬載包含其他詳細資料,例如完整評量表說明、評量表類型、重要性,以及判決背後的詳細推理過程。

多位候選人比較報表
報表格式會根據您評估單一候選人或比較多位候選人而有所不同。如果是多位候選人的評估,報表會提供並列檢視畫面,並在摘要表格中列出勝率或平手率計算結果。
# Example of comparing two models
inference_result_1 = client.evals.run_inference(
model="gemini-2.0-flash",
src=prompts_df,
)
inference_result_2 = client.evals.run_inference(
model="gemini-2.5-flash",
src=prompts_df,
)
comparison_result = client.evals.evaluate(
dataset=[inference_result_1, inference_result_2],
metrics=[types.PrebuiltMetric.TEXT_QUALITY]
)
comparison_result.show()
