代管評量表指標的詳細資料
透過集合功能整理內容
你可以依據偏好儲存及分類內容。
本頁面提供 Gen AI Evaluation Service 提供的全代管評量表指標清單,您可以在 Vertex AI SDK 的 GenAI Client 中使用這些指標。
如要進一步瞭解以測試為導向的評估方式,請參閱「定義評估指標」。
總覽
Gen AI Evaluation Service 提供一系列以評量表為準的受管理指標,適用於測試導向的評估架構:
每個代管的評量表指標都有版本編號。指標預設會使用最新版本,但您也可以視需要固定使用特定版本:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
回溯相容性
對於以指標提示範本形式提供的指標,您仍可透過相同方法,在 Vertex AI SDK 的 GenAI 用戶端存取逐點指標。Vertex AI SDK 中的 GenAI 用戶端不支援成對指標,但請參閱「執行評估」,比較同一項評估中的兩個模型。
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
受管理指標的詳細資料
本節列出代管指標,並提供詳細資料,例如指標類型、必要輸入內容和預期輸出內容:
一般品質
| 最新版本 |
general_quality_v1 |
| 類型 |
自動調整式評量表 |
| 說明 |
這項指標會根據調整型評分量表,全面評估模型回覆的整體品質。系統會根據提示內容自動生成並評估各種條件。建議您從這裡開始進行大多數評估。 |
| 如何在 SDK 中存取 |
types.RubricMetric.GENERAL_QUALITY |
| 輸入內容 |
prompt
response
- (選用)
rubric_groups
如果已生成評分量表,可以直接提供給系統進行評估。
|
| 輸出內容 |
score
rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回覆通過率。
|
| LLM 呼叫次數 |
6 次呼叫 Gemini 2.5 Flash |
內容品質
| 最新版本 |
text_quality_v1 |
| 類型 |
自動調整式評量表 |
| 說明 |
這項指標會根據調整型評分量表,專門評估回覆的語言品質。並評估流暢度、連貫性和文法等層面。 |
| 如何在 SDK 中存取 |
types.RubricMetric.TEXT_QUALITY |
| 輸入內容 |
prompt
response
- (選用)
rubric_groups
如果已生成評分量表,可以直接提供評估。
|
| 輸出內容 |
score
rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回覆通過率。
|
| LLM 呼叫次數 |
6 次呼叫 Gemini 2.5 Flash |
指令遵循情形
| 最新版本 |
instruction_following_v1 |
| 類型 |
自動調整式評量表 |
| 說明 |
這項指標會評估回覆內容是否符合提示中的特定限制和指示。 |
| 如何在 SDK 中存取 |
types.RubricMetric.INSTRUCTION_FOLLOWING |
| 輸入內容 |
prompt
response
- (選用)
rubric_groups
如果已生成評分量表,可以直接提供給 AI 進行評估。
|
| 輸出內容 |
score (及格率)
rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回覆通過率。
|
| LLM 呼叫次數 |
6 次呼叫 Gemini 2.5 Flash |
連結
| 最新版本 |
grounding_v1 |
| 類型 |
靜態評分量表 |
| 說明 |
這項指標會根據分數檢查事實和一致性。這項功能會驗證模型的回覆是否以情境為依據。 |
| 如何在 SDK 中存取 |
types.RubricMetric.GROUNDING |
| 輸入內容 |
|
| 輸出內容 |
分數範圍為 0-1,代表標示為 supported 或 no_rad (不需事實出處,例如問候語、問題或免責事項) 的聲明在輸入提示中的比率。
說明包含句子、標籤、推理和摘錄自內容的片段。
|
| LLM 呼叫次數 |
1 次呼叫 Gemini 2.5 Flash |
安全性
| 最新版本 |
safety_v1 |
| 類型 |
靜態評分量表 |
| 說明 |
這項指標會根據分數評估模型回覆是否違反下列一或多項政策:
- 個人識別資訊和受眾特徵資料
- 仇恨言論
- 危險內容
- 騷擾
- 情色露骨內容
|
| 如何在 SDK 中存取 |
types.RubricMetric.SAFETY |
| 輸入內容 |
|
| 輸出內容 |
分數:0表示不安全,1表示安全。
說明欄位會列出違反的政策。
|
| LLM 呼叫次數 |
10 次呼叫 Gemini 2.5 Flash |
多輪對話一般品質
| 最新版本 |
multi_turn_general_quality_v1 |
| 類型 |
自動調整式評量表 |
| 說明 |
這項調整型評分量表指標會評估模型在多輪對話情境中的整體回覆品質。 |
| 如何在 SDK 中存取 |
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
| 輸入內容 |
prompt 進行多輪對話
response
- (選用)
rubric_groups
如果已生成評分量表,可以直接提供評估。
|
| 輸出內容 |
分數代表根據評量表計算出的回覆通過率。
|
| LLM 呼叫次數 |
6 次呼叫 Gemini 2.5 Flash |
多輪對話文字品質
| 最新版本 |
multi_turn_text_quality_v1 |
| 類型 |
自動調整式評量表 |
| 說明 |
這項指標會根據多輪對話情境,評估模型回覆的文字品質。 |
| 如何在 SDK 中存取 |
types.RubricMetric.TEXT_QUALITY |
| 輸入內容 |
prompt 進行多輪對話
response
- (選用)
rubric_groups
如果已生成評分量表,可以直接提供評估。
|
| 輸出內容 |
score
rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回覆通過率。
|
| LLM 呼叫次數 |
6 次呼叫 Gemini 2.5 Flash |
服務專員最終回覆相符
| 最新版本 |
final_response_match_v2 |
| 類型 |
靜態評分量表 |
| 說明 |
這項指標會將 AI 代理的最終答案與提供的參考答案 (實際資料) 進行比較,藉此評估最終答案的品質。 |
| 如何在 SDK 中存取 |
types.RubricMetric.FINAL_RESPONSE_MATCH |
| 輸入內容 |
prompt
response
reference
|
| 輸出內容 |
分數
- 1:與參照相符的有效回應。
- 0:無效的回覆,與參考資料不符。
說明
|
| LLM 呼叫次數 |
5 次呼叫 Gemini 2.5 Flash |
服務專員最終回覆參考資料
| 最新版本 |
final_response_reference_free_v1 |
| 類型 |
自動調整式評量表 |
| 說明 |
調整型評分量表指標:評估 AI 代理程式最終答案的品質,無須參考答案。
這項指標不支援自動產生的評量表,因此您必須提供評量表。 |
| 如何在 SDK 中存取 |
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
| 輸入內容 |
prompt
response
rubric_groups
|
| 輸出內容 |
score
rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回覆通過率。
|
| LLM 呼叫次數 |
5 次呼叫 Gemini 2.5 Flash |
代理程式最終回覆品質
| 最新版本 |
final_response_quality_v1 |
| 類型 |
自動調整式評量表 |
| 說明 |
這項指標會根據評分量表全面評估代理程式回覆的整體品質。這項功能會根據代理程式設定 (開發人員指令和代理程式可用工具的聲明) 和使用者提示,自動產生各種條件,然後根據中繼事件和代理程式最終回覆中的工具使用情況,評估產生的條件。 |
| 如何在 SDK 中存取 |
types.RubricMetric.FINAL_RESPONSE_QUALITY |
| 輸入內容 |
prompt
response
developer_instruction
tool_declarations (可以是空白清單)
intermediate_events (包含函式呼叫和回應,可以是空白清單)
- (選用)
rubric_groups (如果已產生評分量表,可以直接提供給系統進行評估)
|
| 輸出內容 |
score
rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回覆通過率。
|
| LLM 呼叫次數 |
5 次呼叫 Gemini 2.5 Flash,1 次呼叫 Gemini 2.5 Pro |
服務專員幻覺
| 最新版本 |
hallucination_v1 |
| 類型 |
靜態評分量表 |
| 說明 |
這項指標會將文字回覆內容細分成多個原子主張,並檢查事實正確性和一致性。根據中間事件中的工具使用情況,驗證每項聲明是否屬實。您也可以將 evaluate_intermediate_nl_responses 旗標設為 true,評估任何中間文字回應。
|
| 如何在 SDK 中存取 |
types.RubricMetric.HALLUCINATION |
| 輸入內容 |
response
developer_instruction
tool_declarations (可以是空白清單)
intermediate_events (包含函式呼叫和回應,可以是空白清單)
evaluate_intermediate_nl_responses (預設為 False)
|
| 輸出內容 |
score
explanation 和對應的 verdicts
分數範圍為 0 到 1,代表相對於輸入提示,標示為 supported 或 no_rad (不需事實歸因,例如問候語、問題或免責事項) 的聲明比率。說明內容會以結構化方式列出聲明、標籤、理由和摘錄內容,以佐證背景資訊。
|
| LLM 呼叫次數 |
2 次呼叫 Gemini 2.5 Flash |
| 最新版本 |
tool_use_quality_v1 |
| 類型 |
自動調整式評量表 |
| 說明 |
這項指標會評估模型是否選用適當工具、正確使用參數,以及遵循指定的操作順序。 |
| 如何在 SDK 中存取 |
types.RubricMetric.TOOL_USE_QUALITY |
| 輸入內容 |
prompt
developer_instruction
tool_declarations (可以是空白清單)
intermediate_events (包含函式呼叫和回應,可以是空白清單)
- (選用)
rubric_groups (如果已產生評分量表,可以直接提供給系統進行評估)
|
| 輸出內容 |
score
rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回覆通過率。
|
| LLM 呼叫次數 |
5 次呼叫 Gemini 2.5 Flash,以及 1 次呼叫 Gemini 2.5 Pro |
Gecko 文字轉圖片品質
| 最新版本 |
gecko_text2image_v1 |
| 類型 |
自動調整式評量表 |
| 說明 |
Gecko 文字轉圖像指標是一種適應性評分量表方法,可根據相應的文字提示評估生成圖片的品質。這項功能會先根據提示生成一組問題,做為詳細的提示專屬評分標準。接著,模型會根據生成的圖片回答這些問題。 |
| 如何在 SDK 中存取 |
types.RubricMetric.GECKO_TEXT2IMAGE |
| 輸入內容 |
prompt
response - 應為圖片 MIME 類型的檔案資料
|
| 輸出內容 |
score
rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回覆通過率。
|
| LLM 呼叫次數 |
2 次呼叫 Gemini 2.5 Flash |
Gecko 文字轉影片品質
| 最新版本 |
gecko_text2video_v1 |
| 類型 |
自動調整式評量表 |
| 說明 |
Gecko 文字轉影片指標是一種適應性評分量表方法,可評估生成影片相對於對應文字提示的品質。這項功能會先根據提示生成一組問題,做為詳細的提示專屬評分標準。接著,模型會根據生成的影片回答這些問題。 |
| 如何在 SDK 中存取 |
types.RubricMetric.GECKO_TEXT2VIDEO |
| 輸入內容 |
prompt
response - 應為影片 MIME 類型的檔案資料
|
| 輸出內容 |
score
rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回覆通過率。
|
| LLM 呼叫次數 |
2 次呼叫 Gemini 2.5 Flash |
後續步驟
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2025-12-04 (世界標準時間)。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["難以理解","hardToUnderstand","thumb-down"],["資訊或程式碼範例有誤","incorrectInformationOrSampleCode","thumb-down"],["缺少我需要的資訊/範例","missingTheInformationSamplesINeed","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["上次更新時間:2025-12-04 (世界標準時間)。"],[],[]]