代管評量表指標的詳細資料

本頁面提供 Gen AI Evaluation Service 提供的全代管評量表指標完整清單,您可以在 Vertex AI SDK 的 GenAI 用戶端中使用這些指標。

如要進一步瞭解以測試為導向的評估方式,請參閱「定義評估指標」。

總覽

Gen AI Evaluation Service 提供一系列以手動評量表為準的指標,適用於測試導向的評估架構:

  • 對於採用自適性評分量表的指標,大多數指標都包含每個提示詞的評分量表生成工作流程和評分量表驗證。如有需要,您可以分別執行這些指標。詳情請參閱「執行評估」。

  • 如果指標使用靜態評量表,系統就不會產生每個提示的評量表。如要進一步瞭解預期輸出內容,請參閱「指標詳細資料」。

每個以評量表為準的受管理指標都有版本號碼。指標預設會使用最新版本,但您可以視需要固定使用特定版本:

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

回溯相容性

對於以指標提示範本形式提供的指標,您仍可透過相同方法,在 Vertex AI SDK 的 GenAI 用戶端存取逐點指標。Vertex AI SDK 中的 GenAI 用戶端不支援成對指標,但請參閱「執行評估」,比較同一項評估中的兩個模型。

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

受管理指標詳細資料

本節列出代管指標,並提供類型、必要輸入內容和預期輸出內容等詳細資料:

一般品質

最新版本 general_quality_v1
類型 自動調整評分量表
說明 這項全方位的自動調整評分量表指標會評估模型回覆內容的整體品質,這項功能會根據提示內容自動生成並評估多種條件。這是大多數評估作業的建議起點。
如何在 SDK 中存取 types.RubricMetric.GENERAL_QUALITY
輸入內容
  • prompt
  • response
  • (選用) rubric_groups
如果已生成評分量表,可以直接提供給 AI 進行評估。
輸出內容
  • score
  • rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 6 次呼叫 Gemini 2.5 Flash

內容品質

最新版本 text_quality_v1
類型 自動調整評分量表
說明 這項適用於特定目標的自動調整評分量表指標,專門評估回覆內容的語言品質,評估流暢度、連貫性和文法等。
如何在 SDK 中存取 types.RubricMetric.TEXT_QUALITY
輸入內容
  • prompt
  • response
  • (選用) rubric_groups
如果已生成評分量表,可以直接提供評估。
輸出內容
  • score
  • rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 6 次呼叫 Gemini 2.5 Flash

指令遵循情形

最新版本 instruction_following_v1
類型 自動調整評分量表
說明 這項適用於特定目標的自動調整評分量表指標會評估回覆內容是否符合提示詞中指定的限制和指令。
如何在 SDK 中存取 types.RubricMetric.INSTRUCTION_FOLLOWING
輸入內容
  • prompt
  • response
  • (選用) rubric_groups
如果已生成評分量表,可以直接提供評估。
輸出內容
  • score (及格率)
  • rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 6 次呼叫 Gemini 2.5 Flash

建立基準

最新版本 grounding_v1
類型 靜態評分量表
說明 這項分數型指標會檢查內容是否符合事實且一致,確認模型回覆是否以脈絡資料為依據。
如何在 SDK 中存取 types.RubricMetric.GROUNDING
輸入內容
  • prompt
  • response
  • context
輸出內容
  • score
  • explanation
分數範圍為 0-1。如果任何句子標示為 unsupportedcontradictory,分數就是 0。否則,分數代表標示為 supportedno_rad 的句子與句子總數的比率。

explanation 欄位是 JSON 字串,內含每個句子物件的清單,架構如下:
[
  {
    "sentence": "string",
    "label": "supported | unsupported | contradictory | no_rad",
    "rationale": "string",
    "excerpt": "string or null"
  }
]
每個物件都包含下列欄位:
  • sentence:要從回覆中分析的句子。
  • label:句子分類,可為下列其中之一:
    • supported:句子由情境所蘊含。
    • unsupported:句子與情境無關。
    • contradictory:句子遭情境扭曲。
    • no_rad:這類句子不需要註明出處 (例如意見、問候語、問題或免責事項)。
  • rationale:標籤指派的簡短說明。
  • excerpt (適用於 supportedcontradictory 標籤):與句子相關的內容摘錄,可佐證或反駁該句子。
LLM 呼叫次數 1 次呼叫 Gemini 2.5 Flash

安全性

最新版本 safety_v1
類型 靜態評分量表
說明 這項指標會根據分數評估模型回覆是否違反下列一或多項政策:
  • 個人識別資訊和受眾特徵資料
  • 仇恨言論
  • 危險內容
  • 騷擾
  • 情色露骨內容
如何在 SDK 中存取 types.RubricMetric.SAFETY
輸入內容
  • prompt
  • response
輸出內容
  • score
  • explanation
就分數而言,0 不安全,1 則安全。
說明欄位會列出違反的政策。
LLM 呼叫次數 10 次呼叫 Gemini 2.5 Flash

多輪對話一般品質

最新版本 multi_turn_general_quality_v1
類型 自動調整評分量表
說明 這項自動調整評分量表指標會評估模型在多輪對話中回覆內容的整體品質,
如何在 SDK 中存取 types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
輸入內容
  • prompt 進行多輪對話
  • response
  • (選用) rubric_groups
如果已生成評分量表,可以直接提供評估。
輸出內容
  • score
  • 評分標準和對應的判決
分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 6 次呼叫 Gemini 2.5 Flash

多輪對話文字品質

最新版本 multi_turn_text_quality_v1
類型 自動調整評分量表
說明 這項自動調整評分量表指標會評估模型在多輪對話情境中,回覆內容的文字品質。
如何在 SDK 中存取 types.RubricMetric.TEXT_QUALITY
輸入內容
  • prompt 進行多輪對話
  • response
  • (選用) rubric_groups
如果已生成評分量表,可以直接提供評估。
輸出內容
  • score
  • rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 6 次呼叫 Gemini 2.5 Flash

代理最終回覆相符

最新版本 final_response_match_v2
類型 靜態評分量表
說明 這項指標會比較 AI 代理的最終答案與提供的參考答案 (基準真相),評估最終答案的品質。
如何在 SDK 中存取 types.RubricMetric.FINAL_RESPONSE_MATCH
輸入內容
  • prompt
  • response
  • reference
輸出內容 分數
  • 1:與參考資料相符的有效回應。
  • 0:無效的回覆,與參考資料不符。
說明
LLM 呼叫次數 5 次呼叫 Gemini 2.5 Flash

代理最終回覆參考內容 (不含費用)

最新版本 final_response_reference_free_v1
類型 自動調整評分量表
說明 這項自動調整評分量表指標會評估 AI 代理最終答案的品質,不需要參考答案。
這項指標不支援自動產生的評量表,因此您必須提供評量表。
如何在 SDK 中存取 types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
輸入內容
  • prompt
  • response
  • rubric_groups
輸出內容
  • score
  • rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 5 次呼叫 Gemini 2.5 Flash

代理最終回覆品質

最新版本 final_response_quality_v1
類型 自動調整評分量表
說明 這項全方位的自動調整評分量表指標會評估代理回覆內容的整體品質,做法是依據代理設定 (開發人員指令,以及有關代理可用工具的宣告) 和使用者提示詞,自動產生多種條件,然後按照中繼事件和代理最終回覆中的工具使用情況,評估產生的條件。
如何在 SDK 中存取 types.RubricMetric.FINAL_RESPONSE_QUALITY
輸入內容
  • prompt
  • response
  • developer_instruction
  • tool_declarations (可以是空白清單)
  • intermediate_events (包含函式呼叫和回應,可以是空白清單)
  • (選用) rubric_groups (如果已產生評分量表,可以直接提供評估)
輸出內容
  • score
  • rubrics 和對應的 verdicts

分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 5 次呼叫 Gemini 2.5 Flash,1 次呼叫 Gemini 2.5 Pro

代理程式幻覺

最新版本 hallucination_v1
類型 靜態評分量表
說明 這項分數型指標會檢查文字回覆內容是否符合事實且一致,做法是將回覆內容拆分為多個不可分割的部分,然後依據中繼事件中的工具使用情況,驗證各部分是否有憑有據。您也可以將 evaluate_intermediate_nl_responses 旗標設為 true,運用這項指標來評估中繼文字回覆。
如何在 SDK 中存取 types.RubricMetric.HALLUCINATION
輸入內容
  • response
  • developer_instruction
  • tool_declarations (可以是空白清單)
  • intermediate_events (包含函式呼叫和回應,可以是空白清單)
  • evaluate_intermediate_nl_responses (預設值為 False)
輸出內容
  • score
  • explanation 和對應的 verdicts
分數範圍為 0-1,代表標示為 supportedno_rad 的句子占句子總數的比例。

explanation 欄位是 JSON 字串,內含每個事件的物件清單,架構如下:
[
  {
    "response": "string",
    "score": "double",
    "explanation": [
      {
        "sentence": "string",
        "label": "supported | unsupported | contradictory | disputed | no_rad",
        "rationale": "string",
        "supporting_excerpt": "string or null",
        "contradicting_excerpt": "string or null"
      }
    ]
  }
]
每個 explanation 項目都包含每個區隔句子的物件,以及下列欄位:
  • sentence:在句子區隔步驟中擷取的確切句子。
  • label:句子分類,可為下列其中之一:
    • supported:句子由情境所蘊含。
    • unsupported:句子與情境無關。
    • contradictory:句子遭情境扭曲。
    • disputed:內容包含佐證和矛盾的資訊。
    • no_rad:這類句子不需要註明出處 (例如意見、問候語、問題或免責事項)。
  • rationale:標籤指派的簡短說明。
  • supporting_excerpt (適用於 supporteddisputed 標籤):支援該句子的情境相關摘錄。
  • contradicting_excerpt (適用於 contradictorydisputed 標籤):與句子矛盾的內容相關摘錄。
LLM 呼叫次數 2 次呼叫 Gemini 2.5 Flash

代理工具使用品質

最新版本 tool_use_quality_v1
類型 自動調整評分量表
說明 這項適用於特定目標的自動調整評分量表指標會評估所選工具是否適當、參數使用方式是否正確,以及是否符合指定的作業順序。
如何在 SDK 中存取 types.RubricMetric.TOOL_USE_QUALITY
輸入內容
  • prompt
  • developer_instruction
  • tool_declarations (可以是空白清單)
  • intermediate_events (包含函式呼叫和回應,可以是空白清單)
  • (選用) rubric_groups (如果已產生評分量表,可以直接提供評估)
輸出內容
  • score
  • rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 5 次呼叫 Gemini 2.5 Flash,1 次呼叫 Gemini 2.5 Pro

代理多輪對話工作成效

最新版本 multi_turn_task_success_v1
類型 自動調整評分量表
說明 這項自動調整評分量表指標會評估代理是否在整個多輪對話中,順利達成使用者目標。這項評估著重於代理程式回覆中可觀察到的結果和確認內容,而非特定工具呼叫或推理步驟等中間程序。

這項指標的運作方式分為三個步驟:
  1. 意圖擷取:從對話中找出使用者目標和意圖。
  2. 生成評分量表:根據擷取的意圖、代理指令和工具定義建立評量標準。
  3. 評分量表驗證:根據生成的評分量表,驗證代理的整體回覆內容。
如何在 SDK 中存取 types.RubricMetric.MULTI_TURN_TASK_SUCCESS
輸入內容
  • agent_eval_data (多輪對話記錄,包括模型輸入內容、回覆和工具呼叫)
輸出內容
  • score
  • rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 2 次呼叫 Gemini 3.1 Pro,以及 5 次呼叫 Gemini 3 Flash

代理多輪對話工具使用品質

最新版本 multi_turn_tool_use_quality_v1
類型 自動調整評分量表
說明 這項自動調整評分量表指標會評估代理在整個多輪對話中,工具呼叫的技術和語意正確性。這項指標會驗證代理是否選取正確工具、正確填入引數,以及是否遵守各使用者目標的工具結構定義。

這項指標的運作方式分為三個步驟:
  1. 意圖擷取:從對話中找出使用者目標和意圖。
  2. 生成評分量表:將每個意圖對應至預期的工具選取、引數正確性和結構定義相容性準則。
  3. 評量表驗證:根據產生的評量表,驗證代理實際呼叫工具的情況。
如何在 SDK 中存取 types.RubricMetric.MULTI_TURN_TOOL_USE_QUALITY
輸入內容
  • agent_eval_data (多輪對話記錄,包括模型輸入內容、回覆和工具呼叫)
輸出內容
  • score
  • rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 2 次呼叫 Gemini 3.1 Pro,以及 5 次呼叫 Gemini 3 Flash

代理程式多輪對話軌跡品質

最新版本 multi_turn_trajectory_quality_v1
類型 自動調整評分量表
說明 這項自動調整評分量表指標會評估代理在整個多輪對話中,逐步執行軌跡的品質,這項功能著重於代理路徑的邏輯結構和技術有效性,而不只是最終回覆。

這項指標的運作方式分為三個步驟:
  1. 意圖擷取:從對話中找出使用者目標和意圖。
  2. 評分量表生成:根據三個維度生成評量標準:因果效力 (工具路由、狀態追蹤和資料傳遞的正確順序)、效率 (盡量減少不必要的步驟) 和適應性穩健程度 (處理極端情況和錯誤)。
  3. 評量標準驗證:根據產生的評量標準,驗證代理程式的實際執行路徑。
如何在 SDK 中存取 types.RubricMetric.MULTI_TURN_TRAJECTORY_QUALITY
輸入內容
  • agent_eval_data (多輪對話記錄,包括模型輸入內容、回覆和工具呼叫)
輸出內容
  • score
  • rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 2 次呼叫 Gemini 3.1 Pro,以及 5 次呼叫 Gemini 3 Flash

Gecko 文字轉圖像品質

最新版本 gecko_text2image_v1
類型 自動調整評分量表
說明 Gecko 文字轉圖像指標是一種適應性評量方法,可根據評量表評估生成圖像的品質,並與對應的文字提示詞比較。這項指標會先根據提示詞生成一組問題,做為詳細的提示詞專屬評量表,然後模型會根據生成的圖像回答這些問題。
如何在 SDK 中存取 types.RubricMetric.GECKO_TEXT2IMAGE
輸入內容
  • prompt
  • response - 應為圖片 MIME 類型的檔案資料
輸出內容
  • score
  • rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 2 次呼叫 Gemini 2.5 Flash

Gecko 文字轉影片品質

最新版本 gecko_text2video_v1
類型 自動調整評分量表
說明 Gecko 文字轉影片指標是一種適應性評量方法,可根據相應的文字提示詞,評估生成影片的品質。這項指標會先根據提示詞生成一組問題,做為詳細的提示詞專屬評量標準,然後模型會根據生成的影片回答這些問題。
如何在 SDK 中存取 types.RubricMetric.GECKO_TEXT2VIDEO
輸入內容
  • prompt
  • response - 應為影片 MIME 類型的檔案資料
輸出內容
  • score
  • rubrics 和對應的 verdicts
分數代表根據評分標準計算出的回應及格率。
LLM 呼叫次數 2 次呼叫 Gemini 2.5 Flash

後續步驟