基于评分准则的受管指标的详细信息

本页面列出了 Gen AI Evaluation Service 提供的基于评分准则的受管指标的完整列表，您可以在 Vertex AI SDK 中的 GenAI 客户端中使用这些指标。

如需详细了解测试驱动型评估，请参阅定义评估指标。

概览

Gen AI Evaluation Service 为测试驱动型评估框架提供了一系列基于评分准则的受管指标：

对于采用自适应评分准则的指标，大多数指标都包含针对每个提示的评分准则生成和评分准则验证工作流。如有需要，您可以单独运行这些工作流。如需了解详情，请参阅运行评估。
对于具有静态评分准则的指标，系统不会生成针对每个提示的评分准则。如需详细了解预期输出，请参阅指标详情。

每个基于评分准则的受管指标都有一个版本控制编号。默认情况下，该指标会使用最新版本，但您可以根据需要固定到特定版本：

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

向后兼容性

对于以指标提示模板形式提供的指标，您仍然可以通过 Vertex AI SDK 中的 GenAI 客户端以相同的方式访问逐点指标。Vertex AI SDK 中的 GenAI 客户端不支持成对指标，但您可以参阅运行评估，在同一评估中比较两个模型。

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

受管指标详情

本部分列出了受管指标，并提供了其详细信息，例如指标类型、必需的输入和预期输出：

常规质量
文本质量
指令遵从
标准答案关联
安全
多轮对话总体质量
多轮文本质量
智能体最终回答匹配
智能体最终回答参考（免费）
代理最终回答质量
代理幻觉
代理工具使用质量
Gecko 文生图质量
Gecko 文生视频质量

常规质量

最新版本	`general_quality_v1`
类型	自适应评分准则
说明	一种全面的自适应评分准则指标，用于评估模型回答的总体质量。它会根据提示的内容自动生成并评估各种标准。建议大多数评估以此作为起点。
如何在 SDK 中访问	`types.RubricMetric.GENERAL_QUALITY`
输入	`prompt` `response` （可选）`rubric_groups` 如果您已生成评分准则，可以直接提供这些评分准则来进行评估。
输出	`score` `rubrics` 和对应的 `verdicts` 该得分表示根据评分准则得出的回答通过率。
LLM 调用次数	6 次对 Gemini 2.5 Flash 的调用

文本质量

最新版本	`text_quality_v1`
类型	自适应评分准则
说明	一种有针对性的自适应评分准则指标，专门用于评估回答的语言质量。它会评估流畅度、连贯性和语法等各个方面。
如何在 SDK 中访问	`types.RubricMetric.TEXT_QUALITY`
输入	`prompt` `response` （可选）`rubric_groups` 如果您已生成评分准则，可以直接提供这些评分准则来进行评估。
输出	`score` `rubrics` 和对应的 `verdicts` 该得分表示根据评分准则得出的回答通过率。
LLM 调用次数	6 次对 Gemini 2.5 Flash 的调用

指令遵从

最新版本	`instruction_following_v1`
类型	自适应评分准则
说明	一种有针对性的自适应评分准则指标，用于衡量回答在多大程度上遵循了提示中给出的具体限制和指令。
如何在 SDK 中访问	`types.RubricMetric.INSTRUCTION_FOLLOWING`
输入	`prompt` `response` （可选）`rubric_groups` 如果您已生成评分准则，可以直接提供这些评分准则来进行评估。
输出	`score`（通过率） `rubrics` 和对应的 `verdicts` 该得分表示根据评分准则得出的回答通过率。
LLM 调用次数	6 次对 Gemini 2.5 Flash 的调用

落地

最新版本	`grounding_v1`
类型	静态评分准则
说明	一种基于得分的指标，用于检查事实性和一致性。它会验证模型的回答是否基于上下文接地。
如何在 SDK 中访问	`types.RubricMetric.GROUNDING`
输入	`prompt` `response` `context`
输出	`score` `explanation` 该得分的取值范围为 `0-1`，代表了针对输入提示的回答中，被标记为 `supported` 或 `no_rad`（无需事实归因，例如问候、问题或免责声明）的陈述所占的比例。该解释包含由句子、标签、推理和上下文摘录所构成的组合。
LLM 调用次数	1 次对 Gemini 2.5 Flash 的调用

安全

最新版本	`safety_v1`
类型	静态评分准则
说明	一种基于得分的指标，用于评估模型的回答是否违反了以下一项或多项政策： PII 和受众特征数据仇恨言论危险内容骚扰露骨色情内容
如何在 SDK 中访问	`types.RubricMetric.SAFETY`
输入	`prompt` `response`
输出	`score` `explanation` 对于该得分，`0` 表示内容不安全，而 `1` 表示内容安全。解释字段包含违反的政策。
LLM 调用次数	10 次对 Gemini 2.5 Flash 的调用

多轮对话总体质量

最新版本	`multi_turn_general_quality_v1`
类型	自适应评分准则
说明	一种自适应评分准则指标，用于评估模型在多轮对话中回答的总体质量。
如何在 SDK 中访问	`types.RubricMetric.MULTI_TURN_GENERAL_QUALITY`
输入	多轮对话的 `prompt` `response` （可选）`rubric_groups` 如果您已生成评分准则，可以直接提供这些评分准则来进行评估。
输出	`score` 评分准则及相应判定结果该得分表示根据评分准则得出的回答通过率。
LLM 调用次数	6 次对 Gemini 2.5 Flash 的调用

多轮文本质量

最新版本	`multi_turn_text_quality_v1`
类型	自适应评分准则
说明	一种自适应评分准则指标，用于评估模型在多轮对话中回答的文本质量。
如何在 SDK 中访问	`types.RubricMetric.TEXT_QUALITY`
输入	多轮对话的 `prompt` `response` （可选）`rubric_groups` 如果您已生成评分准则，可以直接提供这些评分准则来进行评估。
输出	`score` `rubrics` 和对应的 `verdicts` 该得分表示根据评分准则得出的回答通过率。
LLM 调用次数	6 次对 Gemini 2.5 Flash 的调用

智能体最终回答匹配

最新版本	`final_response_match_v2`
类型	静态评分准则
说明	一种指标，用于通过将 AI 智能体的最终回答与提供的参考回答（标准答案）进行比较来评估最终回答的质量。
如何在 SDK 中访问	`types.RubricMetric.FINAL_RESPONSE_MATCH`
输入	`prompt` `response` `reference`
输出	得分 1：与参考回答匹配的有效回答。 0：与参考回答不符的无效回答。解释
LLM 调用次数	5 次对 Gemini 2.5 Flash 的调用

智能体最终回答参考（免费）

最新版本	`final_response_reference_free_v1`
类型	自适应评分准则
说明	一种自适应评分准则指标，用于评估 AI 智能体的最终回答的质量，而无需参考回答。您需要为此指标提供评分准则，因为该指标不支持自动生成的评分准则。
如何在 SDK 中访问	`types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE`
输入	`prompt` `response` `rubric_groups`
输出	`score` `rubrics` 和对应的 `verdicts` 该得分表示根据评分准则得出的回答通过率。
LLM 调用次数	5 次对 Gemini 2.5 Flash 的调用

代理最终回答质量

最新版本	`final_response_quality_v1`
类型	自适应评分准则
说明	一种全面的自适应评分准则指标，用于评估代理回答的总体质量。它会根据代理配置（开发者指令和代理可用的工具声明）和用户提示自动生成各种标准，然后根据中间事件和代理最终回答中的工具使用情况评估生成的标准。
如何在 SDK 中访问	`types.RubricMetric.FINAL_RESPONSE_QUALITY`
输入	`prompt` `response` `developer_instruction` `tool_declarations`（可以为空列表） `intermediate_events`（包含函数调用和响应，可以为空列表）（可选）`rubric_groups`（如果您已生成评分准则，可以直接提供这些评分准则来进行评估）
输出	`score` `rubrics` 和对应的 `verdicts` 该得分表示根据评分准则得出的回答通过率。
LLM 调用次数	5 次对 Gemini 2.5 Flash 的调用和 1 次对 Gemini 2.5 Pro 的调用

代理幻觉

最新版本	`hallucination_v1`
类型	静态评分准则
说明	一种基于得分的指标，用于通过将文本回答分割为原子声明来检查回答的事实性和一致性。它会根据中间事件中的工具使用情况，验证每项声明是否合理。您还可以通过将标志 `evaluate_intermediate_nl_responses` 设置为 true 来评估任何中间文本回答。
如何在 SDK 中访问	`types.RubricMetric.HALLUCINATION`
输入	`response` `developer_instruction` `tool_declarations`（可以为空列表） `intermediate_events`（包含函数调用和响应，可以为空列表） `evaluate_intermediate_nl_responses`（默认值为 False）
输出	`score` `explanation` 和对应的 `verdicts` 该得分的取值范围为 0-1，代表了针对输入提示的回答中，被标记为 `supported` 或 `no_rad`（无需事实归因，例如问候、问题或免责声明）的陈述所占的比例。该解释包含对声明、标签、推理和支持上下文的摘录的结构化细分。
LLM 调用次数	2 次对 Gemini 2.5 Flash 的调用

代理工具使用质量

最新版本	`tool_use_quality_v1`
类型	自适应评分准则
说明	一种有针对性的自适应评分准则指标，用于评估是否选择了合适的工具、参数使用是否正确以及是否遵循了指定的操作顺序。
如何在 SDK 中访问	`types.RubricMetric.TOOL_USE_QUALITY`
输入	`prompt` `developer_instruction` `tool_declarations`（可以为空列表） `intermediate_events`（包含函数调用和响应，可以为空列表）（可选）`rubric_groups`（如果您已生成评分准则，可以直接提供这些评分准则来进行评估）
输出	`score` `rubrics` 和对应的 `verdicts` 该得分表示根据评分准则得出的回答通过率。
LLM 调用次数	5 次对 Gemini 2.5 Flash 的调用和 1 次对 Gemini 2.5 Pro 的调用

Gecko 文生图质量

最新版本	`gecko_text2image_v1`
类型	自适应评分准则
说明	Gecko 文生图指标是一种自适应的基于评分准则的方法，用于评估生成的图像相对于其相应的文本提示的质量。它的工作方式是，首先根据提示生成一组问题，这些问题可作为详细的特定于提示的评分准则。然后，模型会根据生成的图片回答这些问题。
如何在 SDK 中访问	`types.RubricMetric.GECKO_TEXT2IMAGE`
输入	`prompt` `response` - 应该是具有图片 MIME 类型的文件数据
输出	`score` `rubrics` 和对应的 `verdicts` 该得分表示根据评分准则得出的回答通过率。
LLM 调用次数	2 次对 Gemini 2.5 Flash 的调用

Gecko 文生视频质量

最新版本	`gecko_text2video_v1`
类型	自适应评分准则
说明	Gecko 文生视频指标是一种自适应的基于评分准则的方法，用于评估生成的视频相对于其相应的文本提示的质量。它的工作方式是，首先根据提示生成一组问题，这些问题可作为详细的特定于提示的评分准则。然后，模型会根据生成的视频回答这些问题。
如何在 SDK 中访问	`types.RubricMetric.GECKO_TEXT2VIDEO`
输入	`prompt` `response` - 应该是具有视频 MIME 类型的文件数据
输出	`score` `rubrics` 和对应的 `verdicts` 该得分表示根据评分准则得出的回答通过率。
LLM 调用次数	2 次对 Gemini 2.5 Flash 的调用

后续步骤

准备评估数据集。