基于评分准则的受管指标的详细信息
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
本页面列出了 Gen AI Evaluation Service 提供的基于评分准则的受管指标的完整列表,您可以在 Vertex AI SDK 中的 GenAI 客户端中使用这些指标。
如需详细了解测试驱动型评估,请参阅定义评估指标。
概览
Gen AI Evaluation Service 为测试驱动型评估框架提供了一系列基于评分准则的受管指标:
每个基于评分准则的受管指标都有一个版本控制编号。默认情况下,该指标会使用最新版本,但您可以根据需要固定到特定版本:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
向后兼容性
对于以指标提示模板形式提供的指标,您仍然可以通过 Vertex AI SDK 中的 GenAI 客户端以相同的方式访问逐点指标。Vertex AI SDK 中的 GenAI 客户端不支持成对指标,但您可以参阅运行评估,在同一评估中比较两个模型。
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
受管指标详情
本部分列出了受管指标,并提供了其详细信息,例如指标类型、必需的输入和预期输出:
常规质量
| 最新版本 |
general_quality_v1 |
| 类型 |
自适应评分准则 |
| 说明 |
一种全面的自适应评分准则指标,用于评估模型回答的总体质量。它会根据提示的内容自动生成并评估各种标准。建议大多数评估以此作为起点。 |
| 如何在 SDK 中访问 |
types.RubricMetric.GENERAL_QUALITY |
| 输入 |
prompt
response
- (可选)
rubric_groups
如果您已生成评分准则,可以直接提供这些评分准则来进行评估。
|
| 输出 |
score
rubrics 和对应的 verdicts
该得分表示根据评分准则得出的回答通过率。
|
| LLM 调用次数 |
6 次对 Gemini 2.5 Flash 的调用 |
文本质量
| 最新版本 |
text_quality_v1 |
| 类型 |
自适应评分准则 |
| 说明 |
一种有针对性的自适应评分准则指标,专门用于评估回答的语言质量。它会评估流畅度、连贯性和语法等各个方面。 |
| 如何在 SDK 中访问 |
types.RubricMetric.TEXT_QUALITY |
| 输入 |
prompt
response
- (可选)
rubric_groups
如果您已生成评分准则,可以直接提供这些评分准则来进行评估。 |
| 输出 |
score
rubrics 和对应的 verdicts
该得分表示根据评分准则得出的回答通过率。 |
| LLM 调用次数 |
6 次对 Gemini 2.5 Flash 的调用 |
指令遵从
| 最新版本 |
instruction_following_v1 |
| 类型 |
自适应评分准则 |
| 说明 |
一种有针对性的自适应评分准则指标,用于衡量回答在多大程度上遵循了提示中给出的具体限制和指令。 |
| 如何在 SDK 中访问 |
types.RubricMetric.INSTRUCTION_FOLLOWING |
| 输入 |
prompt
response
- (可选)
rubric_groups
如果您已生成评分准则,可以直接提供这些评分准则来进行评估。 |
| 输出 |
score(通过率)
rubrics 和对应的 verdicts
该得分表示根据评分准则得出的回答通过率。 |
| LLM 调用次数 |
6 次对 Gemini 2.5 Flash 的调用 |
落地
| 最新版本 |
grounding_v1 |
| 类型 |
静态评分准则 |
| 说明 |
一种基于得分的指标,用于检查事实性和一致性。它会验证模型的回答是否基于上下文接地。 |
| 如何在 SDK 中访问 |
types.RubricMetric.GROUNDING |
| 输入 |
|
| 输出 |
该得分的取值范围为 0-1,代表了针对输入提示的回答中,被标记为 supported 或 no_rad(无需事实归因,例如问候、问题或免责声明)的陈述所占的比例。
该解释包含由句子、标签、推理和上下文摘录所构成的组合。 |
| LLM 调用次数 |
1 次对 Gemini 2.5 Flash 的调用 |
安全
| 最新版本 |
safety_v1 |
| 类型 |
静态评分准则 |
| 说明 |
一种基于得分的指标,用于评估模型的回答是否违反了以下一项或多项政策:
- PII 和受众特征数据
- 仇恨言论
- 危险内容
- 骚扰
- 露骨色情内容
|
| 如何在 SDK 中访问 |
types.RubricMetric.SAFETY |
| 输入 |
|
| 输出 |
对于该得分,0 表示内容不安全,而 1 表示内容安全。
解释字段包含违反的政策。
|
| LLM 调用次数 |
10 次对 Gemini 2.5 Flash 的调用 |
多轮对话总体质量
| 最新版本 |
multi_turn_general_quality_v1 |
| 类型 |
自适应评分准则 |
| 说明 |
一种自适应评分准则指标,用于评估模型在多轮对话中回答的总体质量。 |
| 如何在 SDK 中访问 |
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
| 输入 |
- 多轮对话的
prompt
response
- (可选)
rubric_groups
如果您已生成评分准则,可以直接提供这些评分准则来进行评估。 |
| 输出 |
该得分表示根据评分准则得出的回答通过率。 |
| LLM 调用次数 |
6 次对 Gemini 2.5 Flash 的调用 |
多轮文本质量
| 最新版本 |
multi_turn_text_quality_v1 |
| 类型 |
自适应评分准则 |
| 说明 |
一种自适应评分准则指标,用于评估模型在多轮对话中回答的文本质量。 |
| 如何在 SDK 中访问 |
types.RubricMetric.TEXT_QUALITY |
| 输入 |
- 多轮对话的
prompt
response
- (可选)
rubric_groups
如果您已生成评分准则,可以直接提供这些评分准则来进行评估。 |
| 输出 |
score
rubrics 和对应的 verdicts
该得分表示根据评分准则得出的回答通过率。 |
| LLM 调用次数 |
6 次对 Gemini 2.5 Flash 的调用 |
智能体最终回答匹配
| 最新版本 |
final_response_match_v2 |
| 类型 |
静态评分准则 |
| 说明 |
一种指标,用于通过将 AI 智能体的最终回答与提供的参考回答(标准答案)进行比较来评估最终回答的质量。 |
| 如何在 SDK 中访问 |
types.RubricMetric.FINAL_RESPONSE_MATCH |
| 输入 |
prompt
response
reference
|
| 输出 |
得分
- 1:与参考回答匹配的有效回答。
- 0:与参考回答不符的无效回答。
解释
|
| LLM 调用次数 |
5 次对 Gemini 2.5 Flash 的调用 |
智能体最终回答参考(免费)
| 最新版本 |
final_response_reference_free_v1 |
| 类型 |
自适应评分准则 |
| 说明 |
一种自适应评分准则指标,用于评估 AI 智能体的最终回答的质量,而无需参考回答。
您需要为此指标提供评分准则,因为该指标不支持自动生成的评分准则。 |
| 如何在 SDK 中访问 |
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
| 输入 |
prompt
response
rubric_groups
|
| 输出 |
score
rubrics 和对应的 verdicts
该得分表示根据评分准则得出的回答通过率。 |
| LLM 调用次数 |
5 次对 Gemini 2.5 Flash 的调用 |
代理最终回答质量
| 最新版本 |
final_response_quality_v1 |
| 类型 |
自适应评分准则 |
| 说明 |
一种全面的自适应评分准则指标,用于评估代理回答的总体质量。它会根据代理配置(开发者指令和代理可用的工具声明)和用户提示自动生成各种标准,然后根据中间事件和代理最终回答中的工具使用情况评估生成的标准。 |
| 如何在 SDK 中访问 |
types.RubricMetric.FINAL_RESPONSE_QUALITY |
| 输入 |
prompt
response
developer_instruction
tool_declarations(可以为空列表)
intermediate_events(包含函数调用和响应,可以为空列表)
- (可选)
rubric_groups(如果您已生成评分准则,可以直接提供这些评分准则来进行评估)
|
| 输出 |
score
rubrics 和对应的 verdicts
该得分表示根据评分准则得出的回答通过率。 |
| LLM 调用次数 |
5 次对 Gemini 2.5 Flash 的调用和 1 次对 Gemini 2.5 Pro 的调用 |
代理幻觉
| 最新版本 |
hallucination_v1 |
| 类型 |
静态评分准则 |
| 说明 |
一种基于得分的指标,用于通过将文本回答分割为原子声明来检查回答的事实性和一致性。它会根据中间事件中的工具使用情况,验证每项声明是否合理。
您还可以通过将标志 evaluate_intermediate_nl_responses 设置为 true 来评估任何中间文本回答。
|
| 如何在 SDK 中访问 |
types.RubricMetric.HALLUCINATION |
| 输入 |
response
developer_instruction
tool_declarations(可以为空列表)
intermediate_events(包含函数调用和响应,可以为空列表)
evaluate_intermediate_nl_responses(默认值为 False)
|
| 输出 |
score
explanation 和对应的 verdicts
该得分的取值范围为 0-1,代表了针对输入提示的回答中,被标记为 supported 或 no_rad(无需事实归因,例如问候、问题或免责声明)的陈述所占的比例。该解释包含对声明、标签、推理和支持上下文的摘录的结构化细分。
|
| LLM 调用次数 |
2 次对 Gemini 2.5 Flash 的调用 |
| 最新版本 |
tool_use_quality_v1 |
| 类型 |
自适应评分准则 |
| 说明 |
一种有针对性的自适应评分准则指标,用于评估是否选择了合适的工具、参数使用是否正确以及是否遵循了指定的操作顺序。 |
| 如何在 SDK 中访问 |
types.RubricMetric.TOOL_USE_QUALITY |
| 输入 |
prompt
developer_instruction
tool_declarations(可以为空列表)
intermediate_events(包含函数调用和响应,可以为空列表)
- (可选)
rubric_groups(如果您已生成评分准则,可以直接提供这些评分准则来进行评估)
|
| 输出 |
score
rubrics 和对应的 verdicts
该得分表示根据评分准则得出的回答通过率。 |
| LLM 调用次数 |
5 次对 Gemini 2.5 Flash 的调用和 1 次对 Gemini 2.5 Pro 的调用 |
Gecko 文生图质量
| 最新版本 |
gecko_text2image_v1 |
| 类型 |
自适应评分准则 |
| 说明 |
Gecko 文生图指标是一种自适应的基于评分准则的方法,用于评估生成的图像相对于其相应的文本提示的质量。它的工作方式是,首先根据提示生成一组问题,这些问题可作为详细的特定于提示的评分准则。然后,模型会根据生成的图片回答这些问题。 |
| 如何在 SDK 中访问 |
types.RubricMetric.GECKO_TEXT2IMAGE |
| 输入 |
prompt
response - 应该是具有图片 MIME 类型的文件数据
|
| 输出 |
score
rubrics 和对应的 verdicts
该得分表示根据评分准则得出的回答通过率。
|
| LLM 调用次数 |
2 次对 Gemini 2.5 Flash 的调用 |
Gecko 文生视频质量
| 最新版本 |
gecko_text2video_v1 |
| 类型 |
自适应评分准则 |
| 说明 |
Gecko 文生视频指标是一种自适应的基于评分准则的方法,用于评估生成的视频相对于其相应的文本提示的质量。它的工作方式是,首先根据提示生成一组问题,这些问题可作为详细的特定于提示的评分准则。然后,模型会根据生成的视频回答这些问题。 |
| 如何在 SDK 中访问 |
types.RubricMetric.GECKO_TEXT2VIDEO |
| 输入 |
prompt
response - 应该是具有视频 MIME 类型的文件数据
|
| 输出 |
score
rubrics 和对应的 verdicts
该得分表示根据评分准则得出的回答通过率。
|
| LLM 调用次数 |
2 次对 Gemini 2.5 Flash 的调用 |
后续步骤
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-12-04。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-12-04。"],[],[]]