本页面列出了 Gen AI Evaluation Service 提供的基于评分准则的受管指标的完整列表,您可以在 Vertex AI SDK 中的 GenAI 客户端中使用这些指标。
如需详细了解测试驱动型评估,请参阅定义评估指标。
概览
Gen AI Evaluation Service 为测试驱动型评估框架提供了一系列基于评分准则的受管指标:
对于采用自适应评分准则的指标,大多数指标都包含针对每个提示的评分准则生成和评分准则验证工作流。如有需要,您可以单独运行这些工作流。如需了解详情,请参阅运行评估。
对于具有静态评分准则的指标,系统不会生成针对每个提示的评分准则。如需详细了解预期输出,请参阅指标详情。
每个基于评分准则的受管指标都有一个版本控制编号。默认情况下,该指标会使用最新版本,但您可以根据需要固定到特定版本:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
向后兼容性
对于以指标提示模板形式提供的指标,您仍然可以通过 Vertex AI SDK 中的 GenAI 客户端以相同的方式访问逐点指标。Vertex AI SDK 中的 GenAI 客户端不支持成对指标,但您可以参阅运行评估,在同一评估中比较两个模型。
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
受管指标详情
本部分列出了受管指标,并提供了其详细信息,例如指标类型、必需的输入和预期输出:
常规质量
| 最新版本 | general_quality_v1 |
| 类型 | 自适应评分准则 |
| 说明 | 一种全面的自适应评分准则指标,用于评估模型回答的总体质量。它会根据提示的内容自动生成并评估各种标准。建议大多数评估以此作为起点。 |
| 如何在 SDK 中访问 | types.RubricMetric.GENERAL_QUALITY |
| 输入 |
|
| 输出 |
|
| LLM 调用次数 | 6 次对 Gemini 2.5 Flash 的调用 |
文本质量
| 最新版本 | text_quality_v1 |
| 类型 | 自适应评分准则 |
| 说明 | 一种有针对性的自适应评分准则指标,专门用于评估回答的语言质量。它会评估流畅度、连贯性和语法等各个方面。 |
| 如何在 SDK 中访问 | types.RubricMetric.TEXT_QUALITY |
| 输入 |
|
| 输出 |
|
| LLM 调用次数 | 6 次对 Gemini 2.5 Flash 的调用 |
指令遵从
| 最新版本 | instruction_following_v1 |
| 类型 | 自适应评分准则 |
| 说明 | 一种有针对性的自适应评分准则指标,用于衡量回答在多大程度上遵循了提示中给出的具体限制和指令。 |
| 如何在 SDK 中访问 | types.RubricMetric.INSTRUCTION_FOLLOWING |
| 输入 |
|
| 输出 |
|
| LLM 调用次数 | 6 次对 Gemini 2.5 Flash 的调用 |
落地
| 最新版本 | grounding_v1 |
| 类型 | 静态评分准则 |
| 说明 | 一种基于得分的指标,用于检查事实性和一致性。它会验证模型的回答是否基于上下文接地。 |
| 如何在 SDK 中访问 | types.RubricMetric.GROUNDING |
| 输入 |
|
| 输出 |
0-1,代表了针对输入提示的回答中,被标记为 supported 或 no_rad(无需事实归因,例如问候、问题或免责声明)的陈述所占的比例。该解释包含由句子、标签、推理和上下文摘录所构成的组合。 |
| LLM 调用次数 | 1 次对 Gemini 2.5 Flash 的调用 |
安全
| 最新版本 | safety_v1 |
| 类型 | 静态评分准则 |
| 说明 |
一种基于得分的指标,用于评估模型的回答是否违反了以下一项或多项政策:
|
| 如何在 SDK 中访问 | types.RubricMetric.SAFETY |
| 输入 |
|
| 输出 |
0 表示内容不安全,而 1 表示内容安全。
解释字段包含违反的政策。 |
| LLM 调用次数 | 10 次对 Gemini 2.5 Flash 的调用 |
多轮对话总体质量
| 最新版本 | multi_turn_general_quality_v1 |
| 类型 | 自适应评分准则 |
| 说明 | 一种自适应评分准则指标,用于评估模型在多轮对话中回答的总体质量。 |
| 如何在 SDK 中访问 | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
| 输入 |
|
| 输出 |
|
| LLM 调用次数 | 6 次对 Gemini 2.5 Flash 的调用 |
多轮文本质量
| 最新版本 | multi_turn_text_quality_v1 |
| 类型 | 自适应评分准则 |
| 说明 | 一种自适应评分准则指标,用于评估模型在多轮对话中回答的文本质量。 |
| 如何在 SDK 中访问 | types.RubricMetric.TEXT_QUALITY |
| 输入 |
|
| 输出 |
|
| LLM 调用次数 | 6 次对 Gemini 2.5 Flash 的调用 |
智能体最终回答匹配
| 最新版本 | final_response_match_v2 |
| 类型 | 静态评分准则 |
| 说明 | 一种指标,用于通过将 AI 智能体的最终回答与提供的参考回答(标准答案)进行比较来评估最终回答的质量。 |
| 如何在 SDK 中访问 | types.RubricMetric.FINAL_RESPONSE_MATCH |
| 输入 |
|
| 输出 |
得分
|
| LLM 调用次数 | 5 次对 Gemini 2.5 Flash 的调用 |
智能体最终回答参考(免费)
| 最新版本 | final_response_reference_free_v1 |
| 类型 | 自适应评分准则 |
| 说明 | 一种自适应评分准则指标,用于评估 AI 智能体的最终回答的质量,而无需参考回答。
您需要为此指标提供评分准则,因为该指标不支持自动生成的评分准则。 |
| 如何在 SDK 中访问 | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
| 输入 |
|
| 输出 |
|
| LLM 调用次数 | 5 次对 Gemini 2.5 Flash 的调用 |