マネージド ルーブリック ベースの指標の詳細
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
このページでは、Gen AI Evaluation Service が提供する管理対象のルーブリックベースの指標の完全なリストを示します。この指標は、Vertex AI SDK の GenAI クライアントで使用できます。
テスト駆動型の評価の詳細については、評価指標を定義するをご覧ください。
概要
Gen AI Evaluation Service には、テスト駆動型の評価フレームワーク用の管理されたルーブリックベースの指標のリストが用意されています。
マネージド ルーブリック ベースの指標には、バージョン番号があります。指標ではデフォルトで最新バージョンが使用されますが、必要に応じて特定のバージョンに固定できます。
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
下位互換性
指標プロンプト テンプレートとして提供される指標については、同じ方法で Vertex AI SDK の GenAI クライアントからポイントワイズ指標にアクセスできます。ペアワイズ指標は Vertex AI SDK の GenAI クライアントではサポートされていませんが、同じ評価で 2 つのモデルを比較するには、評価を実行するをご覧ください。
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
マネージド指標の詳細
このセクションでは、マネージド指標とそのタイプ、必要な入力、期待される出力などの詳細を示します。
全般的な品質
| 最新バージョン |
general_quality_v1 |
| タイプ |
適応型ルーブリック |
| Description |
モデルのレスポンスの全体的な品質を評価する包括的な適応型ルーブリック指標。プロンプトのコンテンツに基づいて、幅広い基準を自動的に生成して評価します。ほとんどの評価で、この方法をおすすめします。 |
| SDK でアクセスする方法 |
types.RubricMetric.GENERAL_QUALITY |
| 入力 |
prompt
response
- (省略可)
rubric_groups
ルーブリックがすでに生成されている場合は、評価用に直接提供できます。 |
| 出力 |
score
rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 6 回の呼び出し |
テキストの品質
| 最新バージョン |
text_quality_v1 |
| タイプ |
適応型ルーブリック |
| Description |
レスポンスの言語品質を具体的に評価する、対象を絞った適応型ルーブリック指標。流暢さ、一貫性、文法などの側面を評価します。 |
| SDK でアクセスする方法 |
types.RubricMetric.TEXT_QUALITY |
| 入力 |
prompt
response
- (省略可)
rubric_groups
ルーブリックがすでに生成されている場合は、評価用に直接提供できます。 |
| 出力 |
score
rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 6 回の呼び出し |
指示実行
| 最新バージョン |
instruction_following_v1 |
| タイプ |
適応型ルーブリック |
| Description |
プロンプトで指定された特定の制約と指示にレスポンスがどの程度準拠しているかを測定する、ターゲット設定された適応型ルーブリック指標。 |
| SDK でアクセスする方法 |
types.RubricMetric.INSTRUCTION_FOLLOWING |
| 入力 |
prompt
response
- (省略可)
rubric_groups
ルーブリックがすでに生成されている場合は、評価用に直接提供できます。 |
| 出力 |
score(合格率)
rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 6 回の呼び出し |
グラウンディング
| 最新バージョン |
grounding_v1 |
| タイプ |
静的ルーブリック |
| Description |
事実性と整合性をチェックするスコアベースの指標。モデルのレスポンスがコンテキストに基づいてグラウンディングされていることを確認します。 |
| SDK でアクセスする方法 |
types.RubricMetric.GROUNDING |
| 入力 |
|
| 出力 |
スコアの範囲は 0-1 で、入力プロンプトに対する supported または no_rad(挨拶、質問、免責事項など、事実に基づく帰属を必要としない)としてラベル付けされたクレームの割合を表します。
説明には、文、ラベル、理由、コンテキストからの抜粋のグループが含まれます。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 1 回の呼び出し |
安全性
| 最新バージョン |
safety_v1 |
| タイプ |
静的ルーブリック |
| Description |
モデルのレスポンスが次の 1 つ以上のポリシーに違反しているかどうかを評価するスコアベースの指標。
- PII とユーザー層データ
- ヘイトスピーチ
- 危険なコンテンツ
- ハラスメント
- 性的に露骨な表現
|
| SDK でアクセスする方法 |
types.RubricMetric.SAFETY |
| 入力 |
|
| 出力 |
スコアの場合、0 は安全ではなく、1 は安全です。
説明フィールドには、違反したポリシーが含まれます。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 10 回の呼び出し |
マルチターンの全般的な品質
| 最新バージョン |
multi_turn_general_quality_v1 |
| タイプ |
適応型ルーブリック |
| Description |
マルチターンの会話のコンテキスト内でモデルのレスポンスの全体的な品質を評価する適応型ルーブリック指標。 |
| SDK でアクセスする方法 |
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
| 入力 |
- マルチターンの会話での
prompt
response
- (省略可)
rubric_groups
ルーブリックがすでに生成されている場合は、評価用に直接提供できます。 |
| 出力 |
スコアは、ルーブリックに基づくレスポンスの合格率を表します。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 6 回の呼び出し |
マルチターン テキストの品質
| 最新バージョン |
multi_turn_text_quality_v1 |
| タイプ |
適応型ルーブリック |
| Description |
マルチターンの会話のコンテキスト内でモデルのレスポンスのテキスト品質を評価する適応型ルーブリック指標。 |
| SDK でアクセスする方法 |
types.RubricMetric.TEXT_QUALITY |
| 入力 |
- マルチターンの会話での
prompt
response
- (省略可)
rubric_groups
ルーブリックがすでに生成されている場合は、評価用に直接提供できます。 |
| 出力 |
score
rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 6 回の呼び出し |
エージェントの最終レスポンスの一致
| 最新バージョン |
final_response_match_v2 |
| タイプ |
静的ルーブリック |
| Description |
提供された参照レスポンス(グラウンド トゥルース)と比較して、AI エージェントの最終レスポンスの品質を評価する指標。 |
| SDK でアクセスする方法 |
types.RubricMetric.FINAL_RESPONSE_MATCH |
| 入力 |
prompt
response
reference
|
| 出力 |
スコア
- 1: 参照と一致する有効なレスポンス。
- 0: 参照と一致しない無効なレスポンス。
説明
|
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 5 回の呼び出し |
エージェントの最終レスポンスの参照(無料)
| 最新バージョン |
final_response_reference_free_v1 |
| タイプ |
適応型ルーブリック |
| Description |
参照レスポンスを必要とせずに、AI エージェントの最終レスポンスの品質を評価する適応型ルーブリック指標。
この指標では自動生成されたルーブリックはサポートされていないため、ルーブリックを指定する必要があります。 |
| SDK でアクセスする方法 |
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
| 入力 |
prompt
response
rubric_groups
|
| 出力 |
score
rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 5 回の呼び出し |
エージェントの最終レスポンスの品質
| 最新バージョン |
final_response_quality_v1 |
| タイプ |
適応型ルーブリック |
| Description |
エージェントのレスポンスの全体的な品質を評価する包括的な適応型ルーブリック指標。エージェントの構成(エージェントが使用できるツールのデベロッパー向けの手順と宣言)とユーザーのプロンプトに基づいて、幅広い基準を自動的に生成し、中間イベントでのツールの使用状況とエージェントによる最終回答に基づいて、生成された基準を評価します。 |
| SDK でアクセスする方法 |
types.RubricMetric.FINAL_RESPONSE_QUALITY |
| 入力 |
prompt
response
developer_instruction
tool_declarations(空のリストでも可)
intermediate_events(関数呼び出しとレスポンスを含む。空のリストでも可)
- (省略可)
rubric_groups(ルーブリックがすでに生成されている場合は、評価用に直接提供できます)
|
| 出力 |
score
rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 5 回の呼び出しと Gemini 2.5 Pro への 1 回の呼び出し |
エージェントのハルシネーション
| 最新バージョン |
hallucination_v1 |
| タイプ |
静的ルーブリック |
| Description |
レスポンスを原子単位の主張に分割して、テキスト レスポンスの事実性と整合性をチェックするスコアベースの指標。中間イベントでのツールの使用状況に基づいて、各クレームが根拠のあるものかどうかを確認します。また、フラグ evaluate_intermediate_nl_responses を true に設定することで、中間テキスト レスポンスを評価することもできます。 |
| SDK でアクセスする方法 |
types.RubricMetric.HALLUCINATION |
| 入力 |
response
developer_instruction
tool_declarations(空のリストでも可)
intermediate_events(関数呼び出しとレスポンスを含む。空のリストでも可)
evaluate_intermediate_nl_responses(デフォルトは false)
|
| 出力 |
score
explanation と対応する verdicts
スコアの範囲は 0~1 で、入力プロンプトに対する supported または no_rad(挨拶、質問、免責事項など、事実に基づく帰属を必要としない)としてラベル付けされたクレームの割合を表します。説明には、コンテキストをサポートする主張、ラベル、理由、抜粋の構造化された内訳が含まれます。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 2 回の呼び出し |
| 最新バージョン |
tool_use_quality_v1 |
| タイプ |
適応型ルーブリック |
| Description |
適切なツールの選択、正しいパラメータの使用、指定された操作シーケンスの遵守を評価する、ターゲット設定された適応型ルーブリック指標。 |
| SDK でアクセスする方法 |
types.RubricMetric.TOOL_USE_QUALITY |
| 入力 |
prompt
developer_instruction
tool_declarations(空のリストでも可)
intermediate_events(関数呼び出しとレスポンスを含む。空のリストでも可)
- (省略可)
rubric_groups(ルーブリックがすでに生成されている場合は、評価用に直接提供できます)
|
| 出力 |
score
rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 5 回の呼び出しと Gemini 2.5 Pro への 1 回の呼び出し |
Gecko テキスト画像変換の品質
| 最新バージョン |
gecko_text2image_v1 |
| タイプ |
適応型ルーブリック |
| Description |
Gecko テキスト画像変換指標は、生成された画像の品質を対応するテキスト プロンプトに対して評価するための、適応型のルーブリックに基づく手法です。この機能は、まずプロンプトから一連の質問を生成します。これらの質問は、プロンプト固有の詳細なルーブリックとして機能します。モデルは、生成された画像に基づいてこれらの質問に回答します。 |
| SDK でアクセスする方法 |
types.RubricMetric.GECKO_TEXT2IMAGE |
| 入力 |
prompt
response - 画像 MIME タイプのファイルデータである必要があります
|
| 出力 |
score
rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 2 回の呼び出し |
Gecko テキスト動画変換の品質
| 最新バージョン |
gecko_text2video_v1 |
| タイプ |
適応型ルーブリック |
| Description |
Gecko テキスト動画変換指標は、生成された動画の品質を対応するテキスト プロンプトに対して評価するための、適応型のルーブリックに基づく手法です。この機能は、まずプロンプトから一連の質問を生成します。これらの質問は、プロンプト固有の詳細なルーブリックとして機能します。モデルは、生成された動画に基づいてこれらの質問に回答します。 |
| SDK でアクセスする方法 |
types.RubricMetric.GECKO_TEXT2VIDEO |
| 入力 |
prompt
response - 動画の MIME タイプのファイルデータである必要があります
|
| 出力 |
score
rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。 |
| LLM 呼び出しの数 |
Gemini 2.5 Flash への 2 回の呼び出し |
次のステップ
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-12-17 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["わかりにくい","hardToUnderstand","thumb-down"],["情報またはサンプルコードが不正確","incorrectInformationOrSampleCode","thumb-down"],["必要な情報 / サンプルがない","missingTheInformationSamplesINeed","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-12-17 UTC。"],[],[]]