マネージドルーブリックベースの指標の詳細

このページでは、Gen AI Evaluation Service が提供する管理対象のルーブリックベースの指標の完全なリストを示します。この指標は、Vertex AI SDK の GenAI クライアントで使用できます。

テスト駆動型の評価の詳細については、評価指標を定義するをご覧ください。

概要

Gen AI Evaluation Service には、テスト駆動型の評価フレームワーク用の管理されたルーブリックベースの指標のリストが用意されています。

適応型ルーブリックを使用する指標のほとんどには、各プロンプトのルーブリック生成とルーブリック検証の両方のワークフローが含まれています。必要に応じて、個別に実行できます。詳細については、評価を実行するをご覧ください。
静的ルーブリックを含む指標の場合、プロンプトごとのルーブリックは生成されません。目的とされる出力の詳細については、指標の詳細をご覧ください。

マネージドルーブリックベースの指標には、バージョン番号があります。指標ではデフォルトで最新バージョンが使用されますが、必要に応じて特定のバージョンに固定できます。

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

下位互換性

指標プロンプトテンプレートとして提供される指標については、同じ方法で Vertex AI SDK の GenAI クライアントからポイントワイズ指標にアクセスできます。ペアワイズ指標は Vertex AI SDK の GenAI クライアントではサポートされていませんが、同じ評価で 2 つのモデルを比較するには、評価を実行するをご覧ください。

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

マネージド指標の詳細

このセクションでは、マネージド指標とそのタイプ、必要な入力、期待される出力などの詳細を示します。

全般的な品質
テキストの品質
指示実行
グラウンディング
安全性
マルチターンの全般的な品質
マルチターンテキストの品質
エージェントの最終レスポンスの一致
エージェントの最終レスポンスの参照（無料）
エージェントの最終レスポンスの品質
エージェントのハルシネーション
エージェントツールの使用品質
Gecko テキスト画像変換の品質
Gecko テキスト動画変換の品質

全般的な品質

最新バージョン	`general_quality_v1`
タイプ	適応型ルーブリック
Description	モデルのレスポンスの全体的な品質を評価する包括的な適応型ルーブリック指標。プロンプトのコンテンツに基づいて、幅広い基準を自動的に生成して評価します。ほとんどの評価で、この方法をおすすめします。
SDK でアクセスする方法	`types.RubricMetric.GENERAL_QUALITY`
入力	`prompt` `response` （省略可）`rubric_groups` ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力	`score` `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 6 回の呼び出し

テキストの品質

最新バージョン	`text_quality_v1`
タイプ	適応型ルーブリック
Description	レスポンスの言語品質を具体的に評価する、対象を絞った適応型ルーブリック指標。流暢さ、一貫性、文法などの側面を評価します。
SDK でアクセスする方法	`types.RubricMetric.TEXT_QUALITY`
入力	`prompt` `response` （省略可）`rubric_groups` ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力	`score` `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 6 回の呼び出し

指示実行

最新バージョン	`instruction_following_v1`
タイプ	適応型ルーブリック
Description	プロンプトで指定された特定の制約と指示にレスポンスがどの程度準拠しているかを測定する、ターゲット設定された適応型ルーブリック指標。
SDK でアクセスする方法	`types.RubricMetric.INSTRUCTION_FOLLOWING`
入力	`prompt` `response` （省略可）`rubric_groups` ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力	`score`（合格率） `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 6 回の呼び出し

グラウンディング

最新バージョン	`grounding_v1`
タイプ	静的ルーブリック
Description	事実性と整合性をチェックするスコアベースの指標。モデルのレスポンスがコンテキストに基づいてグラウンディングされていることを確認します。
SDK でアクセスする方法	`types.RubricMetric.GROUNDING`
入力	`prompt` `response` `context`
出力	`score` `explanation` スコアの範囲は `0-1` で、入力プロンプトに対する `supported` または `no_rad`（挨拶、質問、免責事項など、事実に基づく帰属を必要としない）としてラベル付けされたクレームの割合を表します。説明には、文、ラベル、理由、コンテキストからの抜粋のグループが含まれます。
LLM 呼び出しの数	Gemini 2.5 Flash への 1 回の呼び出し

安全性

最新バージョン	`safety_v1`
タイプ	静的ルーブリック
Description	モデルのレスポンスが次の 1 つ以上のポリシーに違反しているかどうかを評価するスコアベースの指標。 PII とユーザー層データヘイトスピーチ危険なコンテンツハラスメント性的に露骨な表現
SDK でアクセスする方法	`types.RubricMetric.SAFETY`
入力	`prompt` `response`
出力	`score` `explanation` スコアの場合、`0` は安全ではなく、`1` は安全です。説明フィールドには、違反したポリシーが含まれます。
LLM 呼び出しの数	Gemini 2.5 Flash への 10 回の呼び出し

マルチターンの全般的な品質

最新バージョン	`multi_turn_general_quality_v1`
タイプ	適応型ルーブリック
Description	マルチターンの会話のコンテキスト内でモデルのレスポンスの全体的な品質を評価する適応型ルーブリック指標。
SDK でアクセスする方法	`types.RubricMetric.MULTI_TURN_GENERAL_QUALITY`
入力	マルチターンの会話での `prompt` `response` （省略可）`rubric_groups` ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力	`score` ルーブリックと対応する判定スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 6 回の呼び出し

マルチターンテキストの品質

最新バージョン	`multi_turn_text_quality_v1`
タイプ	適応型ルーブリック
Description	マルチターンの会話のコンテキスト内でモデルのレスポンスのテキスト品質を評価する適応型ルーブリック指標。
SDK でアクセスする方法	`types.RubricMetric.TEXT_QUALITY`
入力	マルチターンの会話での `prompt` `response` （省略可）`rubric_groups` ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力	`score` `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 6 回の呼び出し

エージェントの最終レスポンスの一致

最新バージョン	`final_response_match_v2`
タイプ	静的ルーブリック
Description	提供された参照レスポンス（グラウンドトゥルース）と比較して、AI エージェントの最終レスポンスの品質を評価する指標。
SDK でアクセスする方法	`types.RubricMetric.FINAL_RESPONSE_MATCH`
入力	`prompt` `response` `reference`
出力	スコア 1: 参照と一致する有効なレスポンス。 0: 参照と一致しない無効なレスポンス。説明
LLM 呼び出しの数	Gemini 2.5 Flash への 5 回の呼び出し

エージェントの最終レスポンスの参照（無料）

最新バージョン	`final_response_reference_free_v1`
タイプ	適応型ルーブリック
Description	参照レスポンスを必要とせずに、AI エージェントの最終レスポンスの品質を評価する適応型ルーブリック指標。この指標では自動生成されたルーブリックはサポートされていないため、ルーブリックを指定する必要があります。
SDK でアクセスする方法	`types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE`
入力	`prompt` `response` `rubric_groups`
出力	`score` `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 5 回の呼び出し

エージェントの最終レスポンスの品質

最新バージョン	`final_response_quality_v1`
タイプ	適応型ルーブリック
Description	エージェントのレスポンスの全体的な品質を評価する包括的な適応型ルーブリック指標。エージェントの構成（エージェントが使用できるツールのデベロッパー向けの手順と宣言）とユーザーのプロンプトに基づいて、幅広い基準を自動的に生成し、中間イベントでのツールの使用状況とエージェントによる最終回答に基づいて、生成された基準を評価します。
SDK でアクセスする方法	`types.RubricMetric.FINAL_RESPONSE_QUALITY`
入力	`prompt` `response` `developer_instruction` `tool_declarations`（空のリストでも可） `intermediate_events`（関数呼び出しとレスポンスを含む。空のリストでも可）（省略可）`rubric_groups`（ルーブリックがすでに生成されている場合は、評価用に直接提供できます）
出力	`score` `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 5 回の呼び出しと Gemini 2.5 Pro への 1 回の呼び出し

エージェントのハルシネーション

最新バージョン	`hallucination_v1`
タイプ	静的ルーブリック
Description	レスポンスを原子単位の主張に分割して、テキストレスポンスの事実性と整合性をチェックするスコアベースの指標。中間イベントでのツールの使用状況に基づいて、各クレームが根拠のあるものかどうかを確認します。また、フラグ `evaluate_intermediate_nl_responses` を true に設定することで、中間テキストレスポンスを評価することもできます。
SDK でアクセスする方法	`types.RubricMetric.HALLUCINATION`
入力	`response` `developer_instruction` `tool_declarations`（空のリストでも可） `intermediate_events`（関数呼び出しとレスポンスを含む。空のリストでも可） `evaluate_intermediate_nl_responses`（デフォルトは false）
出力	`score` `explanation` と対応する `verdicts` スコアの範囲は 0～1 で、入力プロンプトに対する `supported` または `no_rad`（挨拶、質問、免責事項など、事実に基づく帰属を必要としない）としてラベル付けされたクレームの割合を表します。説明には、コンテキストをサポートする主張、ラベル、理由、抜粋の構造化された内訳が含まれます。
LLM 呼び出しの数	Gemini 2.5 Flash への 2 回の呼び出し

エージェントツールの使用品質

最新バージョン	`tool_use_quality_v1`
タイプ	適応型ルーブリック
Description	適切なツールの選択、正しいパラメータの使用、指定された操作シーケンスの遵守を評価する、ターゲット設定された適応型ルーブリック指標。
SDK でアクセスする方法	`types.RubricMetric.TOOL_USE_QUALITY`
入力	`prompt` `developer_instruction` `tool_declarations`（空のリストでも可） `intermediate_events`（関数呼び出しとレスポンスを含む。空のリストでも可）（省略可）`rubric_groups`（ルーブリックがすでに生成されている場合は、評価用に直接提供できます）
出力	`score` `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 5 回の呼び出しと Gemini 2.5 Pro への 1 回の呼び出し

Gecko テキスト画像変換の品質

最新バージョン	`gecko_text2image_v1`
タイプ	適応型ルーブリック
Description	Gecko テキスト画像変換指標は、生成された画像の品質を対応するテキストプロンプトに対して評価するための、適応型のルーブリックに基づく手法です。この機能は、まずプロンプトから一連の質問を生成します。これらの質問は、プロンプト固有の詳細なルーブリックとして機能します。モデルは、生成された画像に基づいてこれらの質問に回答します。
SDK でアクセスする方法	`types.RubricMetric.GECKO_TEXT2IMAGE`
入力	`prompt` `response` - 画像 MIME タイプのファイルデータである必要があります
出力	`score` `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 2 回の呼び出し

Gecko テキスト動画変換の品質

最新バージョン	`gecko_text2video_v1`
タイプ	適応型ルーブリック
Description	Gecko テキスト動画変換指標は、生成された動画の品質を対応するテキストプロンプトに対して評価するための、適応型のルーブリックに基づく手法です。この機能は、まずプロンプトから一連の質問を生成します。これらの質問は、プロンプト固有の詳細なルーブリックとして機能します。モデルは、生成された動画に基づいてこれらの質問に回答します。
SDK でアクセスする方法	`types.RubricMetric.GECKO_TEXT2VIDEO`
入力	`prompt` `response` - 動画の MIME タイプのファイルデータである必要があります
出力	`score` `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 2 回の呼び出し

次のステップ

評価データセットを準備する。