評価指標を定義する

評価データセットを作成したら、次に、モデルのパフォーマンスの測定に使用する指標を定義します。生成 AI モデルでは幅広いタスク向けのアプリケーションを作成できるため、Gen AI Evaluation Service は、主観的な評価を客観的で実用的な結果に変換するテスト駆動型フレームワークを使用します。

指標タイプの詳細については、Gen AI Evaluation Service の概要ページの評価指標セクションをご覧ください。

全般的な品質の指標

適応型ルーブリックには SDK を通じてアクセスできます。最初は GENERAL_QUALITY をデフォルトとして使用することをおすすめします。

GENERAL_QUALITY は、指示の実行、書式、トーン、スタイルなど、さまざまなタスクをカバーする一連のルーブリックを入力プロンプトに応じて生成します。次のコード行で、ルーブリックの生成と検証を組み合わせることができます。

from vertexai import types

eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        types.RubricMetric.GENERAL_QUALITY,
    ],
)

モデルの回答の評価に使用する前にルーブリックを別途生成することもできます（ルーブリックを確認したり、複数のモデルとエージェントの間で再利用したりするため）。

from vertexai import types

# Use GENERAL_QUALITY recipe to generate rubrics, and store them
# as a rubric group named "general_quality_rubrics".
data_with_rubrics = client.evals.generate_rubrics(
    src=eval_dataset_df,
    rubric_group_name="general_quality_rubrics",
    predefined_spec_name=types.RubricMetric.GENERAL_QUALITY,
)

# Specify the group of rubrics to use for the evaluation.
eval_result = client.evals.evaluate(
    dataset=data_with_rubrics,
    metrics=[types.RubricMetric.GENERAL_QUALITY(
      rubric_group_name="general_quality_rubrics",
    )],
)

GENERAL_QUALITY で自然言語の guidelines を使用して、最も重要な基準に焦点を当ててルーブリックを生成させることもできます。この場合、デフォルトのタスクと指定したガイドラインの両方をカバーするルーブリックが生成されます。

from vertexai import types

eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        types.RubricMetric.GENERAL_QUALITY(
            metric_spec_parameters={
                "guidelines": "The response must maintain a professional tone and must not provide financial advice."
            }
        )
    ],
)

的を絞った品質の指標

モデルの品質を評価する際に特定の側面に的を絞る必要がある場合は、特定の領域に焦点を当ててルーブリックを生成する指標を使用できます。次に例を示します。

from vertexai import types

eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        types.RubricMetric.TEXT_QUALITY,
        types.RubricMetric.INSTRUCTION_FOLLOWING,
    ],
)

Gen AI Evaluation Service には、次のタイプの適応型ルーブリックが用意されています。

INSTRUCTION_FOLLOWING: 回答がプロンプトの特定の制約と指示にどの程度準拠しているかを測定します。
TEXT_QUALITY: 回答の言語品質に特に重点を置き、流暢さ、一貫性、文法を評価します。

マルチターンの会話

multi_turn_general_quality: マルチターンの会話で会話全体の品質を評価します。
multi_turn_text_quality: マルチターンの会話で回答のテキスト品質を評価します。

エージェントの評価

final_response_reference_free: エージェントの最終的な回答の品質を参照回答なしで評価します。
final_response_quality: 適応型ルーブリックを使用して、エージェントの構成とツールの使用状況に基づき、エージェントの最終的な回答の品質を評価します。
hallucination: エージェントの構成とツールの使用状況に基づき、エージェントによるテキストのレスポンスがグラウンディングされているかどうかを評価します。
tool_use_quality: ユーザープロンプトに応じてエージェントが行った関数呼び出しの正しさを評価します。

的を絞った適応型ルーブリックの詳細については、適応型ルーブリックの詳細をご覧ください。

静的ルーブリック

静的ルーブリックでは、データセット内のすべての例に単一の固定されたスコアリングガイドラインが適用されます。このスコア駆動型のアプローチは、すべてのプロンプトのパフォーマンスを一貫したベンチマークで測定する必要がある場合に便利です。

たとえば、次の静的ルーブリックはテキストの品質を 5 段階で評価します。

5: (Very good). Exceptionally clear, coherent, fluent, and concise. Fully adheres to instructions and stays grounded.
4: (Good). Well-written, coherent, and fluent. Mostly adheres to instructions and stays grounded. Minor room for improvement.
3: (Ok). Adequate writing with decent coherence and fluency. Partially fulfills instructions and may contain minor ungrounded information. Could be more concise.
2: (Bad). Poorly written, lacking coherence and fluency. Struggles to adhere to instructions and may include ungrounded information. Issues with conciseness.
1: (Very bad). Very poorly written, incoherent, and non-fluent. Fails to follow instructions and contains substantial ungrounded information. Severely lacking in conciseness.

Gen AI Evaluation Service には、次の静的ルーブリック指標が用意されています。

GROUNDING: 提供されたソーステキスト（グラウンドトゥルース）に対する事実性と整合性をチェックします。この指標は RAG システムにとって重要です。
SAFETY: ヘイトスピーチや危険なコンテンツなど、安全性ポリシーの違反についてモデルの回答を評価します。

FLUENCY などの指標プロンプトテンプレートを使用することもできます。

from vertexai import types

eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        types.RubricMetric.SAFETY,
        types.RubricMetric.GROUNDING,
        types.RubricMetric.FLUENCY,
    ],
)

静的ルーブリックのカスタマイズ

特殊なニーズがある場合は、独自の静的ルーブリックを作成できます。この方法では最大限の制御が可能ですが、一貫性のある信頼性の高い結果を得るには評価プロンプトを慎重に設計する必要があります。静的ルーブリックをカスタマイズする前に、GENERAL_QUALITY のガイドラインを使用することをおすすめします。

# Define a custom metric to evaluate language simplicity
simplicity_metric = types.LLMMetric(
    name='language_simplicity',
    prompt_template=types.MetricPromptBuilder(
        instruction="Evaluate the story's simplicity for a 5-year-old.",
        criteria={
            "Vocabulary": "Uses simple words.",
            "Sentences": "Uses short sentences.",
        },
        rating_scores={
            "5": "Excellent: Very simple, ideal for a 5-year-old.",
            "4": "Good: Mostly simple, with minor complex parts.",
            "3": "Fair: Mix of simple and complex; may be challenging for a 5-year-old.",
            "2": "Poor: Largely too complex, with difficult words/sentences.",
            "1": "Very Poor: Very complex, unsuitable for a 5-year-old."
        }
    )
)

eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        simplicity_metric
    ],
)

計算ベースの指標

計算ベースの指標は、決定的アルゴリズムを使用して、モデルの回答を参照回答と比較してスコアを付けます。データセットにグラウンドトゥルースが必要であり、「正解」が明確に定義されているタスクに最適です。

Recall-Oriented Understudy for Gisting Evaluation（rouge_l、rouge_1）: モデルの回答と参照テキストの n グラム（連続する単語のシーケンス）の適合率を測定します。通常は、テキスト要約の評価に使用されます。
Bilingual Evaluation Understudy（bleu）: 一致する n グラムをカウントして、回答と高品質の参照テキストの類似度を測定します。これは翻訳の品質の標準的な指標ですが、他のテキスト生成タスクにも使用できます。
完全一致（exact_match）: 参照回答と完全に一致する回答の割合を測定します。これは、事実に基づく質問応答や、正しい回答が 1 つしかないタスクに役立ちます。

from vertexai import types

eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        types.Metric(name='bleu'),
        types.Metric(name='rouge_l'),
        types.Metric(name='exact_match')
    ],
)

カスタム関数指標

custom_function パラメータにカスタム Python 関数を渡してカスタム評価ロジックを実装することもできます。Gen AI Evaluation Service は、その関数をデータセットの各行に対して実行します。

# Define a custom function to check for the presence of a keyword
def contains_keyword(instance: dict) -> dict:
    keyword = "magic"
    response_text = instance.get("response", "")
    score = 1.0 if keyword in response_text.lower() else 0.0
    return {"score": score}

keyword_metric = types.Metric(
    name="keyword_check",
    custom_function=contains_keyword
)

eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[keyword_metric]
)

リモートカスタム関数指標

カスタム評価ロジックをローカルで実行するだけでなく、リモートのサンドボックス環境で安全に実行されるカスタム評価ロジックを実装することもできます。これは、モデルチューニングワークフローの一部として評価を統合する場合や、既存の評価指標でカバーされていないユーザー固有のシナリオがある場合に便利です。これを行うには、Python コードスニペットを文字列として Metric クラスの remote_custom_function パラメータに渡します。Gen AI Evaluation Service は、その関数をデータセットの各行に対してリモートで実行します。

import pandas as pd
from vertexai import types

code_snippet = """
def evaluate(instance):
    if instance['response'] == instance['reference']:
        return 1.0
    return 0.0
"""

custom_metric = types.Metric(
    name="my_custom_code_metric",
    remote_custom_function=code_snippet,
)

prompts_df = pd.DataFrame(
    {
        "prompt": ["What is 2+2?", "What is 3+3?"],
        "response": ["4", "5"],
        "reference": ["4", "6"],
    }
)

eval_dataset = types.EvaluationDataset(
    eval_dataset_df=prompts_df,
    candidate_name="test_model",
)

evaluation_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[custom_metric],
)

評価インスタンスの入力

evaluate 関数は、instance ディクショナリを引数として受け取ります。instance は評価インスタンスを表し、EvaluationInstance に入力されたフィールドは、関数で instance[field_name] として使用できます。使用可能なフィールドは次のとおりです。

prompt: モデルに指定されたユーザープロンプト。
response: モデルによって生成された出力。
reference: レスポンスと比較するために使用されるグラウンドトゥルース。
rubric_groups: プロンプトに関連付けられたルーブリックの名前付きグループ。
other_data: キーに基づいてプレースホルダに入力するために使用されるその他のデータ。
agent_eval_data: エージェントの構成やトレースなど、エージェントの評価に固有のデータ。

技術的な制約

実行環境: カスタムコードは、ネットワークアクセスのないサンドボックス環境で実行されます。
実行時間の上限: グレーディングの実行自体は 1 分に制限されています。
メモリ上限: アップロードされたコードの合計サイズと、実行中に読み込まれたデータの合計サイズが 1.5 GB を超えないようにする必要があります。

実行時には、次のサードパーティパッケージを使用できます。

altair
chess
cv2
deepdiff
editdistance
jsonschema
matplotlib
mpmath
nltk
numpy
pandas
pdfminer
pydantic
rdkit
reportlab
scipy
seaborn
sklearn
sqlparse
statsmodels
striprtf
sympy
tabulate