評価バッチのアップロード

このページでは、CSV ファイルでゴールド評価をアップロードするために必要な形式について説明します。ゴールデン評価の詳細については、ゴールデン評価のドキュメントをご覧ください。

テンプレートをダウンロードする

  • [Evaluate] タブに移動し、[+ Add test case -> Golden] をクリックします。
  • 表示されるメニューで [テンプレートをダウンロード] をクリックします。
  • テンプレートを使用してゴールデン評価を含む CSV ファイルを作成したら、同じメニューの [ファイルをアップロード] をクリックしてアップロードできます。

一般的な構造

  • 1 つの CSV ファイルに複数の評価を含めることができます。各評価は複数の行にまたがることができます。
  • 評価の最初の行は評価行で、全体的なプロパティ(名前とメタデータ)を定義します。
  • 後続の各行は会話行であり、評価における 1 つの会話ターンを定義します(エンドユーザーが発言する、エージェントが返信する、ツール呼び出しが想定されるなど)。
  • display_name 列に新しい名前を入力すると、新しいテストケースを開始できます。新しい display_name 値はそれぞれ、新しい評価の開始を定義します。

ヘッダー行

CSV ファイルの 1 行目はヘッダー行である必要があります。このヘッダーは、各列のデータ変数を定義します。必須変数以外の変数はすべて省略可能です。ただし、action_typeで必須とされている場合は除きます。省略可能な変数列は、必須変数の後に任意の順序で配置できます。

  • 必須変数: display_nameturn_indexaction_type

会話の評価を定義する

新しい評価は、評価行から始まります。評価行の下にある各会話行は、次の評価行まで 1 つの会話ターンに対応します。

評価行

ヘッダー行の次の行は、評価行にする必要があります。評価行ごとに新しい評価が定義されます。

  • 必須: display_name フィールドに、評価の一意の人間が読める名前を入力します。
  • 省略可: この行にメタデータ変数データを追加することもできます。

会話の行

各行は 1 つの会話ターンのデータに対応しています。

  • 必須: turn_index フィールドと action_type フィールドに値を入力します。display_name は空白のままにする必要があります。
  • 省略可: メタデータ変数または display_name 以外のヘッダー列の値を入力します。

変数

次の表に、使用可能なデータ変数を示します。必須変数以外のすべての変数は、action_type 値で必須とされていない限り、省略可能です。すべての変数はヘッダー行で定義する必要があります(1 列に 1 つ)。省略可能な変数列は、必須列の後に任意の順序で配置できます。

必須のヘッダー変数

列名 説明
display_name 人が読める形式の評価の名前。これは、新しい評価の最初の行にのみ入力されます。新しい display_name 値は新しい評価を定義します。
turn_index 会話ターンの順序を示す番号(1、2、3 など)。1 つのターン内のすべての行は、インデックス値を共有します。値は評価ごとに 1 から始める必要があります。後続の各行の値は、前の行の値以上である必要があります。
action_type この行のデータが何を表すかを指定します。各値には、会話ターンが正しく入力されるように、入力する必要がある(示されているように)省略可能な変数があります。入力値は次のいずれかにする必要があります。

INPUT_TEXT: エンドユーザーのテキスト入力。
-(必須)text_content

INPUT_IMAGE: エンドユーザーの画像入力。
-(必須)image_mime_typeimage_content

INPUT_TOOL_RESPONSE: ツールのレスポンス入力。
-(必須)tool_name
-(省略可)tool_response_json

INPUT_UPDATED_VARIABLES: 入力から変数を更新します。
-(必須)updated_variables_json

EXPECTATION_TEXT: エージェントのテキスト レスポンスから想定される出力。
-(必須)response_agenttext_content
-(省略可)expectation_note

EXPECTATION_TOOL_CALL: 予想されるツール呼び出し。
-(必須)tool_name
-(省略可)tool_call_args_jsonexpectation_note

EXPECTATION_TOOL_RESPONSE: ツールからの想定されるレスポンス。
-(必須)tool_name
-(省略可)expectation_note

EXPECTATION_AGENT_TRANSFER: エージェントの転送が想定されます。
-(必須)agent_transfer_target
-(省略可)expectation_note

メタデータ変数

列名 説明
evaluation_id 評価の一意の ID。各 evaluation_id 値は、Customer Experience Agent Studio エージェントに対して一意である必要があります。この列に手動で値が入力されていない場合は、一意の ID が自動的に生成されます。
description 自由形式のメモまたは評価の目的の説明。
tags 評価を整理するためのタグ(セミコロン区切り)。例: 「tag1;tag2」。
evaluation_groups 評価が属する評価グループの名前(「グループ名 1;グループ名 2」など)をセミコロンで区切って指定します。この列に入力された evaluation_groups 値のうち、ヘッダーで定義されていない値は無視されます。

会話ターンの変数

列名 説明
response_agent レスポンスを提供したエージェントの名前。EXPECTATION_TEXT でのみ想定されます。
text_content INPUT_TEXT または EXPECTATION_TEXT のテキスト。
image_mime_type ソース画像の IANA 標準 MIME タイプ。サポートされている値: image/pngimage/jpegimage/webpimage/heicimage/heif
image_content INPUT_IMAGE のバイト文字列。
tool_name 呼び出し中または応答中のツールの display_nameINPUT_TOOL_RESPONSE,EXPECTATION_TOOL_CALL または EXPECTATION_TOOL_RESPONSE で想定されます。
tool_call_args_json EXPECTATION_TOOL_CALL の JSON 引数。
tool_response_json INPUT_TOOL_RESPONSE の JSON コンテンツ。
updated_variables_json INPUT_UPDATED_VARIABLES の JSON コンテンツ。
agent_transfer_target EXPECTATION_AGENT_TRANSFER のターゲット エージェントの表示名。
expectation_note 期待値のメモまたは説明。