評価バッチのアップロード

このページでは、CSV ファイルでゴールド評価をアップロードするために必要な形式について説明します。ゴールデン評価の詳細については、ゴールデン評価のドキュメントをご覧ください。

テンプレートをダウンロードする

[Evaluate] タブに移動し、[+ Add test case -> Golden] をクリックします。
表示されるメニューで [テンプレートをダウンロード] をクリックします。
テンプレートを使用してゴールデン評価を含む CSV ファイルを作成したら、同じメニューの [ファイルをアップロード] をクリックしてアップロードできます。

一般的な構造

1 つの CSV ファイルに複数の評価を含めることができます。各評価は複数の行にまたがることができます。
評価の最初の行は評価行で、全体的なプロパティ（名前とメタデータ）を定義します。
後続の各行は会話行であり、評価における 1 つの会話ターンを定義します（エンドユーザーが発言する、エージェントが返信する、ツール呼び出しが想定されるなど）。
display_name 列に新しい名前を入力すると、新しいテストケースを開始できます。新しい display_name 値はそれぞれ、新しい評価の開始を定義します。

ヘッダー行

CSV ファイルの 1 行目はヘッダー行である必要があります。このヘッダーは、各列のデータ変数を定義します。必須変数以外の変数はすべて省略可能です。ただし、action_type 値で必須とされている場合は除きます。省略可能な変数列は、必須変数の後に任意の順序で配置できます。

必須変数: display_name、turn_index、action_type。

会話の評価を定義する

新しい評価は、評価行から始まります。評価行の下にある各会話行は、次の評価行まで 1 つの会話ターンに対応します。

評価行

ヘッダー行の次の行は、評価行にする必要があります。評価行ごとに新しい評価が定義されます。

必須: display_name フィールドに、評価の一意の人間が読める名前を入力します。
省略可: この行にメタデータ変数データを追加することもできます。

会話の行

各行は 1 つの会話ターンのデータに対応しています。

必須: turn_index フィールドと action_type フィールドに値を入力します。display_name は空白のままにする必要があります。
省略可: メタデータ変数または display_name 以外のヘッダー列の値を入力します。

変数

次の表に、使用可能なデータ変数を示します。必須変数以外のすべての変数は、action_type 値で必須とされていない限り、省略可能です。すべての変数はヘッダー行で定義する必要があります（1 列に 1 つ）。省略可能な変数列は、必須列の後に任意の順序で配置できます。

必須のヘッダー変数

列名	説明
`display_name`	人が読める形式の評価の名前。これは、新しい評価の最初の行にのみ入力されます。新しい `display_name` 値は新しい評価を定義します。
`turn_index`	会話ターンの順序を示す番号（1、2、3 など）。1 つのターン内のすべての行は、インデックス値を共有します。値は評価ごとに 1 から始める必要があります。後続の各行の値は、前の行の値以上である必要があります。
`action_type`	この行のデータが何を表すかを指定します。各値には、会話ターンが正しく入力されるように、入力する必要がある（示されているように）省略可能な変数があります。入力値は次のいずれかにする必要があります。 `INPUT_TEXT`: エンドユーザーのテキスト入力。 -（必須）`text_content`。 `INPUT_IMAGE`: エンドユーザーの画像入力。 -（必須）`image_mime_type`、`image_content`。 `INPUT_TOOL_RESPONSE`: ツールのレスポンス入力。 -（必須）`tool_name`。 -（省略可）`tool_response_json`。 `INPUT_UPDATED_VARIABLES`: 入力から変数を更新します。 -（必須）`updated_variables_json` `EXPECTATION_TEXT`: エージェントのテキストレスポンスから想定される出力。 -（必須）`response_agent`、`text_content`。 -（省略可）`expectation_note`。 `EXPECTATION_TOOL_CALL`: 予想されるツール呼び出し。 -（必須）`tool_name`。 -（省略可）`tool_call_args_json`、`expectation_note`。 `EXPECTATION_TOOL_RESPONSE`: ツールからの想定されるレスポンス。 -（必須）`tool_name`。 -（省略可）`expectation_note`。 `EXPECTATION_AGENT_TRANSFER`: エージェントの転送が想定されます。 -（必須）`agent_transfer_target`。 -（省略可）`expectation_note`。

メタデータ変数

列名	説明
`evaluation_id`	評価の一意の ID。各 `evaluation_id` 値は、Customer Experience Agent Studio エージェントに対して一意である必要があります。この列に手動で値が入力されていない場合は、一意の ID が自動的に生成されます。
`description`	自由形式のメモまたは評価の目的の説明。
`tags`	評価を整理するためのタグ（セミコロン区切り）。例: 「tag1;tag2」。
`evaluation_groups`	評価が属する評価グループの名前（「グループ名 1;グループ名 2」など）をセミコロンで区切って指定します。この列に入力された `evaluation_groups` 値のうち、ヘッダーで定義されていない値は無視されます。

会話ターンの変数

列名	説明
`response_agent`	レスポンスを提供したエージェントの名前。`EXPECTATION_TEXT` でのみ想定されます。
`text_content`	`INPUT_TEXT` または `EXPECTATION_TEXT` のテキスト。
`image_mime_type`	ソース画像の IANA 標準 MIME タイプ。サポートされている値: `image/png`、`image/jpeg`、`image/webp`、`image/heic`、`image/heif`。
`image_content`	`INPUT_IMAGE` のバイト文字列。
`tool_name`	呼び出し中または応答中のツールの `display_name`。`INPUT_TOOL_RESPONSE,EXPECTATION_TOOL_CALL` または `EXPECTATION_TOOL_RESPONSE` で想定されます。
`tool_call_args_json`	`EXPECTATION_TOOL_CALL` の JSON 引数。
`tool_response_json`	`INPUT_TOOL_RESPONSE` の JSON コンテンツ。
`updated_variables_json`	`INPUT_UPDATED_VARIABLES` の JSON コンテンツ。
`agent_transfer_target`	`EXPECTATION_AGENT_TRANSFER` のターゲットエージェントの表示名。
`expectation_note`	期待値のメモまたは説明。