このページでは、CSV ファイルでゴールド評価をアップロードするために必要な形式について説明します。ゴールデン評価の詳細については、ゴールデン評価のドキュメントをご覧ください。
テンプレートをダウンロードする
- [Evaluate] タブに移動し、[+ Add test case -> Golden] をクリックします。
- 表示されるメニューで [テンプレートをダウンロード] をクリックします。
- テンプレートを使用してゴールデン評価を含む CSV ファイルを作成したら、同じメニューの [ファイルをアップロード] をクリックしてアップロードできます。
一般的な構造
- 1 つの CSV ファイルに複数の評価を含めることができます。各評価は複数の行にまたがることができます。
- 評価の最初の行は評価行で、全体的なプロパティ(名前とメタデータ)を定義します。
- 後続の各行は会話行であり、評価における 1 つの会話ターンを定義します(エンドユーザーが発言する、エージェントが返信する、ツール呼び出しが想定されるなど)。
display_name列に新しい名前を入力すると、新しいテストケースを開始できます。新しいdisplay_name値はそれぞれ、新しい評価の開始を定義します。
ヘッダー行
CSV ファイルの 1 行目はヘッダー行である必要があります。このヘッダーは、各列のデータ変数を定義します。必須変数以外の変数はすべて省略可能です。ただし、action_type 値で必須とされている場合は除きます。省略可能な変数列は、必須変数の後に任意の順序で配置できます。
- 必須変数:
display_name、turn_index、action_type。
会話の評価を定義する
新しい評価は、評価行から始まります。評価行の下にある各会話行は、次の評価行まで 1 つの会話ターンに対応します。
評価行
ヘッダー行の次の行は、評価行にする必要があります。評価行ごとに新しい評価が定義されます。
- 必須:
display_nameフィールドに、評価の一意の人間が読める名前を入力します。 - 省略可: この行にメタデータ変数データを追加することもできます。
会話の行
各行は 1 つの会話ターンのデータに対応しています。
- 必須:
turn_indexフィールドとaction_typeフィールドに値を入力します。display_nameは空白のままにする必要があります。 - 省略可: メタデータ変数または
display_name以外のヘッダー列の値を入力します。
変数
次の表に、使用可能なデータ変数を示します。必須変数以外のすべての変数は、action_type 値で必須とされていない限り、省略可能です。すべての変数はヘッダー行で定義する必要があります(1 列に 1 つ)。省略可能な変数列は、必須列の後に任意の順序で配置できます。
必須のヘッダー変数
| 列名 | 説明 |
|---|---|
display_name |
人が読める形式の評価の名前。これは、新しい評価の最初の行にのみ入力されます。新しい display_name 値は新しい評価を定義します。 |
turn_index |
会話ターンの順序を示す番号(1、2、3 など)。1 つのターン内のすべての行は、インデックス値を共有します。値は評価ごとに 1 から始める必要があります。後続の各行の値は、前の行の値以上である必要があります。 |
action_type |
この行のデータが何を表すかを指定します。各値には、会話ターンが正しく入力されるように、入力する必要がある(示されているように)省略可能な変数があります。入力値は次のいずれかにする必要があります。INPUT_TEXT: エンドユーザーのテキスト入力。-(必須) text_content。INPUT_IMAGE: エンドユーザーの画像入力。-(必須) image_mime_type、image_content。INPUT_TOOL_RESPONSE: ツールのレスポンス入力。-(必須) tool_name。-(省略可) tool_response_json。INPUT_UPDATED_VARIABLES: 入力から変数を更新します。-(必須) updated_variables_jsonEXPECTATION_TEXT: エージェントのテキスト レスポンスから想定される出力。-(必須) response_agent、text_content。-(省略可) expectation_note。EXPECTATION_TOOL_CALL: 予想されるツール呼び出し。-(必須) tool_name。-(省略可) tool_call_args_json、expectation_note。EXPECTATION_TOOL_RESPONSE: ツールからの想定されるレスポンス。-(必須) tool_name。-(省略可) expectation_note。EXPECTATION_AGENT_TRANSFER: エージェントの転送が想定されます。-(必須) agent_transfer_target。-(省略可) expectation_note。 |
メタデータ変数
| 列名 | 説明 |
|---|---|
evaluation_id |
評価の一意の ID。各 evaluation_id 値は、Customer Experience Agent Studio エージェントに対して一意である必要があります。この列に手動で値が入力されていない場合は、一意の ID が自動的に生成されます。 |
description |
自由形式のメモまたは評価の目的の説明。 |
tags |
評価を整理するためのタグ(セミコロン区切り)。例: 「tag1;tag2」。 |
evaluation_groups |
評価が属する評価グループの名前(「グループ名 1;グループ名 2」など)をセミコロンで区切って指定します。この列に入力された evaluation_groups 値のうち、ヘッダーで定義されていない値は無視されます。 |
会話ターンの変数
| 列名 | 説明 |
|---|---|
response_agent |
レスポンスを提供したエージェントの名前。EXPECTATION_TEXT でのみ想定されます。 |
text_content |
INPUT_TEXT または EXPECTATION_TEXT のテキスト。 |
image_mime_type |
ソース画像の IANA 標準 MIME タイプ。サポートされている値: image/png、image/jpeg、image/webp、image/heic、image/heif。 |
image_content |
INPUT_IMAGE のバイト文字列。 |
tool_name |
呼び出し中または応答中のツールの display_name。INPUT_TOOL_RESPONSE,EXPECTATION_TOOL_CALL または EXPECTATION_TOOL_RESPONSE で想定されます。 |
tool_call_args_json |
EXPECTATION_TOOL_CALL の JSON 引数。 |
tool_response_json |
INPUT_TOOL_RESPONSE の JSON コンテンツ。 |
updated_variables_json |
INPUT_UPDATED_VARIABLES の JSON コンテンツ。 |
agent_transfer_target |
EXPECTATION_AGENT_TRANSFER のターゲット エージェントの表示名。 |
expectation_note |
期待値のメモまたは説明。 |