Upload batch evaluasi

Halaman ini menjelaskan format yang diperlukan untuk mengupload evaluasi standar dalam file CSV. Untuk mengetahui detail tentang evaluasi standar, lihat dokumentasi evaluasi standar.

Download template

  • Buka tab Evaluate, lalu klik + Add test case -> Golden.
  • Di menu yang muncul, klik Download template.
  • Setelah menggunakan template untuk membuat file CSV yang berisi evaluasi emas, Anda dapat menguploadnya dengan mengklik Upload file di menu yang sama.

Struktur umum

  • Satu file CSV dapat berisi beberapa evaluasi. Setiap evaluasi dapat mencakup beberapa baris.
  • Baris pertama evaluasi adalah baris evaluasi dan menentukan properti keseluruhannya (nama dan metadata).
  • Setiap baris berikutnya adalah baris percakapan dan menentukan satu giliran percakapan dalam evaluasi (misalnya, pengguna akhir mengatakan sesuatu, agen diharapkan membalas, atau panggilan alat diharapkan).
  • Anda dapat memulai kasus pengujian baru dengan memberikan nama baru di kolom display_name. Setiap nilai display_name baru menentukan awal evaluasi baru.

Baris header

File CSV Anda harus memiliki baris header sebagai baris pertama. Header ini menentukan variabel data di setiap kolom. Semua variabel selain variabel yang diperlukan bersifat opsional, kecuali jika diperlukan oleh nilai action_type. Kolom variabel opsional dapat berada dalam urutan apa pun setelah variabel yang diperlukan.

  • Variabel wajib: display_name, turn_index, action_type.

Menentukan evaluasi percakapan

Setiap evaluasi baru dimulai di baris evaluasi. Setiap baris percakapan di bawah baris evaluasi sesuai dengan satu giliran percakapan, hingga baris evaluasi berikutnya.

Baris evaluasi

Baris pertama setelah baris header harus berupa baris evaluasi. Setiap baris evaluasi menentukan evaluasi baru.

  • Wajib: Masukkan nama unik yang dapat dibaca manusia untuk evaluasi di kolom display_name.
  • Opsional: Anda dapat menambahkan data variabel metadata di baris ini jika diinginkan.

Baris percakapan

Setiap baris sesuai dengan data dari satu giliran percakapan.

  • Wajib: Masukkan nilai di kolom turn_index dan action_type. display_name harus dibiarkan kosong.
  • Opsional: Masukkan nilai untuk kolom header selain variabel metadata atau display_name.

Variabel

Tabel berikut menjelaskan variabel data yang tersedia. Semua variabel selain variabel wajib bersifat opsional, kecuali jika diperlukan oleh nilai action_type tertentu. Semua variabel harus ditentukan di baris header, satu per kolom. Kolom variabel opsional dapat berada dalam urutan apa pun setelah kolom wajib diisi.

Variabel header yang diperlukan

Nama kolom Deskripsi
display_name Nama evaluasi yang dapat dibaca manusia. Kolom ini hanya diisi untuk baris pertama evaluasi baru. Setiap nilai display_name baru menentukan evaluasi baru.
turn_index Angka (1, 2, 3...) yang menunjukkan urutan pergantian percakapan. Semua baris dalam satu giliran memiliki nilai indeks yang sama. Nilai harus dimulai dari 1 untuk setiap evaluasi. Setiap baris berikutnya harus memiliki nilai yang sama atau lebih besar dari baris sebelumnya.
action_type Menentukan apa yang diwakili oleh data baris ini. Setiap nilai memiliki nilai variabel opsional yang juga harus diisi (seperti yang ditunjukkan) agar giliran percakapan dapat dimasukkan dengan benar. Nilai input harus salah satu dari berikut:

INPUT_TEXT: Input teks pengguna akhir.
- (Wajib) text_content.

INPUT_IMAGE: Input gambar pengguna akhir.
- (Wajib) image_mime_type, image_content.

INPUT_TOOL_RESPONSE: Input respons alat.
- (Wajib) tool_name.
- (Opsional) tool_response_json.

INPUT_UPDATED_VARIABLES: Perbarui variabel dari input.
- (Wajib) updated_variables_json

EXPECTATION_TEXT: Output yang diharapkan dari respons teks agen.
- (Wajib) response_agent, text_content.
- (Opsional) expectation_note.

EXPECTATION_TOOL_CALL: Panggilan alat yang diharapkan.
- (Wajib) tool_name.
- (Opsional) tool_call_args_json, expectation_note.

EXPECTATION_TOOL_RESPONSE: Respons alat yang diharapkan.
- (Wajib) tool_name.
- (Opsional) expectation_note.

EXPECTATION_AGENT_TRANSFER: Transfer agen yang diharapkan.
- (Wajib) agent_transfer_target.
- (Opsional) expectation_note.

Variabel metadata

Nama kolom Deskripsi
evaluation_id ID unik untuk evaluasi. Setiap nilai evaluation_id harus unik untuk agen Customer Experience Agent Studio Anda. Jika tidak ada nilai yang dimasukkan secara manual di kolom ini, ID unik akan dibuat secara otomatis.
description Catatan teks bebas atau deskripsi tujuan evaluasi.
tags Tag yang dipisahkan dengan titik koma untuk mengatur evaluasi (misalnya, "tag1;tag2").
evaluation_groups Nama grup evaluasi yang dipisahkan dengan titik koma yang menjadi bagian dari evaluasi (misalnya, "nama grup 1;nama grup 2"). Setiap nilai evaluation_groups yang dimasukkan dalam kolom ini, tetapi tidak ditentukan di header, akan diabaikan.

Variabel giliran percakapan

Nama kolom Deskripsi
response_agent Nama agen yang memberikan respons. Hanya diharapkan untuk EXPECTATION_TEXT.
text_content Teks untuk INPUT_TEXT atau EXPECTATION_TEXT.
image_mime_type Jenis MIME standar IANA dari gambar sumber. Nilai yang didukung: image/png, image/jpeg, image/webp, image/heic, image/heif.
image_content String byte INPUT_IMAGE.
tool_name display_name untuk alat yang dipanggil atau merespons. Diharapkan untuk INPUT_TOOL_RESPONSE,EXPECTATION_TOOL_CALL atau EXPECTATION_TOOL_RESPONSE.
tool_call_args_json Argumen JSON untuk EXPECTATION_TOOL_CALL.
tool_response_json Konten JSON dari INPUT_TOOL_RESPONSE.
updated_variables_json Konten JSON untuk INPUT_UPDATED_VARIABLES.
agent_transfer_target Nama tampilan agen target untuk EXPECTATION_AGENT_TRANSFER.
expectation_note Catatan atau deskripsi ekspektasi.