Evaluasi

Evaluasi adalah alat penting untuk menguji performa agen Anda dan memastikan agen berperilaku seperti yang diharapkan dalam situasi tertentu. Evaluasi memungkinkan Anda mengotomatiskan pengujian, menangkap regresi setelah melakukan perubahan, dan mengukur kualitas respons agen untuk meningkatkan kualitas agen Anda.

Untuk memulai, klik tombol Evaluate di bagian atas pembuat agen.

Konsep evaluasi

Kasus pengujian: Setiap kasus pengujian adalah skenario atau perintah pengujian spesifik dan mandiri yang dirancang untuk menilai performa agen. Anda dapat membuat dua jenis kasus pengujian yang berbeda:

Skenario: Fitur yang didukung AI untuk mem-bootstrap pengujian dan memastikan cakupan pengujian yang komprehensif. Anda menjelaskan tujuan pengguna, dan sistem akan otomatis menyimulasikan pengguna dan membuat percakapan untuk menguji kemampuan agen dalam menangani skenario secara efektif. Skenario adalah cara yang berguna untuk bereksperimen dan membantu menentukan percakapan yang ideal.
Golden: Ideal untuk pengujian regresi. Anda memberikan jalur percakapan "ideal" yang spesifik, dan evaluasi akan memeriksa apakah perilaku agen cocok dengan jalur ideal ini, termasuk panggilan alat.

Jalankan: Jalankan evaluasi mewakili eksekusi lengkap dan tunggal dari serangkaian kasus pengujian emas dan skenario terhadap performa agen yang Anda uji. Setiap operasi dapat menyertakan satu atau beberapa kasus pengujian.

Hasil: Hasil kasus pengujian mengacu pada satu eksekusi kasus pengujian tertentu dalam satu proses. Jika kasus pengujian dijalankan beberapa kali selama satu eksekusi evaluasi (misalnya, untuk memeriksa konsistensi, ketidakstabilan, dan sebagainya), setiap eksekusi individual adalah hasil individual. Hasil ditampilkan sebagai ikon persegi panjang dalam kolom di setiap baris kasus pengujian, yang menampilkan X merah jika eksekusi gagal dan tanda centang hijau jika berhasil.

Tag: Kasus pengujian dapat dikelompokkan dengan tag agar lebih mudah dikelola.

Membuat kasus pengujian

Untuk membuat dan mengakses kasus pengujian untuk agen Anda, klik tombol Evaluate di bagian atas pembuat agen. Anda dapat membuat dan mengelola kasus pengujian berbasis golden atau skenario.

Skenario

Kasus pengujian berbasis skenario menggunakan AI untuk otomatis membuat berbagai percakapan berdasarkan tujuan pengguna tingkat tinggi yang Anda tentukan. Dengan kasus pengujian ini, Anda tidak perlu memberikan percakapan standar tertentu, tetapi memilih skenario yang dihasilkan atau mendeskripsikan skenario tertentu yang harus diuji. Ini adalah alat canggih untuk membantu Anda menjelajahi kasus ekstrem dan menguji keandalan agen tanpa harus menulis setiap kemungkinan jalur percakapan secara manual.

Setelah skenario ini berfungsi dengan baik, Anda dapat menyimpannya sebagai percakapan ideal.

Untuk membuat skenario:

Klik Buat skenario. Beberapa skenario disarankan untuk Anda.
Anda dapat membuat skenario berdasarkan pilihan atau membuat skenario baru dari awal.

Saat melihat daftar skenario, Anda dapat mencantumkan detail dan daftar percakapan untuk setiap skenario dengan mengklik skenario.

Untuk menyimpan skenario sebagai percakapan emas:

Pilih skenario.
Klik tombol menu di pojok kanan atas.
Pilih Simpan sebagai percakapan emas.

Tujuan pengguna skenario

Setiap skenario memiliki sasaran pengguna, yang mendeskripsikan sasaran pengguna akhir saat menggunakan aplikasi agen. Contoh:

Securely book a specific room at a chosen hotel and receive a confirmation.

Berdasarkan sasaran pengguna Anda, CX Agent Studio akan otomatis membuat percakapan yang digunakan untuk evaluasi.

Variabel skenario

Saat menentukan skenario, Anda dapat memberikan variabel yang akan digunakan untuk skenario tersebut.

Ekspektasi skenario

Untuk melakukan evaluasi, Anda menentukan ekspektasi untuk kasus pengujian.

Ekspektasi dapat berupa salah satu dari dua jenis berikut:

Pesan: Pesan pengguna akhir atau agen yang diharapkan.
Panggilan alat: Panggilan alat dengan input dan output yang diharapkan.

Ekspektasi dapat memiliki kondisi berikut:

Wajib memiliki
Tidak boleh memiliki
Setelah panggilan alat
Nilai variabel

Untuk menciptakan ekspektasi:

Klik skenario tertentu untuk membuka detailnya.
Di bagian Ekspektasi, klik Lihat semua.
Ikuti petunjuk antarmuka untuk membuat ekspektasi untuk skenario.

Golden

Kasus pengujian ini digunakan untuk menentukan jalur percakapan yang ideal untuk pengujian regresi sehingga jalur percakapan inti yang penting tidak terganggu saat Anda memperbarui agen. Ada beberapa opsi untuk membuat percakapan emas:

Untuk mengimpor percakapan dari simulator:

Mulai percakapan menggunakan simulator.
Klik tiga titik vertikal di sudut kanan atas simulator untuk membuka menu simulator.
Klik Simpan sebagai emas.
Masukkan nama untuk kasus pengujian standar, lalu klik Simpan. Sekarang, file akan muncul di tab Evaluasi.

Untuk membuat kasus pengujian dari histori percakapan:

Buka tab Evaluasi, lalu klik + Tambahkan kasus pengujian -> Golden.
Klik pilih dari histori percakapan.
Di jendela yang muncul, pilih percakapan yang ingin Anda simpan sebagai kasus pengujian utama. Anda memiliki opsi untuk menelusuri berdasarkan ID percakapan.
Jika Anda telah mengaktifkan penyamaran, periksa respons dan variabel agen untuk penyamaran sebelum melanjutkan dengan informasi yang tidak ada.
Klik Tambahkan.

Untuk membuat Kasus Pengujian dari awal:

Buka tab Evaluasi, lalu klik + Tambahkan kasus pengujian -> Golden.
Klik buat dari awal.
Di jendela yang muncul, tambahkan Nama tampilan untuk kasus pengujian.
Tambahkan teks untuk input pengguna dan ekspektasi agen sesuai kebutuhan. Klik + Tambahkan input pengguna dan + Tambahkan ekspektasi agen untuk menambahkan respons. Klik + Tambahkan giliran untuk menambahkan giliran percakapan baru ke kasus pengujian.
Klik Buat untuk menambahkan kasus pengujian standar ke daftar kasus pengujian Anda.

Untuk membuat kasus pengujian dari percakapan simulasi dalam kasus pengujian skenario:

Buka halaman hasil eksekusi evaluasi.
Klik ikon menu (tiga titik vertikal) di sebelah kanan percakapan yang Anda pilih, lalu klik Simpan sebagai percakapan emas.

Untuk mengupload kasus pengujian secara berkelompok dari file:

Untuk mengetahui detail tentang format file dan template CSV, lihat halaman Format CSV kasus pengujian utama.

Ekspektasi emas

Untuk melakukan evaluasi, Anda menentukan ekspektasi untuk kasus pengujian utama. Ekspektasi adalah hasil spesifik yang Anda harapkan dari agen pada titik tertentu dalam percakapan. Selama evaluasi, perilaku agen yang sebenarnya dibandingkan dengan ekspektasi ini.

Ekspektasi dapat berupa salah satu jenis berikut:

Pesan: Respons teks yang diharapkan dari agen kepada pengguna akhir. Evaluasi memeriksa apakah respons agen secara semantik sesuai dengan ekspektasi ini.
Panggilan alat: Ekspektasi bahwa agen memanggil alat dan respons tertentu. Anda juga dapat menentukan argumen input yang diharapkan untuk panggilan alat.
Pengalihan Agen: Ekspektasi bahwa agen akan mengalihkan percakapan ke agen manusia atau bot lain.

Untuk menciptakan ekspektasi:

Klik kasus pengujian keemasan tertentu untuk membuka detailnya.
Di bagian Detail, Klik Lihat golden.
Ikuti petunjuk antarmuka untuk menambahkan atau mengubah ekspektasi.

Setelan evaluasi

Di baris judul daftar kasus pengujian, Anda dapat mengonfigurasi setelan evaluasi:

Goldens:
- Kriteria lulus/gagal utama: Tetapkan logika apakah percakapan simulasi lulus atau gagal.
- Tingkat belokan: Aturan ini menilai setiap belokan individu. Jika salah satu nilai minimum ini tidak terpenuhi, maka metrik tertentu akan diberi kode warna merah sebagai kegagalan.
  - Kesamaan semantik: Nilai minimum untuk kesamaan semantik.
  - Ketepatan alat: Nilai minimum untuk ketepatan alat.
  - Halusinasi: Jika dinonaktifkan, halusinasi akan dikecualikan dari lulus/gagal.
- Tingkat ekspektasi: Aturan ini menilai ekspektasi dalam giliran. Jika salah satu nilai minimum ini tidak terpenuhi, maka metrik tertentu akan diberi kode warna merah sebagai kegagalan.
  - Ketepatan alat: Nilai minimum untuk ketepatan alat.
- Metode Golden run: Pilih antara validasi pemutaran ulang yang sederhana atau stabil.
- Pemalsuan alat: Gunakan data tiruan, bukan panggilan API produksi yang sebenarnya.
Scenarios:
- Kriteria lulus/gagal skenario: Tetapkan logika apakah percakapan simulasi lulus atau gagal.
- Pemulai percakapan: Menetapkan siapa yang memulai percakapan, pengguna atau model.
- Pemalsuan alat: Gunakan data tiruan, bukan panggilan API produksi yang sebenarnya.
Evaluasi audio
- Rekaman evaluasi audio

Menjalankan evaluasi

Untuk menjalankan evaluasi, Anda dapat mengklik tombol jalankan di baris kasus pengujian, atau memilih beberapa kasus pengujian dan menjalankannya.

Jika Anda telah menyimpan beberapa versi, Anda dapat memilih versi agen yang akan digunakan, atau menyimpan agen draf Anda secara otomatis sebagai versi baru untuk dijalankan.

Setelah evaluasi dijalankan, metrik akan diperbarui dan hasilnya akan ditampilkan.

Jika mengklik evaluasi proses tertentu, Anda dapat melihat hasil mendetail untuk proses. Selain metrik standar, metrik berikut ditampilkan:

Belokan yang gagal
Daftar yang dipaginasi dari semua detail giliran, yang mencakup respons agen yang sebenarnya dan yang diharapkan.

Untuk kasus pengujian utama, Anda mungkin melihat istilah "pemutaran ulang stabil" yang menjelaskan bahwa pengujian dijalankan di lingkungan yang konsisten (yaitu tanpa mengubah konteks/input).

Menggunakan AI untuk meningkatkan kualitas kasus pengujian (PRATINJAU)

Anda dapat secara opsional menggunakan AI untuk membantu memecahkan masalah eksekusi dan menyarankan cara meningkatkan kualitas agen. Saran AI akan optimal jika jumlah proses (jumlah proses) adalah 3 atau lebih. Untuk mengaktifkan AI, pilih kasus pengujian yang ingin Anda evaluasi, lalu klik Jalankan yang dipilih. Di jendela pop-up yang muncul, centang kotak di samping Temukan masalah dengan AI.

Setelah proses selesai, Anda akan melihat saran berbasis AI di halaman hasil. Gemini secara otomatis membuat loss_report yang dapat didownload dan merangkum aspek performa agen serta menandai area yang dapat ditingkatkan.

Setiap pengguna dapat melihat perbaikan yang disarankan AI, tetapi hanya orang yang memulai proses yang dapat mengambil tindakan berdasarkan hasilnya.

Klik Minta Gemini untuk berinteraksi dengan agen pembantu. Anda akan melihat laporan kerugian terlebih dahulu yang menjelaskan masalah tingkat tinggi pada model atau agen. Anda dapat meminta agen pendukung untuk menjelaskan laporan, yang akan meringkas laporan dan dapat menyarankan perbaikan. Setelah perbaikan diterapkan, Anda dapat meminta agen pembantu menjalankan evaluasi lagi.

Metrik

Setiap hasil kasus pengujian mencakup serangkaian metrik yang mengukur performa agen terhadap kasus pengujian yang Anda pilih. Metrik dihitung di tingkat giliran atau tingkat ekspektasi (percakapan) seperti yang ditunjukkan di konsol.

Dalam semua kasus, Anda dapat menyesuaikan nilai yang diperlukan agar lulus dalam menu Setelan di tab Evaluasi.

Ketepatan alat

Dihitung untuk kasus pengujian golden dan skenario. Metrik ini mencerminkan persentase parameter yang diharapkan yang cocok dengan panggilan alat yang diharapkan dan nilai parameter yang diharapkan. Panggilan alat yang terlewat diberi skor 0, panggilan alat tanpa parameter input diberi skor 1 jika ada. Jika panggilan alat yang tidak terduga dilakukan selama evaluasi emas, hasilnya akan dianggap gagal, tetapi hal ini tidak berdampak pada nilai kebenaran alat.

Kepuasan sasaran pengguna

Dihitung untuk skenario. Kepuasan tujuan pengguna adalah metrik biner yang dirancang untuk evaluasi simulasi pengguna. Metrik ini mengukur apakah pengguna simulasi yakin bahwa tujuannya tercapai (0=tidak, 1=ya). Input adalah user_goal sebagaimana ditentukan oleh konfigurasi pengguna simulasi dan transkrip percakapan. Jika user_goal yang diberikan tidak menentukan tujuan eksplisit atau implisit, skor outputnya adalah -1.

Halusinasi

Tersedia untuk kasus pengujian golden dan skenario. Skor halusinasi dihitung untuk setiap giliran yang dihasilkan. Metrik ini mencerminkan apakah agen membuat klaim yang tidak dibenarkan oleh konteks agen (0=tidak, 1=ya). Konteks terdiri dari semua giliran sebelumnya dalam percakapan, variabel sesi, panggilan alat, dan petunjuk agen. Metrik ini hanya dihitung untuk giliran yang berisi panggilan alat. Model ini tidak mendeteksi halusinasi dalam panggilan alat; panggilan alat yang diberikan sebagai konteks dianggap benar. Untuk meminimalkan positif palsu, metrik ini dapat menampilkan skor T/A jika respons tidak berisi klaim faktual atau hanya berisi pengetahuan umum yang sudah ditetapkan.

Anda dapat mengaktifkan dan menonaktifkan halusinasi di setelan evaluasi.

Pencocokan semantik

Dihitung untuk kasus pengujian golden. Metrik ini mengukur sejauh mana ucapan agen yang diamati cocok dengan ucapan agen yang diharapkan. Kecocokan semantik dihitung di tingkat giliran. Nilai yang ditampilkan berkisar dari 0 (sama sekali tidak konsisten atau bertentangan) hingga 4 (sepenuhnya konsisten).

Ekspektasi skenario

Dihitung untuk skenario. Metrik ini adalah ukuran apakah perilaku agen seperti yang diharapkan oleh pengguna simulasi memuaskan atau tidak (0=tidak, 1=ya). Dua jenis ekspektasi pengguna simulasi didukung:

Ekspektasi panggilan alat: Dihitung mirip dengan kebenaran panggilan alat dengan pengecualian berikut:
- Hasilnya adalah 0 (tidak) atau 1 (ya).
- Panggilan alat yang tidak terduga tidak dikenai penalti. Ekspektasi dimaksudkan untuk menentukan kumpulan panggilan alat yang penting agar percakapan memenuhi ekspektasi pengguna simulasi.
- Saat ekspektasi input panggilan alat terpenuhi, panggilan akan dicegat dan diganti dengan nilai hasil tiruan saat runtime.
Ekspektasi respons agen: Memeriksa apakah ada respons agen dalam percakapan yang berisi string yang diharapkan.

Penyelesaian tugas

Dihitung untuk skenario. Penyelesaian tugas adalah ukuran kualitas percakapan. Secara bersama-sama, alat ini mengukur apakah tujuan pengguna tercapai ATAU perilaku agen sudah benar. Hal ini didefinisikan sebagai:

User_Goal_Satisfied AND no_hallucinations_detected AND Expectations Satisfied

Persona

Persona adalah persona pengguna simulasi yang dapat Anda sesuaikan dan gunakan untuk pengujian agen dengan kasus pengujian skenario. Fitur ini berguna untuk memastikan bahwa agen berinteraksi dengan tepat dengan jenis pengguna manusia yang mungkin ditemuinya saat runtime.

Jika Anda tidak memilih persona, persona acak akan dipilih untuk setiap hasil skenario.

Fitur ini tersedia untuk digunakan dengan input teks dan audio.

Buat persona

Untuk membuat persona, buka tab Evaluasi, lalu klik Pengelolaan persona (di samping ikon Setelan).
Klik + Tambahkan persona.
Di menu yang muncul, masukkan Nama, Kepribadian pengguna, dan Konteks pengguna tambahan (seperti usia, lokasi, alasan mereka menelepon, dan sebagainya).
Klik + Tambahkan.

Untuk menjalankan evaluasi menggunakan persona:

Kembali ke halaman Evaluasi utama dan pilih satu atau beberapa kasus pengujian skenario. Klik Run selected.
Di jendela yang muncul, pilih persona yang baru saja Anda buat dari menu drop-down Personas, lalu klik Run.

Evaluasi Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Konsep evaluasi

Membuat kasus pengujian

Skenario

Tujuan pengguna skenario

Variabel skenario

Ekspektasi skenario

Golden

Ekspektasi emas

Setelan evaluasi

Menjalankan evaluasi

Menggunakan AI untuk meningkatkan kualitas kasus pengujian (PRATINJAU)

Metrik

Ketepatan alat

Kepuasan sasaran pengguna

Halusinasi

Pencocokan semantik

Ekspektasi skenario

Penyelesaian tugas

Persona

Buat persona

Evaluasi