Evaluasi otomatis (autoevaluasi) ringkasan sangat penting untuk beralih dari QA berbasis spreadsheet manual ke validasi otomatis yang dapat diskalakan untuk model ringkasan. Fitur ini memberikan bukti empiris yang diperlukan untuk meningkatkan penjualan versi model atau memvalidasi perubahan perintah kustom.
Sebelum evaluasi otomatis, validasi model ringkasan mengharuskan manusia membaca transkrip dan menilai ringkasan secara manual, yang merupakan proses yang lambat, mahal, dan subjektif. Evaluasi otomatis ringkasan meningkatkan validasi model ringkasan dengan cara berikut:
- Skala: Mengevaluasi ratusan percakapan dalam waktu sekitar 20 hingga 30 menit.
- Konsistensi: Penilaian berbasis LLM menilai akurasi, kepatuhan, dan kelengkapan.
- Perbandingan: Memberikan bukti berdampingan bahwa Model A berperforma lebih baik daripada Model B.
Sebelum memulai
- Untuk menjalankan evaluasi, Anda memerlukan generator ringkasan (konfigurasi model) dan set data (percakapan).
- Jika Anda ingin menggunakan set data Customer Experience Insights, tetapi belum membuatnya, buka konsol Customer Experience Insights. Jika Anda memiliki file transkrip mentah, konversikan ke format yang didukung untuk diupload.
Dua sumber data
Anda memiliki dua opsi berikut untuk memproses data percakapan.
| Jenis sumber | Paling cocok untuk... | Cara kerjanya |
| Penyimpanan Agent Assist | Traffic Live/Produksi | Anda memilih rentang tanggal dan ukuran sampel. Evaluasi otomatis ringkasan mengambil sampel secara acak dari traffic sebenarnya yang disimpan dalam sistem Anda. |
| Set Data Conversational Insights | Menguji skenario tertentu | Anda memilih set data pilihan yang dibuat di Customer Experience Insights. Cara ini paling cocok untuk set standar atau kasus pengujian tertentu. |
Langkah 1: Buat generator
- Buka Evaluations, lalu klik New Evaluation.
- Masukkan detail berikut:
- Nama Tampilan: Gunakan konvensi penamaan yang menyertakan versi dan tanggal model.
- Fitur: Pilih Ringkasan.
- Generator: Pilih generator spesifik yang ingin Anda uji.
Langkah 2: Buat set data percakapan
Pilih salah satu sumber data ringkasan berikut.
- Buat ringkasan baru untuk semua percakapan: Direkomendasikan untuk menguji versi model baru.
- Buat hanya ringkasan yang tidak ada dari set data: Direkomendasikan jika tidak semua transkrip percakapan memiliki ringkasan yang sesuai berdasarkan generator yang dipilih pada langkah sebelumnya.
- Gunakan ringkasan yang ada dari set data. Jangan buat ringkasan: Direkomendasikan untuk menilai apa yang sudah dihasilkan tanpa pembuatan ulang atau membandingkan performa berbagai generator ringkasan.
Langkah 3: Pilih resource Cloud Storage
Pilih folder Cloud Storage dalam bucket untuk menyimpan hasil Anda.
Meskipun konsol Agent Assist menampilkan hasil tingkat tinggi, ekspor data mendetail baris demi baris sebagai CSV. Ini adalah sumber tepercaya untuk pemecahan masalah secara mendalam.
Langkah 4: Tafsirkan metrik
Setelah proses selesai, Anda akan melihat kartu skor dengan skor untuk setiap metrik evaluasi.
Lihat perincian
Anda dapat mengklik baris percakapan tertentu untuk melihat detail berikut:
- Transkrip dengan dialog mentah
- Kandidat ringkasan
- Penjelasan evaluasi otomatis ringkasan tentang skor tertentu
Langkah 5: Gunakan mode perbandingan
Anda dapat memilih dua operasi evaluasi yang berbeda dan membandingkannya. Bandingkan model evaluasi untuk set data yang sama guna memastikan Anda membandingkan informasi yang sama. Jika Anda mengubah set data di antara operasi, perbandingan akan tidak valid. Selalu verifikasi bahwa ID Set Data cocok dengan yang ada di metadata.
Ikuti langkah-langkah berikut untuk melihat bukti peningkatan model ringkasan ke versi terbaru.
- Jalankan evaluasi A menggunakan model saat ini.
- Jalankan evaluasi B pada set data yang sama menggunakan model terbaru.
- Pilih kedua evaluasi dalam daftar, lalu klik Bandingkan.
Konsol Agent Assist menandai skor yang lebih tinggi.
Tips dan praktik terbaik pemecahan masalah
- Upload file teks mentah Anda sendiri untuk evaluasi. Pertama, buat dataset Customer Experience Insights.
- Konsol menampilkan bagian Situasi Singkat, tetapi teks ringkasan mencantumkannya di urutan kedua. Urutan sidebar mungkin tidak sama persis dengan urutan pembuatan teks. Andalkan konten teks dan ekspor CSV untuk struktur yang pasti.
- Tentang skor otomatis. Mereka dapat dipercaya, tetapi tetap lakukan verifikasi. Model evaluasi otomatis dikalibrasi untuk meniru interaksi manusia, tetapi ada kasus ekstrem. Selalu gunakan ekspor CSV Cloud Storage untuk mengaudit sampel kecil secara manual guna membangun kepercayaan pada skor otomatis.