Evaluasi otomatis (autoevaluasi) peringkasan menilai kualitas ringkasan yang dihasilkan AI berdasarkan akurasi, kelengkapan, dan kepatuhan.
Akurasi
Akurasi mengukur seberapa dekat ringkasan selaras dengan detail faktual transkrip percakapan. Untuk setiap ringkasan, evaluasi otomatis menentukan persentase kebenaran, beserta justifikasi yang sesuai. Skor akurasi yang rendah berarti ada masalah faktual dalam ringkasan.
Hasil akurasi akan terlihat seperti berikut:
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- Setiap
pointdalam contoh sebelumnya adalah bagian ringkasan yang diuraikan. Parameter bineris_accuratemenampilkan hasil evaluasi akurasi. Parameteraccuracymemberikan justifikasi.
Kepatuhan
Evaluasi otomatis ringkasan menerapkan serangkaian pertanyaan pada ringkasan yang diberikan. Evaluasi otomatis menggunakan pertanyaan ini dan transkrip percakapan untuk menilai kepatuhan ringkasan terhadap setiap petunjuk. Namun, evaluasi otomatis ringkasan mengandalkan Gemini, yang mungkin tidak memverifikasi petunjuk tata bahasa secara akurat. Jadi, evaluasi otomatis ringkasan mungkin tidak secara akurat menilai apakah ringkasan mematuhi petunjuk tata bahasa.
Skor kepatuhan yang rendah berarti ringkasan gagal mematuhi petunjuk yang diberikan dalam definisi bagian ringkasan. Hanya ringkasan yang menggunakan bagian kustom yang dapat menghasilkan skor kepatuhan.
Untuk kepatuhan, evaluasi otomatis peringkasan mengenali dua jenis tugas ringkasan berikut:
- Ringkasan kategoris: Berikan nilai kategoris yang ditentukan dalam petunjuk. Misalnya, petunjuk meminta respons Cerah atau Berawan. Evaluasi otomatis memeriksa apakah ringkasan yang diberikan hanya Cerah atau Berawan tanpa teks deskriptif.
- Ringkasan non-kategoris: Menyediakan teks bentuk bebas. Evaluasi otomatis memeriksa apakah ringkasan nonkategoris mengikuti petunjuk yang ditentukan dalam deskripsi tugas.
Hasil kepatuhan akan terlihat seperti berikut:
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
Setiap pertanyaan berasal dari definisi bagian ringkasan yang diberikan. Parameter biner
is_addressedmenampilkan hasil evaluasi kepatuhan. Parameterreasoningmemberikan justifikasi.Jika ada pertanyaan yang tidak sesuai dengan sasaran Anda, definisi bagian ringkasan sasaran tersebut tidak jelas. Anda dapat memahami masalah dan meningkatkan kualitas definisi bagian.
Kelengkapan
Evaluasi otomatis ringkasan menerapkan serangkaian rubrik untuk menilai kelengkapan ringkasan yang dibuat AI berdasarkan petunjuk dalam definisi bagian ringkasan. Skor kelengkapan yang rendah berarti ringkasan gagal menyertakan informasi penting dari transkrip.
Hasil kelengkapan akan terlihat seperti berikut:
{ "rubrics": [ { "question": "Does the summary identify that the customer initially considered cancelling their subscription?", "is_addressed": "True" }, { "question": "Does the summary identify that the customer inquired about a previously issued credit?", "is_addressed": "False" }, { "question": "Does the summary mention the specific amount of the credit ($20)?", "is_addressed": "False" } ] }
Setiap pertanyaan berasal dari deskripsi tugas dan transkrip yang diberikan. Parameter biner
is_addressedmenampilkan hasil evaluasi.Jika ada pertanyaan yang tidak sesuai dengan sasaran Anda, definisi bagian ringkasan Anda tidak jelas. Pahami masalahnya dan tingkatkan definisi bagian Anda.