Praktik terbaik Quality AI

Dokumen ini menguraikan rekomendasi Google tentang cara terbaik menggunakan AI Berkualitas Tinggi. Dengan mengikuti panduan dalam dokumen ini, Anda akan memastikan bahwa AI Berkualitas memberikan informasi yang paling akurat dan berguna untuk kebutuhan bisnis Anda.

Kartu skor

Kartu skor memberikan akses ke metrik performa agen dan petunjuk mendetail untuk menjawab pertanyaan tentang percakapan. Anda harus memasukkan data percakapan, pertanyaan, dan opsi jawaban yang mungkin, beserta petunjuk cara menafsirkan jawaban tersebut. Untuk hasil terbaik, gunakan halaman Kartu Skor di konsol AI Kualitas untuk mengupload contoh percakapan Anda.

Kartu skor memberikan salah satu cara untuk mengelompokkan pertanyaan dan melihat skor terpisah untuk setiap pengelompokan. Buat beberapa kartu skor dengan pertanyaan yang berbeda di setiap kartu, untuk mengevaluasi percakapan berdasarkan kriteria yang berbeda. Kemudian, Anda dapat melihat skor kualitas dan percakapan untuk setiap kartu skor guna mengevaluasi agen berdasarkan kriteria terpisah.

Data percakapan

Data percakapan adalah transkrip percakapan suara atau chat dengan informasi identitas pribadi yang disamarkan. Upload minimal 2.000 percakapan untuk setiap unit bisnis atau pusat panggilan.

Anda juga dapat mengupload rekaman audio percakapan suara. Untuk hasil terbaik, rekam audio menggunakan spesifikasi berikut:

  • Dua saluran
  • Frekuensi sampling 16.000 Hz (atau 8.000-48.000 Hz)
  • Encoding lossless: FLAC atau LINEAR16
  • Encoding lossless untuk file audio WAV: LINEAR16 atau MULAW

Metadata untuk rekaman audio panggilan suara harus mencakup informasi berikut:

  • Label saluran untuk mengidentifikasi agen dan pelanggan
  • ID, nama, lokasi, tim, dan CSAT agen
  • Bahasa audio sebagai tag bahasa BCP-47, seperti en-US

Pertanyaan

Dalam setiap kartu skor, pertanyaan dan petunjuk untuk menjawabnya memberikan informasi berharga bagi Quality AI untuk mengevaluasi percakapan dan performa agen. Untuk memaksimalkan akurasi evaluasi otomatis, tulis pertanyaan dan petunjuk dengan mempertimbangkan konsep berikut:

  • Kejelasan: Tulis pertanyaan yang jelas dan dapat dipahami oleh manusia.
  • Spesifisitas: Tambahkan opsi jawaban dan petunjuk yang sespesifik mungkin.
  • Detail: Sertakan petunjuk yang memberikan detail yang cukup bagi petugas untuk mengevaluasi percakapan dengan yakin dan andal.
  • Contoh: AI Berkualitas bahkan lebih akurat jika Anda memberikan contoh dari percakapan nyata yang mengilustrasikan setiap jawaban atas pertanyaan Anda.

Pertanyaan dapat memiliki berbagai bentuk. Berikut beberapa template pertanyaan yang berguna:

  1. "Apakah agen…?" dengan tindakan tertentu. Format ini menunjukkan bahwa evaluator harus mencari sesuatu yang dikatakan agen.
  2. "Apakah pelanggan…?" dengan tindakan tertentu. Format ini menunjukkan bahwa evaluator harus mencari sesuatu yang dikatakan pelanggan.
  3. Memulai dengan kata tanya seperti apa atau mengapa mendorong evaluasi seluruh percakapan.

Pertanyaan dengan beberapa jawaban

Pengguna sering menulis pertanyaan yang hanya memiliki jawaban ya dan tidak. Namun, pertanyaan mungkin tidak berlaku untuk percakapan, sehingga memerlukan jawaban T/A.

Atau, pertanyaan dapat ditafsirkan sebagai ya atau tidak dalam berbagai keadaan, yang menyebabkan respons tidak konsisten dengan hanya dua opsi. Menyertakan pertanyaan yang memerlukan jenis jawaban lain akan memberikan pemahaman yang lebih mendalam kepada model AI tentang percakapan tersebut.

Analisis akustik

AI Berkualitas mengevaluasi transkrip percakapan dan tidak dapat melakukan analisis akustik. Mengecualikan pertanyaan yang memerlukan analisis akustik. Misalnya, baik petugas maupun AI Kualitas tidak dapat menjawab pertanyaan "Apakah agen menggunakan sapaan dengan nada suara yang ceria?" hanya dengan membaca transkrip percakapan.

Tag

Tag opsional menyediakan kategori yang lebih kecil untuk mengelompokkan pertanyaan terkait. Untuk satu percakapan, AI Kualitas menghitung skor percakapan keseluruhan. Anda dapat mengelompokkan pertanyaan menggunakan salah satu dari tiga tag: bisnis, pelanggan, atau kepatuhan. Untuk setiap tag, AI Kualitas juga menghitung skor yang hanya mencakup pertanyaan dengan tag tersebut.

Petunjuk

Petunjuk menentukan cara setiap jawaban ditafsirkan; jadi petunjuk harus spesifik dan tidak memberikan ruang untuk penafsiran. Definisi ini memastikan bahwa setiap evaluasi percakapan memberikan jawaban yang sama.

Format

Sertakan deskripsi singkat tentang tujuan pertanyaan, diikuti dengan deskripsi kriteria untuk setiap kemungkinan pilihan jawaban. Artinya, Anda harus menentukan situasi yang tepat saat seseorang akan memberikan setiap pilihan jawaban.

Misalnya, petunjuk berikut berlaku untuk pertanyaan ya/tidak yang menanyakan, "Apakah agen menangani masalah utama pelanggan sebelum melakukan penjualan silang?"

Petunjuk:

Tujuan pertanyaan ini adalah untuk memahami apakah agen menangani masalah utama pelanggan sebelum mencoba menjual produk tambahan. Hal ini menciptakan pengalaman yang lebih positif bagi merek kami.

  • Beri skor "Ya" jika agen menyelesaikan masalah utama, lalu mencoba melakukan penjualan. Contoh: "Saya baru saja memperbarui informasi akun Anda. Kami melihat bahwa Anda menandai perangkat smart home Anda sebagai rusak. Apakah Anda ingin memesan pengganti?"

  • Beri skor "Tidak" jika agen mencoba menjual produk sebelum menyelesaikan masalah utama. Contoh: "Sebelum memperbarui informasi akun Anda, saya melihat bahwa Anda membeli laptop dari kami lima tahun yang lalu. Apakah Anda ingin mencoba model baru kami?"

  • Beri skor "T/A" jika tidak ada upaya penjualan.

Jenis jawaban

Jenis jawaban bergantung pada struktur pertanyaan. Bagian ini memberikan saran untuk membantu Anda memulai, tetapi bukan daftar lengkap penggunaan.

Ya/Tidak

Ya/Tidak adalah jenis jawaban yang paling umum karena Anda dapat mengevaluasi pertanyaan ini dengan cepat, dan jawabannya sering kali lebih intuitif daripada jenis jawaban lainnya. Pertanyaan yang akan lebih baik jika dijawab dengan ya/tidak sering kali dimulai dengan "Apakah..." dan menanyakan apakah tindakan tertentu terjadi. Pertanyaan ini juga dapat ditulis sebagai pertanyaan benar atau salah.

Dalam contoh percakapan, jawaban ya/tidak direkam sebagai nilai benar atau salah dengan format berikut:

  • Jawaban Ya adalah true.
  • Tidak ada jawaban adalahfalse.

Numbers

Jawaban numerik berguna untuk pertanyaan yang meminta jumlah sesuatu, jumlah dolar, atau meminta Anda menilai sesuatu dalam skala. Pertanyaan yang cocok dengan jenis jawaban ini sering kali dimulai dengan "Berapa banyak...", "Berapa banyak...", atau "Dalam skala..." dan meminta Anda menentukan satu jawaban.

Dalam contoh percakapan, jawaban numerik memiliki format berikut:

  • Jawaban 40,5 adalah 40.5.

Teks

Jawaban teks akan memerlukan paling banyak pekerjaan dari anotator manusia. Pertanyaan yang lebih baik dijawab dengan teks sering kali diawali dengan kata tanya, seperti "Apa..." atau "Mengapa..." dan sering kali memerlukan evaluasi percakapan secara keseluruhan. Jawaban teks mendorong lebih banyak variasi dalam respons, sehingga petunjuk harus menjelaskan dengan jelas cara menafsirkan pertanyaan dan kapan harus menetapkan setiap pilihan jawaban.

Dalam contoh percakapan, jawaban teks memiliki format berikut:

  • Jawaban Selesai adalah "CONCLUDED".

Tetapkan skor

Saat membuat pertanyaan, Anda dapat menetapkan skor numerik untuk setiap pilihan jawaban. Skor ini menunjukkan pentingnya setiap pilihan jawaban untuk penghitungan skor percakapan secara keseluruhan.

Rentang yang berguna untuk skor pilihan jawaban adalah 0-10. Rentang ini memberikan beberapa variasi untuk spesifisitas dan sebanding dengan persentase. Pilihan jawaban dengan skor 0 tidak memengaruhi penghitungan skor percakapan. Pilihan jawaban dengan skor 10 memiliki dampak terbesar pada skor percakapan. Dengan kata lain, pilihan jawaban dengan skor 10 meningkatkan skor percakapan lebih banyak daripada pilihan jawaban dengan skor yang lebih rendah. Pilihan jawaban dengan skor 5 akan menaikkan skor percakapan setengah dari jawaban dengan skor 10.

T/A

Klik kotak centang untuk mengaktifkan T/A sebagai pilihan jawaban jika pertanyaan tidak berlaku untuk percakapan. Jika AI Kualitas memilih T/A sebagai jawaban, pertanyaan tersebut akan dihapus dari penghitungan skor percakapan.

Contoh input kartu skor

Contoh berikut mengilustrasikan cara menambahkan semua informasi yang diperlukan untuk kartu skor yang berguna. Setiap kartu skor memerlukan informasi berikut:

  • Pertanyaan apa pun tentang percakapan.
  • Petunjuk untuk menafsirkan pertanyaan dan menentukan setiap pilihan jawaban.
  • Jenis jawaban (dapat berupa teks, angka, atau ya/tidak).
  • Pilihan jawaban yang menentukan kemungkinan jawaban berdasarkan jenis jawaban (dapat berupa ya dan tidak, daftar angka, atau beberapa respons teks).
  • Skor untuk menetapkan poin yang diperoleh untuk setiap pilihan jawaban. Skor maksimum untuk satu pertanyaan ditentukan oleh skor tertinggi di antara semua pilihan jawaban.

Anda dapat menyertakan hal berikut untuk membantu mengatur pertanyaan pada kartu skor, tetapi hal ini tidak wajib:

  • Beri tag untuk mengelompokkan pertanyaan ke dalam kategori (dapat berupa bisnis, pelanggan, atau kepatuhan).

Contoh 1

  • Pertanyaan: Apa hasil percakapan tersebut?
  • Tag: Pelanggan
  • Petunjuk: Tujuan dari setiap percakapan adalah mencapai penyelesaian atau hasil yang termasuk dalam salah satu dari empat kemungkinan kategori: selesai, dialihkan, diarahkan, atau ditingkatkan.

    • Percakapan yang diselesaikan adalah percakapan yang telah berhasil diselesaikan dan tidak memerlukan tindakan lebih lanjut. Masalah pelanggan telah ditangani, dan percakapan telah berakhir.

    • Percakapan yang dialihkan adalah percakapan yang perlu ditangani oleh departemen atau agen lain. Pelanggan mungkin telah ditransfer ke spesialis yang dapat membantu mereka menyelesaikan masalah dengan lebih baik.

    • Percakapan yang dialihkan adalah percakapan yang perlu ditangani oleh channel lain. Misalnya, pelanggan mungkin telah dialihkan dari panggilan telepon ke sesi chat online.

    • Percakapan yang memerlukan eskalasi adalah percakapan yang memerlukan keterlibatan manajer atau supervisor. Pelanggan mungkin telah dilimpahkan karena tingkat keparahan masalahnya atau karena mereka tidak puas dengan penyelesaian yang ditawarkan oleh agen pertama.

  • Jenis jawaban: Teks

    Pilihan jawaban Skor
    Selesai 1
    Ditransfer 1
    Dialihkan 1
    Dieskalasi 0

    Tambahkan T/A sebagai pilihan jawaban. Jika dipilih, pertanyaan tidak akan disertakan dalam penghitungan skor total.

Contoh 2

  • Pertanyaan: Dalam skala 0-5, seberapa efektif komunikasi antara agen dan pelanggan?
  • Tag: Bisnis, Kepatuhan, Pelanggan
  • Petunjuk: Skala dan Kriteria

    • 0, Sangat Buruk: Tidak ada komunikasi atau kesalahpahaman total. Kata-kata yang menyinggung, melecehkan, atau berbahaya. Sama sekali tidak menghargai atau berempati.

    • 1, Sangat Buruk: Kesulitan komunikasi yang signifikan. Sering menyela atau berbicara secara bersamaan. Upaya minimal untuk memahami atau terhubung. Perilaku meremehkan atau tidak sopan.

    • 2, Buruk: Beberapa tantangan komunikasi. Kesalahpahaman atau kurangnya kejelasan sesekali. Minat atau interaksi terbatas. Sesekali tidak sopan atau tidak peka.

    • 3, Rata-rata: Komunikasi dasar tercapai. Perlu sedikit upaya untuk memahami dan dipahami.Tingkat interaksi dan koneksi sedang. Umumnya sopan, tetapi masih ada ruang untuk peningkatan.

    • 4, Baik: Komunikasi yang jelas dan efektif. Mendengarkan dan memahami secara aktif. Keterlibatan dan hubungan yang bermakna. Menunjukkan rasa saling menghormati dan empati.

    • 5, Sangat Baik: Komunikasi dan pemahaman yang luar biasa. Engagement dan koneksi yang mendalam. Rasa kolaborasi dan dukungan timbal balik yang kuat. Tingkat rasa hormat, empati, dan kasih sayang yang tinggi.

    Faktor yang perlu dipertimbangkan saat mengevaluasi:

    • Kejelasan: Apakah komunikasi jelas dan mudah dipahami?

    • Pemahaman: Apakah peserta menunjukkan kemampuan mendengar aktif dan pemahaman terhadap perspektif masing-masing?

    • Engagement: Apakah peserta terlibat aktif dalam percakapan dan tertarik dengan apa yang dikatakan orang lain?

    • Saling menghormati: Apakah ada saling menghormati dan pertimbangan yang ditunjukkan selama percakapan?

    • Empati: Apakah peserta menunjukkan empati dan saling memahami perasaan masing-masing?

    • Kolaborasi: Apakah ada rasa kolaborasi dan kerja sama tim, atau apakah peserta merasa seperti sedang bersaing satu sama lain?

    • Hasil: Apakah percakapan mencapai sasaran yang diinginkan atau menghasilkan hasil yang positif?

    Ingat: Konteks itu penting. Pertimbangkan konteks dan tujuan percakapan. Apa yang mungkin sesuai dalam satu situasi mungkin tidak sesuai dalam situasi lain.

    Subjektivitas: Evaluasi dapat bersifat subjektif. Orang yang berbeda mungkin memiliki interpretasi yang sedikit berbeda terhadap percakapan yang sama.

    Fokus pada peningkatan: Gunakan evaluasi sebagai alat untuk pembelajaran dan peningkatan, bukan hanya sebagai cara untuk menilai atau mengkritik.

    Framework ini memberikan panduan dasar untuk mengevaluasi percakapan, tetapi Anda dapat menyesuaikan dan mengubah kriteria berdasarkan kebutuhan dan sasaran spesifik Anda.

  • Jenis jawaban: Angka

  • Pilihan jawaban dan skor:

    Pilihan jawaban Skor
    0 0
    1 1
    2 2
    3 3
    4 4
    5 5

Tambahkan T/A sebagai pilihan jawaban. Jika dipilih, pertanyaan tidak akan disertakan dalam penghitungan skor total.

Contoh 3

  • Pertanyaan: Apakah perwakilan (agen) menyapa pelanggan dengan pembukaan yang tepat?
  • Tag: Pelanggan
  • Petunjuk: Perwakilan (agen) harus selalu memulai percakapan dengan pembukaan dan sapaan yang tepat. Hal ini merupakan langkah penting dalam membangun hubungan yang positif dan profesional dengan pelanggan. Pembukaan harus hangat, ramah, dan menyambut, sehingga pelanggan merasa dihargai dan dihormati. Perwakilan (agen) juga harus memastikan bahwa sapaan sesuai dengan konteks dan latar belakang budaya pelanggan. Dengan memulai percakapan dengan pembukaan dan sapaan yang tepat, perwakilan dapat menciptakan kesan pertama yang positif, membangun hubungan baik, dan meletakkan dasar untuk interaksi yang sukses dengan pelanggan.
  • Jenis jawaban: Ya/Tidak
  • Pilihan jawaban dan skor:

    Pilihan jawaban Skor
    "Ya" 1
    "Tidak" 0

Tambahkan T/A sebagai pilihan jawaban. Jika dipilih, pertanyaan tidak akan disertakan dalam penghitungan skor total.

Menambahkan contoh percakapan

Contoh percakapan berguna untuk mengklarifikasi interpretasi pertanyaan. Mengalibrasi dan menyesuaikan model AI memerlukan contoh percakapan dengan jawaban yang ditetapkan untuk setiap pertanyaan. Model AI belajar dari data percakapan nyata, jadi ambil contoh dari percakapan yang ada di Customer Experience Insights. Jika Anda tidak memberikan contoh percakapan, AI Kualitas akan menggunakan model dasar yang tidak mengetahui jawaban yang diharapkan untuk pertanyaan Anda.

Untuk meningkatkan performa model AI, sertakan setidaknya hal berikut:

  • 100 contoh percakapan per pertanyaan
  • 40 contoh percakapan per pilihan jawaban

Jika Anda memberikan kurang dari 100 contoh percakapan untuk satu pertanyaan, model AI tidak akan mempelajari cara memberi skor yang akurat untuk pertanyaan tertentu tersebut. Contoh percakapan Anda disimpan dan model akan belajar setelah Anda memiliki cukup banyak contoh. Satu percakapan dapat mengajari model cara memberi skor pada beberapa pertanyaan, dan Anda dapat lebih meningkatkan akurasi pemberian skor untuk pertanyaan apa pun dengan menambahkan lebih banyak contoh percakapan.

Untuk setiap pertanyaan dalam kartu skor, sertakan persentase percakapan untuk menggambarkan setiap pilihan jawaban. Contoh berikut menunjukkan jumlah percakapan yang dapat Anda sertakan untuk menggambarkan dua kemungkinan pilihan jawaban. Pemisahan khusus ini tidak diperlukan.

Jika pertanyaan pada kartu skor adalah "Apakah agen menunjukkan empati terhadap pelanggan?" dan respons terhadap pertanyaan tersebut dapat berupa ya atau tidak, sertakan keduanya:

Pertanyaan Jawaban yang memungkinkan Pangsa percakapan
Apakah agen menunjukkan empati terhadap pelanggan? "Ya" 75%
"Tidak" 25%

Contoh format percakapan

Contoh percakapan minimal harus menyertakan ID untuk setiap percakapan, kartu skor, dan pertanyaan serta jawaban yang diharapkan. Contoh percakapan Anda juga dapat menyertakan pilihan jawaban, skor, dan petunjuk. Contoh percakapan diupload sebagai resource FeedbackLabel. Untuk mengetahui informasi tentang mengedit contoh percakapan menggunakan API, lihat Panduan Penyiapan.

CSV

Anda harus mengupload contoh percakapan dalam file CSV. Baris pertama file CSV Anda harus berupa header, dan file harus berisi kategori berikut:

  • ConversationId
  • QaScorecardId
  • QaQuestionId
  • QaAnswerLabel atau kolom individual seperti QaAnswerScore dan QaAnswerValue

AI Berkualitas dapat otomatis membuat template percakapan contoh dengan ID sebelumnya yang sudah diisi. Anda dapat memilih kartu skor yang akan digunakan untuk contoh percakapan dan memfilter template untuk menyertakan hanya beberapa percakapan. Untuk mengetahui petunjuk tentang cara membuat template dan mengupload contoh percakapan, lihat panduan penyiapan AI Kualitas.

File percakapan contoh CSV dapat memiliki berbagai format. Misalnya, jawaban ya/tidak sesuai dengan nilai benar atau salah, angka tetap sama, dan jawaban teks diapit tanda kutip. Artinya, true ditampilkan sebagai jenis jawaban Ya/Tidak dan pilihan jawaban yang dipilih adalah Ya. Di sisi lain, "Yes" ditampilkan sebagai jenis jawaban teks dengan pilihan jawaban yang dipilih adalah Ya. Contoh berikut mengilustrasikan beberapa kemungkinan format CSV.

  • Header individu QaAnswerValue tidak menetapkan skor.
    ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue
    convo_id,scorecard_test_id,question_id_q3,"NO"
    convo_id,scorecard_test_id,question_id_q6,"YES"
    convo_id,scorecard_test_id,question_id_q6,true
    convo_id,scorecard_test_id,question_id_q6,false
    convo_id,scorecard_test_id,question_id_q6,40.5
    
  • Mencakup header QaAnswerValue dan QaAnswerScore.
    ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue,QaAnswerScore
    convo_id,scorecard_test_id,question_id_q3,"NO",score: 1.0
    convo_id,scorecard_test_id,question_id_q6,"YES",score: 1.0
    
  • Header QaAnswerLabel mencakup skor dan jawaban, tetapi tidak memisahkannya dengan koma.
    ConversationId,QaScorecardId,QaQuestionId,QaAnswerLabel
    convo_id,scorecard_test_id,question_id_q3,score: 1.0 "NO"
    convo_id,scorecard_test_id,question_id_q6,score: 0.5 40.5
    convo_id,scorecard_test_id,question_id_q6,na_value:true
    convo_id,scorecard_test_id,question_id_q3,true
    

Tabel

Dalam spreadsheet, format visual untuk contoh percakapan Anda adalah tabel dengan setiap baris berisi informasi untuk mengidentifikasi satu jawaban dan setiap kolom berisi identifikasi terpisah, seperti yang ditunjukkan dalam tabel berikut:

ID Percakapan ID Kartu Skor ID Pertanyaan Jawaban
44748735396 5727080762913918243 4097398336657302301 "YES"
44748735396 5727080762913918243 3576133206121890384 "NO"
3495523396 5727080762913918243 4097398336657302301 "YES"
3495523396 5727080762913918243 3576133206121890384 "NO"

Mengevaluasi percakapan

Penganotasi manual menggunakan pertanyaan dan petunjuk kartu skor untuk mengevaluasi percakapan secara manual dan menentukan jawaban yang benar untuk setiap pertanyaan dalam contoh percakapan. Saat beberapa orang mengevaluasi percakapan yang sama, mereka terkadang memberikan jawaban yang berbeda untuk setiap pertanyaan. Ketidakkonsistenan antara evaluasi ini menimbulkan derau dan kebingungan pada proses machine learning. Dalam percakapan, jika pertanyaan yang sama atau serupa dikaitkan dengan beberapa jawaban yang berbeda, AI Berkualitas tidak dapat mempelajari pemetaan antara pertanyaan dan jawaban.

Salah satu hal berikut dapat menyebabkan inkonsistensi saat beberapa orang menjawab pertanyaan yang sama untuk satu percakapan:

  • Pertanyaan subjektif yang menyebabkan perbedaan interpretasi antar-anotator.
  • Rubrik dengan detail yang tidak memadai atau pedoman yang tidak jelas.
  • Versi pertanyaan, opsi jawaban, atau petunjuk yang berbeda, misalnya:
    • Anda dapat memulai hanya dengan opsi jawaban ya/tidak, lalu mengubahnya nanti menjadi pendekatan yang lebih terperinci dengan opsi tidak-a, tidak-b, dan tidak-c.
    • Namun, menggabungkan pendekatan ya/tidak dengan opsi tidak-a, tidak-b, dan tidak-c akan membingungkan model.
  • Tugas evaluasi yang memerlukan beban kognitif yang besar.

Mengukur konsistensi

Untuk mengukur konsistensi dalam contoh percakapan Anda, minta beberapa anotator untuk mengevaluasi percakapan yang sama secara independen. Kemudian, hitung kesepakatan di antara keduanya menggunakan koefisien kappa Cohen. Anda ingin melihat koefisien kappa Cohen tidak kurang dari 0,2. Jika konsistensi rendah, coba salah satu opsi berikut:

  • Perbaiki pertanyaan dan petunjuk untuk mengurangi ruang interpretasi.
  • Berkomunikasi antar-anotator sehingga mereka dapat menyelesaikan perbedaan dan menyetujui satu standar penilaian.
  • Terus memantau konsistensi di antara pemberi anotasi.
  • Memberikan pelatihan tambahan kepada anotator yang jawabannya sering kali berbeda dengan standar penilaian.