Panduan pemula AutoML Translation

Dengan AutoML Translation, Anda dapat membangun model kustom (tanpa menulis kode) yang disesuaikan untuk konten khusus domain Anda dibandingkan dengan model Terjemahan Mesin Neural Google (NMT) default.

Bayangkan Anda memiliki layanan pelaporan keuangan yang memiliki peluang untuk berekspansi ke negara-negara baru. Pasar tersebut mengharuskan dokumen keuangan yang terikat waktu milik Anda diterjemahkan secara real time. Alih-alih mempekerjakan staf keuangan dwibahasa atau mengontrak penerjemah spesialis, keduanya memerlukan biaya tinggi karena keahliannya pada domain tersebut dan kebutuhan Anda akan penyelesaian yang cepat, model kustom dapat membantu Anda mengotomatiskan pekerjaan terjemahan dengan cara yang skalabel.

Terjemahan

Coba sendiri

Jika Anda baru pertama kali menggunakan Google Cloud, buat akun untuk mengevaluasi performa Cloud Translation dalam skenario dunia nyata. Pelanggan baru juga akan mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

Coba Cloud Translation secara gratis

Mengapa Machine Learning (ML) merupakan alat yang tepat untuk masalah ini?

Pemrograman klasik mengharuskan programmer untuk memberikan instruksi langkah demi langkah untuk diikuti oleh komputer. Namun, pendekatan berbasis aturan ini dapat dengan cepat menjadi tidak praktis untuk terjemahan. Bahasa alami itu rumit, dan menerjemahkannya pun merupakan proses yang rumit. Terjemahan mesin hampir seluruhnya dilakukan melalui pendekatan statistik, dengan korpus paralel besar yang menggantikan pakar linguistik yang menyempurnakan beberapa set aturan khusus secara manual.

Anda memerlukan sistem yang dapat melakukan generalisasi ke berbagai skenario terjemahan, tetapi berfokus pada kasus penggunaan dan domain linguistik yang dikhususkan untuk tugas pada pasangan bahasa yang penting bagi Anda. Dalam skenario ketika satu urutan aturan tertentu pasti akan berkembang secara eksponensial, Anda memerlukan satu sistem yang dapat belajar dari contoh. Untungnya, sistem machine learning sangat tepat untuk menyelesaikan masalah ini.

Apakah model NMT default atau model khusus adalah alat yang tepat untuk saya?

Model Terjemahan Mesin Neural (NMT) mencakup sejumlah besar pasangan bahasa dan berfungsi dengan baik saat digunakan untuk teks bertujuan umum. Keunggulan Model kustom benar-benar akan terlihat pada "kilometer terakhir" antara tugas terjemahan generik dan kosakata ceruk yang spesifik. AutoML Translation dimulai dari model NMT generik lalu menyesuaikan model tersebut agar sesuai dengan data pelatihan Anda guna mendapatkan terjemahan yang tepat untuk konten yang dikhususkan pada domain yang penting bagi Anda.

Apa yang tercakup dalam machine learning?

Machine learning mencakup penggunaan data untuk melatih algoritma guna mencapai hasil yang diinginkan. Hal-hal spesifik dari algoritma dan metode pelatihan berubah berdasarkan ruang lingkup masalah. Ada banyak subkategori yang berbeda pada machine learning, semuanya memecahkan masalah yang berbeda dan bekerja dalam batasan yang berbeda. AutoML Translation memungkinkan Anda untuk melakukan supervised learning, yang melibatkan pelatihan komputer untuk mengenali pola dari pasangan segmen yang diterjemahkan. Dengan supervised learning, kita dapat melatih model kustom untuk menerjemahkan konten yang dikhususkan pada domain yang penting bagi Anda.

Persiapan Data

Untuk melatih model kustom, Anda harus menyediakan pasangan segmen yang cocok dalam bahasa sumber dan target, yaitu pasangan segmen yang memiliki arti sama dalam bahasa asal terjemahan dan bahasa target. Semakin dekat arti pasangan segmen tersebut, model Anda akan berfungsi semakin baik.

Menilai kasus penggunaan Anda

Saat menyusun set data, selalu mulailah dengan kasus penggunaan. Anda dapat mulai dengan pertanyaan-pertanyaan berikut:

  • Apa hasil yang ingin Anda capai?
  • Jenis segmen apa yang perlu Anda terjemahkan untuk mencapai hasil ini? Apakah ini tugas yang dapat langsung dilakukan oleh model NMT?
  • Apakah mungkin bagi manusia untuk menerjemahkan segmen ini dengan cara yang memenuhi standar Anda? Jika tugas terjemahan tersebut bersifat ambigu, bahkan hingga orang yang fasih dalam kedua bahasa tersebut kesulitan melakukan pekerjaan yang memuaskan, mungkin kinerja model NMT dan model kustom Anda pun akan seperti itu.
  • Contoh seperti apa yang paling mencerminkan jenis dan rentang data yang perlu diterjemahkan oleh sistem Anda?

Prinsip utama yang mendasari produk ML Google adalah machine learning yang berpusat pada manusia, sebuah pendekatan yang mengedepankan praktik AI yang bertanggung jawab, termasuk keadilan. Tujuan keadilan dalam ML adalah untuk memahami dan mencegah perlakuan yang tidak adil atau merugikan orang-orang terkait ras, pendapatan, orientasi seksual, agama, gender, dan karakteristik lain yang secara historis terkait dengan diskriminasi dan marginalisasi, jika muncul dalam sistem algoritma atau pengambilan keputusan dengan bantuan algoritma. Anda dapat membaca selengkapnya di panduan kami dan menemukan catatan fair-aware dalam panduan di bawah ini. Saat Anda mempelajari panduan penyusunan set data, sebaiknya pertimbangkan faktor keadilan dalam machine learning jika relevan dengan kasus penggunaan Anda.

Mengumpulkan data Anda

Setelah menentukan data yang diperlukan, Anda harus berupaya untuk mengumpulkannya. Anda dapat memulai dengan memperhitungkan semua data yang dikumpulkan organisasi Anda. Anda mungkin mendapati bahwa Anda sudah mengumpulkan data yang diperlukan untuk melatih model terjemahan. Jika tidak memiliki data yang diperlukan, Anda dapat memperolehnya secara manual atau mengalihdayakannya kepada penyedia pihak ketiga.

Mencocokkan data dengan domain permasalahan Anda

Anda melatih model terjemahan kustom karena memerlukan model yang sesuai dengan domain linguistik tertentu. Pastikan pasangan segmen Anda telah optimal dalam merangkum keunikan kosakata, penggunaan, dan tata bahasa di industri atau area fokus Anda. Temukan dokumen berisi penggunaan umum yang akan Anda temukan dalam tugas terjemahan yang ingin diselesaikan, dan pastikan frasa paralelnya memiliki makna yang sama sedekat mungkin. Tentu saja, terkadang bahasa tidak dapat dipetakan dengan sempurna dalam hal kosakata atau sintaksis, tetapi cobalah untuk menangkap sebanyak mungkin keragaman semantik yang Anda temui, jika memungkinkan. Anda menyempurnakan sebuah model yang memiliki kinerja cukup baik untuk menerjemahkan teks bertujuan umum - Anda adalah contoh langkah terakhir spesial yang akan membuat model kustom berfungsi khusus untuk kasus penggunaan Anda. Jadi, pastikan model tersebut relevan dan mewakili penggunaan yang Anda harapkan.

Menangkap keragaman ruang linguistik Anda

Memang mudah untuk berasumsi bahwa orang menulis tentang domain tertentu dengan cara yang cukup seragam, sehingga sampel teks dengan jumlah sedikit yang diterjemahkan oleh beberapa penerjemah saja sudah cukup untuk melatih model yang akan bekerja dengan baik bagi siapa pun yang menulis tentang domain tersebut. Tapi kita semua adalah individu, dan masing-masing dari kita menuangkan kepribadian kita ke dalam kata-kata yang kita tulis. Set data pelatihan dengan pasangan segmen dari banyak penulis dan penerjemah memiliki kemungkinan lebih besar untuk menghasilkan model yang berguna dalam menerjemahkan tulisan dari berbagai organisasi yang berbeda. Selain itu, pertimbangkan keragaman panjang dan struktur segmen, sebuah set data yang semua segmennya memiliki ukuran yang sama atau memiliki struktur tata bahasa yang serupa tidak akan memberikan cukup informasi pada Cloud Translation untuk membuat model yang baik dan mampu mempertimbangkan semua kemungkinan.

Tetap memerlukan interaksi manusia

Jika memungkinkan, pastikan orang yang memahami kedua bahasa tersebut telah memvalidasi bahwa pasangan segmen sudah benar dan mewakili terjemahan yang dapat dipahami dan akurat. Kesalahan sederhana seperti tidak menyelaraskan barisan spreadsheet data pelatihan dapat menghasilkan terjemahan yang terdengar tidak masuk akal. Data berkualitas tinggi adalah hal terpenting yang dapat Anda berikan ke AutoML Translation guna mendapatkan model yang bermanfaat bagi bisnis Anda.

Bersihkan data yang berantakan

Mudah sekali untuk membuat kesalahan pada tahap prapemrosesan data, dan beberapa kesalahan tersebut dapat benar-benar membingungkan model kustom. Intinya, temukan masalah data berikut yang dapat Anda perbaiki:

  • Hapus segmen sumber duplikat, terutama jika segmen tersebut memiliki target terjemahan yang berbeda. AutoML Translation hanya menggunakan contoh yang pertama kali dilihat dan menghapus semua pasangan lainnya pada saat mengimpor. Dengan menghapus duplikat, Anda memastikan AutoML Translation menggunakan terjemahan sesuai pilihan Anda.
  • Selaraskan segmen sumber ke segmen target yang tepat.
  • Cocokkan segmen dengan bahasa yang telah ditentukan; misalnya, hanya masukkan segmen bahasa Cina dalam set data bahasa Cina.
  • Untuk segmen target yang menyertakan bahasa campuran, pastikan kata yang tidak diterjemahkan memang sengaja tidak diterjemahkan, seperti nama produk atau organisasi. Segmen target yang secara keliru menyertakan kata yang tidak diterjemahkan akan menambahkan derau ke data pelatihan, sehingga dapat menghasilkan model berkualitas lebih rendah.
  • Perbaiki segmen yang memiliki kesalahan tipografi atau tata bahasa sehingga model Anda tidak meniru kesalahan ini.
  • Hapus konten yang tidak dapat diterjemahkan, seperti tag placeholder dan tag HTML. Konten yang tidak dapat diterjemahkan dapat menyebabkan kesalahan tanda baca.
  • Jangan menyertakan terjemahan yang menggantikan entitas umum dengan kata benda spesifik. Misalnya, Anda mungkin memiliki contoh yang mengubah "presiden" menjadi nama presiden tertentu, seperti "JFK" atau "John F Kennedy". Model dapat ikut mengubah semua instance "presiden" menjadi "JFK". Sebagai gantinya, hapus terjemahan ini atau ubah kata benda spesifik tersebut menjadi kata yang umum.
  • Hapus segmen duplikat dalam set pelatihan dan pengujian. (Pelajari lebih lanjut set pelatihan dan pengujian)
  • Bagi beberapa segmen menjadi pasangan segmen yang berbeda. Melakukan pelatihan pada set data yang kebanyakan itemnya memiliki lebih dari 50 token (kata) akan menghasilkan model yang berkualitas lebih rendah. Bagi item-item tersebut menjadi kalimat individu, jika memungkinkan.
  • Gunakan kapitalisasi huruf secara konsisten. Penggunaan kapitalisasi memengaruhi cara model belajar, misalnya, untuk membedakan teks judul dengan isi.
  • Hapus tag TMX saat mengimpor data dari file TSV. Dalam beberapa kasus, Anda dapat mengekspor memori terjemahan yang sudah ada ke file TSV, yang mungkin menyertakan tag TMX. Namun, AutoML Translation menghapus tag unit terjemahan hanya saat Anda mengimpor dari file TMX (bukan file TSV).

Cara AutoML Translation melakukan prapemrosesan data Anda

AutoML Translation berhenti mengurai file input data Anda saat:

  • Ada format yang tidak valid
  • Ada pasangan segmen yang sangat panjang (10 MB)
  • File menggunakan encoding selain UTF-8

AutoML Translation akan mengabaikan error untuk masalah yang tidak dapat dideteksinya, seperti:

  • Elemen <tu> dalam file TMX tidak memiliki bahasa sumber atau bahasa target.
  • Salah satu pasangan segmen inputnya kosong.

Untuk pembagian data otomatis, AutoML Translation melakukan pemrosesan tambahan:

  • Setelah set data diupload, pasangan segmen dengan segmen sumber yang identik akan dihapus.
  • Sistem ini akan membagi data Anda secara acak menjadi tiga set dengan rasio 8:1:1 (train:validation:test) sebelum pelatihan.

Mempertimbangkan cara AutoML Translation menggunakan set data Anda dalam membuat model kustom

Set data Anda berisi set pelatihan, validasi, dan pengujian. Jika Anda tidak menentukan pembagian (baca Mempersiapkan data pelatihan Anda) dan set data Anda berisi kurang dari 100.000 pasangan segmen, maka AutoML Translation akan otomatis menggunakan 80% dokumen konten Anda untuk pelatihan, 10% untuk validasi, dan 10% untuk pengujian. Jika data Anda lebih besar dari itu, Anda harus melakukan pembagian data sendiri.

Set Pelatihan

Sebagian besar data Anda harus berada dalam set pelatihan. Ini adalah data yang "dilihat" oleh model Anda selama pelatihan: data ini digunakan untuk mempelajari parameter model, yaitu bobot koneksi antar berbagai node pada jaringan neural.

Set Validasi

Set validasi, terkadang juga disebut dengan set "dev", juga digunakan selama proses pelatihan. Selama pembelajaran model, framework menggunakan set pelatihan untuk melatih serangkaian model kandidat, kemudian menggunakan performa model pada set validasi untuk memilih model terbaik yang dihasilkan. Set tersebut menggunakan performa model pada set validasi untuk menyesuaikan hyperparameter model, yang merupakan variabel yang menentukan struktur model. Jika Anda menggunakan set pelatihan untuk menyesuaikan hyperparameter, model tersebut akan terlalu fokus pada data pelatihan Anda. Menggunakan set data yang agak baru untuk menyempurnakan struktur model berarti model Anda akan melakukan generalisasi dengan lebih baik.

Set pengujian

Set pengujian sama sekali tidak terlibat dalam proses pelatihan. Setelah model menyelesaikan seluruh pelatihannya, kami akan menggunakan set pengujian sebagai tantangan yang benar-benar baru untuk model Anda. Performa model Anda pada set pengujian dimaksudkan untuk memberi Anda gambaran yang cukup tentang performa model Anda pada data di dunia nyata.

Pembagian Manual

AutoML dapat membagi data Anda menjadi set pelatihan, validasi, dan pengujian, atau Anda dapat melakukannya sendiri jika ingin memiliki kontrol yang lebih besar atas prosesnya, jika Anda menginginkan persentase pembagian yang berbeda, atau jika ada contoh spesifik yang yakin ingin disertakan ke dalam bagian tertentu dari siklus proses pelatihan model Anda.

 

Menyiapkan data Anda untuk diimpor

Setelah memutuskan antara membagi data secara manual atau otomatis, ada dua cara untuk menambahkan data:

  • Anda dapat mengimpor data sebagai file dengan nilai yang dipisahkan tab (TSV) yang berisi segmen sumber dan target, satu pasangan segmen per baris.
  • Anda dapat mengimpor data sebagai file TMX, sebuah format standar untuk menyediakan pasangan segmen ke alat model terjemahan otomatis (pelajari lebih lanjut format TMX yang didukung). Jika file TMX berisi tag XML yang tidak valid, AutoML akan mengabaikannya. Jika file TMX tidak sesuai dengan format XML dan TMX yang tepat – misalnya, jika file tidak memiliki tag akhir atau elemen <tmx> – AutoML tidak akan memprosesnya. Cloud Translation juga akan menghentikan pemrosesan dan menampilkan error jika elemen <tu> yang tidak valid dilewati lebih dari 1024 kali.

Evaluasi

Setelah model dilatih, Anda akan menerima ringkasan performa model tersebut. Klik tab Latih untuk melihat analisis terperinci.

Apa yang harus saya perhatikan sebelum mengevaluasi model saya?

Proses debug model seharusnya lebih difokuskan pada proses debug data, dan bukan pada model itu sendiri. Jika model Anda mulai bereaksi secara tidak terduga saat Anda mengevaluasi performanya sebelum dan setelah dikirim ke produksi, Anda harus kembali dan memeriksa data untuk melihat area yang dapat diperbaiki.

Skor BLEU

Skor BLEU adalah sebuah cara standar untuk mengukur kualitas sistem terjemahan mesin. AutoML Translation menggunakan skor BLEU yang dihitung pada data pengujian yang Anda berikan sebagai metrik evaluasi utamanya. (Pelajari lebih lanjut skor BLEU.)

Model Google NMT, yang mendukung Cloud Translation API, dibuat untuk penggunaan umum. Model ini mungkin bukan solusi terbaik jika Anda menginginkan terjemahan khusus untuk bidang Anda sendiri. Model kustom yang dilatih biasanya memiliki performa yang lebih baik daripada model NMT dalam bidang yang terkait dengan set pelatihan Anda.

Setelah melatih model kustom dengan set data Anda sendiri, skor BLEU dari model kustom dan model Google NMT akan ditampilkan di tab Latih. Ada juga peningkatan performa skor BLEU dari model kustom di tab Latih. Semakin tinggi skor BLEU, semakin baik pula terjemahan yang dapat dihasilkan model Anda untuk segmen-segmen yang mirip dengan data pelatihan Anda. Jika skor BLEU berada dalam rentang 30-40, model tersebut dianggap mampu menghasilkan terjemahan yang baik.

Perhatikan bahwa skor BLEU tidak direkomendasikan untuk melakukan perbandingan di antara berbagai korpus dan bahasa. Misalnya, skor BLEU 50 untuk terjemahan dari bahasa Inggris ke bahasa Jerman tidak dapat dibandingkan dengan skor BLEU 50 untuk terjemahan dari bahasa Jepang ke bahasa Inggris. Banyak pakar terjemahan telah beralih ke pendekatan metrik berbasis model, yang memiliki korelasi lebih tinggi dengan rating manusia dan lebih terperinci dalam mengidentifikasi skenario kesalahan.

AutoML Translation hanya mendukung skor BLEU. Untuk mengevaluasi model terjemahan Anda menggunakan metrik berbasis model, baca Layanan evaluasi AI generatif di Vertex AI.

Menguji model Anda

Meskipun skor BLEU terlihat bagus, sebaiknya periksa sendiri model untuk memastikan bahwa performanya sesuai dengan harapan Anda. Jika data pelatihan dan pengujian Anda diambil dari kumpulan sampel yang salah dan sama, skornya mungkin akan sangat bagus meskipun terjemahannya tidak masuk akal. Tambahkan beberapa contoh sebagai input pada tab Predict dan bandingkan hasil dari model kustom dengan model dasar Google NMT. Anda mungkin memperhatikan bahwa model Anda memiliki prediksi yang sama dengan model dasar, terutama pada segmen pendek atau jika Anda memiliki set pelatihan yang lebih kecil. Hal ini wajar terjadi - model dasarnya sudah cukup bagus untuk berbagai kasus penggunaan. Cobalah beberapa segmen yang lebih panjang atau lebih kompleks. Namun, jika semua hasil segmen Anda sama dengan prediksi dari model dasar, hal ini mungkin mengindikasikan adanya masalah data.

Jika ada kesalahan yang membuat Anda khawatir mengenai pembuatan model Anda, (misalnya, fitur pasangan bahasa yang membingungkan yang sering kali menjebak penerjemah manusia, atau kesalahan terjemahan yang mungkin sangat merugikan secara finansial atau reputasi) pastikan set atau prosedur pengujian Anda mencakup kasus tersebut secara memadai agar Anda merasa aman menggunakan model tersebut dalam tugas sehari-hari.

Langkah berikutnya

  • Untuk membuat set data dan model kustom Anda sendiri, lihat Menyiapkan data pelatihan untuk mendapatkan petunjuk tentang cara menyiapkan data Anda.