Panduan pemula AutoML Translation
Dengan AutoML Translation, Anda dapat membangun model kustom (tanpa menulis kode) yang disesuaikan untuk konten khusus domain Anda dibandingkan dengan model Terjemahan Mesin Neural Google (NMT) default.
Bayangkan Anda memiliki layanan pelaporan keuangan yang memiliki peluang untuk berekspansi ke negara-negara baru. Pasar tersebut mengharuskan dokumen keuangan yang terikat waktu milik Anda diterjemahkan secara real time. Alih-alih mempekerjakan staf keuangan dwibahasa atau mengontrak penerjemah spesialis, keduanya memerlukan biaya tinggi karena keahliannya pada domain tersebut dan kebutuhan Anda akan penyelesaian yang cepat, model kustom dapat membantu Anda mengotomatiskan pekerjaan terjemahan dengan cara yang skalabel.

Coba sendiri
Jika Anda baru pertama kali menggunakan Google Cloud, buat akun untuk mengevaluasi performa Cloud Translation dalam skenario dunia nyata. Pelanggan baru juga akan mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
Coba Cloud Translation secara gratisMengapa Machine Learning (ML) merupakan alat yang tepat untuk masalah ini?
Pemrograman klasik mengharuskan programmer untuk memberikan instruksi
langkah demi langkah untuk diikuti oleh komputer.
Namun, pendekatan berbasis aturan ini dapat dengan cepat menjadi tidak praktis untuk terjemahan. Bahasa
alami itu rumit, dan menerjemahkannya pun merupakan proses yang rumit. Terjemahan mesin
hampir seluruhnya dilakukan melalui pendekatan statistik, dengan korpus paralel besar
yang menggantikan pakar linguistik yang menyempurnakan beberapa set aturan khusus secara manual.
Anda memerlukan sistem yang dapat melakukan generalisasi ke berbagai skenario terjemahan, tetapi berfokus pada kasus penggunaan dan domain linguistik yang dikhususkan untuk tugas pada pasangan bahasa yang penting bagi Anda. Dalam skenario ketika satu urutan aturan tertentu pasti akan berkembang secara eksponensial, Anda memerlukan satu sistem yang dapat belajar dari contoh. Untungnya, sistem machine learning sangat tepat untuk menyelesaikan masalah ini.
Apakah model NMT default atau model khusus adalah alat yang tepat untuk saya?
Model Terjemahan Mesin Neural (NMT) mencakup sejumlah besar pasangan bahasa dan berfungsi dengan baik saat digunakan untuk teks bertujuan umum. Keunggulan Model kustom benar-benar akan terlihat pada "kilometer terakhir" antara tugas terjemahan generik dan kosakata ceruk yang spesifik. AutoML Translation dimulai dari model NMT generik lalu menyesuaikan model tersebut agar sesuai dengan data pelatihan Anda guna mendapatkan terjemahan yang tepat untuk konten yang dikhususkan pada domain yang penting bagi Anda.
Apa yang tercakup dalam machine learning?
Machine learning mencakup penggunaan data untuk melatih algoritma guna mencapai
hasil yang diinginkan. Hal-hal spesifik dari algoritma dan metode pelatihan berubah
berdasarkan ruang lingkup masalah. Ada banyak subkategori yang berbeda pada machine
learning, semuanya memecahkan masalah yang berbeda dan bekerja dalam batasan
yang berbeda. AutoML Translation memungkinkan Anda untuk melakukan supervised
learning, yang melibatkan pelatihan komputer untuk mengenali pola dari
pasangan segmen yang diterjemahkan. Dengan supervised learning, kita dapat melatih model
kustom untuk menerjemahkan konten yang dikhususkan pada domain yang penting bagi Anda.
Persiapan Data
Untuk melatih model kustom, Anda harus menyediakan pasangan segmen yang cocok dalam bahasa sumber dan target, yaitu pasangan segmen yang memiliki arti sama dalam bahasa asal terjemahan dan bahasa target. Semakin dekat arti pasangan segmen tersebut, model Anda akan berfungsi semakin baik.
Menilai kasus penggunaan Anda
Saat menyusun set data, selalu mulailah dengan kasus penggunaan. Anda dapat mulai dengan pertanyaan-pertanyaan berikut:
- Apa hasil yang ingin Anda capai?
- Jenis segmen apa yang perlu Anda terjemahkan untuk mencapai hasil ini? Apakah ini tugas yang dapat langsung dilakukan oleh model NMT?
- Apakah mungkin bagi manusia untuk menerjemahkan segmen ini dengan cara yang memenuhi standar Anda? Jika tugas terjemahan tersebut bersifat ambigu, bahkan hingga orang yang fasih dalam kedua bahasa tersebut kesulitan melakukan pekerjaan yang memuaskan, mungkin kinerja model NMT dan model kustom Anda pun akan seperti itu.
- Contoh seperti apa yang paling mencerminkan jenis dan rentang data yang perlu diterjemahkan oleh sistem Anda?
Prinsip utama yang mendasari produk ML Google adalah machine learning yang berpusat pada manusia, sebuah pendekatan yang mengedepankan praktik AI yang bertanggung jawab, termasuk keadilan. Tujuan keadilan dalam ML adalah untuk memahami dan mencegah perlakuan yang tidak adil atau merugikan orang-orang terkait ras, pendapatan, orientasi seksual, agama, gender, dan karakteristik lain yang secara historis terkait dengan diskriminasi dan marginalisasi, jika muncul dalam sistem algoritma atau pengambilan keputusan dengan bantuan algoritma. Anda dapat membaca selengkapnya di panduan kami dan menemukan catatan fair-aware ✽ dalam panduan di bawah ini. Saat Anda mempelajari panduan penyusunan set data, sebaiknya pertimbangkan faktor keadilan dalam machine learning jika relevan dengan kasus penggunaan Anda.
Mengumpulkan data Anda
Setelah menentukan data yang diperlukan, Anda harus berupaya untuk mengumpulkannya. Anda dapat memulai dengan memperhitungkan semua data yang dikumpulkan
organisasi Anda. Anda mungkin mendapati bahwa Anda sudah mengumpulkan data yang diperlukan untuk melatih model terjemahan. Jika tidak memiliki data yang diperlukan, Anda dapat
memperolehnya secara manual atau mengalihdayakannya kepada penyedia pihak ketiga.
Mencocokkan data dengan domain permasalahan Anda
Anda melatih model terjemahan kustom karena memerlukan model yang sesuai
dengan domain linguistik tertentu. Pastikan pasangan segmen Anda telah optimal
dalam merangkum keunikan kosakata, penggunaan, dan tata bahasa di industri
atau area fokus Anda. Temukan dokumen berisi penggunaan umum yang akan Anda temukan
dalam tugas terjemahan yang ingin diselesaikan, dan pastikan frasa
paralelnya memiliki makna yang sama sedekat mungkin. Tentu saja, terkadang
bahasa tidak dapat dipetakan dengan sempurna dalam hal kosakata atau sintaksis, tetapi cobalah untuk menangkap sebanyak mungkin
keragaman semantik yang Anda temui, jika memungkinkan.
Anda menyempurnakan sebuah model yang memiliki kinerja cukup baik untuk
menerjemahkan teks bertujuan umum - Anda adalah contoh langkah terakhir spesial yang akan membuat
model kustom berfungsi khusus untuk kasus penggunaan Anda. Jadi, pastikan
model tersebut relevan dan mewakili penggunaan yang Anda harapkan.
Menangkap keragaman ruang linguistik Anda
Memang mudah untuk berasumsi bahwa orang menulis tentang domain tertentu
dengan cara yang cukup seragam, sehingga sampel teks dengan jumlah sedikit yang diterjemahkan oleh
beberapa penerjemah saja sudah cukup untuk melatih model yang akan bekerja dengan baik bagi
siapa pun yang menulis tentang domain tersebut. Tapi kita semua adalah individu, dan masing-masing
dari kita menuangkan kepribadian kita ke dalam kata-kata yang kita tulis. Set data pelatihan dengan pasangan
segmen dari banyak penulis dan penerjemah memiliki kemungkinan lebih besar untuk menghasilkan model yang berguna dalam menerjemahkan tulisan dari berbagai organisasi yang berbeda.
Selain itu, pertimbangkan keragaman panjang dan struktur segmen, sebuah set data
yang semua segmennya memiliki ukuran yang sama atau memiliki struktur tata bahasa yang serupa
tidak akan memberikan cukup informasi pada Cloud Translation untuk membuat model yang baik
dan mampu mempertimbangkan semua kemungkinan.
Tetap memerlukan interaksi manusia
Jika memungkinkan, pastikan orang yang memahami kedua bahasa tersebut telah memvalidasi bahwa pasangan segmen sudah benar dan mewakili
terjemahan yang dapat dipahami dan akurat. Kesalahan sederhana seperti tidak menyelaraskan
barisan spreadsheet data pelatihan dapat menghasilkan terjemahan yang terdengar
tidak masuk akal. Data berkualitas tinggi adalah hal terpenting yang dapat Anda berikan ke
AutoML Translation guna mendapatkan model yang bermanfaat bagi bisnis Anda.
Bersihkan data yang berantakan
Mudah sekali untuk membuat kesalahan pada tahap prapemrosesan data, dan beberapa kesalahan tersebut
dapat benar-benar membingungkan model kustom. Intinya, temukan masalah data
berikut yang dapat Anda perbaiki:
- Hapus segmen sumber duplikat, terutama jika segmen tersebut memiliki target terjemahan yang berbeda. AutoML Translation hanya menggunakan contoh yang pertama kali dilihat dan menghapus semua pasangan lainnya pada saat mengimpor. Dengan menghapus duplikat, Anda memastikan AutoML Translation menggunakan terjemahan sesuai pilihan Anda.
- Selaraskan segmen sumber ke segmen target yang tepat.
- Cocokkan segmen dengan bahasa yang telah ditentukan; misalnya, hanya masukkan segmen bahasa Cina dalam set data bahasa Cina.
- Untuk segmen target yang menyertakan bahasa campuran, pastikan kata yang tidak diterjemahkan memang sengaja tidak diterjemahkan, seperti nama produk atau organisasi. Segmen target yang secara keliru menyertakan kata yang tidak diterjemahkan akan menambahkan derau ke data pelatihan, sehingga dapat menghasilkan model berkualitas lebih rendah.
- Perbaiki segmen yang memiliki kesalahan tipografi atau tata bahasa sehingga model Anda tidak meniru kesalahan ini.
- Hapus konten yang tidak dapat diterjemahkan, seperti tag placeholder dan tag HTML. Konten yang tidak dapat diterjemahkan dapat menyebabkan kesalahan tanda baca.
- Jangan menyertakan terjemahan yang menggantikan entitas umum dengan kata benda spesifik. Misalnya, Anda mungkin memiliki contoh yang mengubah "presiden" menjadi nama presiden tertentu, seperti "JFK" atau "John F Kennedy". Model dapat ikut mengubah semua instance "presiden" menjadi "JFK". Sebagai gantinya, hapus terjemahan ini atau ubah kata benda spesifik tersebut menjadi kata yang umum.
- Hapus segmen duplikat dalam set pelatihan dan pengujian. (Pelajari lebih lanjut set pelatihan dan pengujian)
- Bagi beberapa segmen menjadi pasangan segmen yang berbeda. Melakukan pelatihan pada set data yang kebanyakan itemnya memiliki lebih dari 50 token (kata) akan menghasilkan model yang berkualitas lebih rendah. Bagi item-item tersebut menjadi kalimat individu, jika memungkinkan.
- Gunakan kapitalisasi huruf secara konsisten. Penggunaan kapitalisasi memengaruhi cara model belajar, misalnya, untuk membedakan teks judul dengan isi.
- Hapus tag TMX saat mengimpor data dari file TSV. Dalam beberapa kasus, Anda dapat mengekspor memori terjemahan yang sudah ada ke file TSV, yang mungkin menyertakan tag TMX. Namun, AutoML Translation menghapus tag unit terjemahan hanya saat Anda mengimpor dari file TMX (bukan file TSV).
Cara AutoML Translation melakukan prapemrosesan data Anda
AutoML Translation berhenti mengurai file input data Anda saat:
- Ada format yang tidak valid
- Ada pasangan segmen yang sangat panjang (10 MB)
- File menggunakan encoding selain UTF-8
AutoML Translation akan mengabaikan error untuk masalah yang tidak dapat dideteksinya, seperti:
- Elemen <tu> dalam file TMX tidak memiliki bahasa sumber atau bahasa target.
- Salah satu pasangan segmen inputnya kosong.
Untuk pembagian data otomatis, AutoML Translation melakukan pemrosesan tambahan:
- Setelah set data diupload, pasangan segmen dengan segmen sumber yang identik akan dihapus.
- Sistem ini akan membagi data Anda secara acak menjadi tiga set dengan rasio 8:1:1 (train:validation:test) sebelum pelatihan.
Mempertimbangkan cara AutoML Translation menggunakan set data Anda dalam membuat model kustom
Set data Anda berisi set pelatihan, validasi, dan pengujian. Jika Anda tidak
menentukan pembagian (baca Mempersiapkan data pelatihan Anda)
dan set data Anda berisi kurang dari 100.000 pasangan segmen, maka
AutoML Translation akan otomatis menggunakan 80% dokumen konten Anda untuk
pelatihan, 10% untuk validasi, dan 10% untuk pengujian. Jika data Anda lebih besar dari
itu, Anda harus melakukan pembagian data sendiri.
Set Pelatihan
Sebagian besar data Anda harus berada dalam set pelatihan. Ini adalah data
yang "dilihat" oleh model Anda selama pelatihan: data ini digunakan untuk mempelajari parameter
model, yaitu bobot koneksi antar berbagai node pada jaringan
neural.
Set Validasi
Set validasi, terkadang juga disebut dengan set "dev", juga digunakan selama
proses pelatihan. Selama pembelajaran model, framework menggunakan set pelatihan untuk
melatih serangkaian model kandidat, kemudian menggunakan performa model
pada set validasi untuk memilih model terbaik yang dihasilkan. Set tersebut menggunakan performa
model pada set validasi untuk menyesuaikan hyperparameter model, yang merupakan
variabel yang menentukan struktur model. Jika Anda menggunakan set pelatihan untuk
menyesuaikan hyperparameter, model tersebut akan terlalu fokus pada data pelatihan
Anda. Menggunakan set data yang agak baru untuk menyempurnakan struktur model berarti
model Anda akan melakukan generalisasi dengan lebih baik.
Set pengujian
Set pengujian sama sekali tidak terlibat dalam proses pelatihan. Setelah model menyelesaikan
seluruh pelatihannya, kami akan menggunakan set pengujian sebagai tantangan yang benar-benar baru
untuk model Anda. Performa model Anda pada set pengujian
dimaksudkan untuk memberi Anda gambaran yang cukup tentang performa
model Anda pada data di dunia nyata.
Pembagian Manual
AutoML dapat membagi data Anda menjadi set pelatihan, validasi, dan
pengujian, atau Anda dapat melakukannya sendiri jika ingin memiliki
kontrol yang lebih besar atas prosesnya, jika Anda menginginkan persentase pembagian yang berbeda, atau jika
ada contoh spesifik yang yakin ingin disertakan ke dalam bagian tertentu
dari siklus proses pelatihan model Anda.
Menyiapkan data Anda untuk diimpor
Setelah memutuskan antara membagi data secara manual atau otomatis, ada dua cara untuk menambahkan data:
- Anda dapat mengimpor data sebagai file dengan nilai yang dipisahkan tab (TSV) yang berisi segmen sumber dan target, satu pasangan segmen per baris.
- Anda dapat mengimpor data sebagai file TMX, sebuah format standar untuk menyediakan pasangan
segmen ke alat model terjemahan otomatis (pelajari lebih lanjut format TMX
yang didukung). Jika file TMX berisi tag XML yang tidak valid,
AutoML akan mengabaikannya. Jika file TMX tidak sesuai dengan format
XML dan TMX yang tepat – misalnya, jika file tidak memiliki tag akhir atau elemen
<tmx>– AutoML tidak akan memprosesnya. Cloud Translation juga akan menghentikan pemrosesan dan menampilkan error jika elemen<tu>yang tidak valid dilewati lebih dari 1024 kali.
Evaluasi
Setelah model dilatih, Anda akan menerima ringkasan performa model tersebut. Klik tab Latih untuk melihat analisis terperinci.
Apa yang harus saya perhatikan sebelum mengevaluasi model saya?
Proses debug model seharusnya lebih difokuskan pada proses debug data, dan bukan pada model itu sendiri. Jika model
Anda mulai bereaksi secara tidak terduga saat Anda mengevaluasi performanya
sebelum dan setelah dikirim ke produksi, Anda harus kembali dan memeriksa data untuk
melihat area yang dapat diperbaiki.
Skor BLEU
Skor BLEU adalah sebuah cara standar untuk mengukur kualitas sistem terjemahan mesin. AutoML Translation menggunakan skor BLEU yang dihitung pada data pengujian yang Anda berikan sebagai metrik evaluasi utamanya. (Pelajari lebih lanjut skor BLEU.)
Model Google NMT, yang mendukung Cloud Translation API, dibuat untuk penggunaan umum. Model ini mungkin bukan solusi terbaik jika Anda menginginkan terjemahan khusus untuk bidang Anda sendiri. Model kustom yang dilatih biasanya memiliki performa yang lebih baik daripada model NMT dalam bidang yang terkait dengan set pelatihan Anda.
Setelah melatih model kustom dengan set data Anda sendiri, skor BLEU dari model kustom dan model Google NMT akan ditampilkan di tab Latih. Ada juga peningkatan performa skor BLEU dari model kustom di tab Latih. Semakin tinggi skor BLEU, semakin baik pula terjemahan yang dapat dihasilkan model Anda untuk segmen-segmen yang mirip dengan data pelatihan Anda. Jika skor BLEU berada dalam rentang 30-40, model tersebut dianggap mampu menghasilkan terjemahan yang baik.
Perhatikan bahwa skor BLEU tidak direkomendasikan untuk melakukan perbandingan di antara berbagai korpus dan bahasa. Misalnya, skor BLEU 50 untuk terjemahan dari bahasa Inggris ke bahasa Jerman tidak dapat dibandingkan dengan skor BLEU 50 untuk terjemahan dari bahasa Jepang ke bahasa Inggris. Banyak pakar terjemahan telah beralih ke pendekatan metrik berbasis model, yang memiliki korelasi lebih tinggi dengan rating manusia dan lebih terperinci dalam mengidentifikasi skenario kesalahan.
AutoML Translation hanya mendukung skor BLEU. Untuk mengevaluasi model terjemahan Anda menggunakan metrik berbasis model, baca Layanan evaluasi AI generatif di Vertex AI.
Menguji model Anda
Meskipun skor BLEU terlihat bagus, sebaiknya periksa sendiri
model untuk memastikan bahwa performanya sesuai dengan harapan Anda. Jika data
pelatihan dan pengujian Anda diambil dari kumpulan sampel yang salah dan sama,
skornya mungkin akan sangat bagus meskipun terjemahannya tidak masuk akal. Tambahkan beberapa contoh
sebagai input pada tab Predict dan bandingkan hasil dari model kustom
dengan model dasar Google NMT. Anda mungkin memperhatikan bahwa model Anda memiliki
prediksi yang sama dengan model dasar, terutama pada segmen pendek atau jika Anda
memiliki set pelatihan yang lebih kecil. Hal ini wajar terjadi - model dasarnya sudah
cukup bagus untuk berbagai kasus penggunaan. Cobalah beberapa segmen yang
lebih panjang atau lebih kompleks. Namun, jika semua hasil segmen Anda sama dengan
prediksi dari model dasar, hal ini mungkin mengindikasikan adanya masalah data.
Jika ada kesalahan yang membuat Anda khawatir mengenai pembuatan model Anda, (misalnya, fitur pasangan bahasa yang membingungkan yang sering kali menjebak penerjemah manusia, atau kesalahan terjemahan yang mungkin sangat merugikan secara finansial atau reputasi) pastikan set atau prosedur pengujian Anda mencakup kasus tersebut secara memadai agar Anda merasa aman menggunakan model tersebut dalam tugas sehari-hari.
Langkah berikutnya
- Untuk membuat set data dan model kustom Anda sendiri, lihat Menyiapkan data pelatihan untuk mendapatkan petunjuk tentang cara menyiapkan data Anda.