Menyiapkan data pelatihan

Cloud Translation melatih model kustom menggunakan pasangan segmen yang cocok dalam bahasa sumber dan bahasa target. Cloud Translation memperlakukan tiap pasangan segmen sebagai item pelatihan independen, tanpa mengasumsikan korelasi apa pun di antara pasangan-pasangan yang terpisah.

Pasangan segmen yang digunakan untuk melatih model kustom harus dalam format nilai yang dipisahkan tab (.tsv) atau dalam format Translation Memory eXchange (.tmx). Untuk mengetahui informasi selengkapnya, baca bagian Menyiapkan contoh terjemahan.

Pasangan segmen selalu dihapus duplikatnya di seluruh pasangan yang diimpor. Pasangan segmen merupakan duplikat dari pasangan segmen lain jika segmen sumbernya cocok dengan segmen sumber lainnya. Cloud Translation tidak mengizinkan Anda untuk mengimpor file dengan konten yang sama.

Bagian data

AutoML Translation menggunakan pasangan segmen yang Anda sediakan untuk beberapa tujuan saat membuat model kustom Anda:

Pelatihan - Pasangan segmen untuk melatih model. Alokasikan sebagian besar data Anda untuk tujuan ini.
Validasi - Pasangan segmen untuk memvalidasi hasil yang ditampilkan model selama pelatihan.
Pengujian - Pasangan segmen untuk menghasilkan metrik evaluasi akhir model Anda. Menunjukkan kemungkinan performa model dalam produksi.

Anda dapat mengontrol pasangan segmen yang digunakan AutoML Translation untuk tiap tujuan tersebut dengan mengupload file terpisah untuk set pelatihan, validasi, dan pengujian. Jika Anda tidak secara eksplisit menentukan file yang akan digunakan untuk tiga tujuan ini, AutoML Translation secara otomatis akan membagi pasangan segmen Anda menjadi tiga set. AutoML Translation menggunakan sekitar 80% data Anda untuk pelatihan, 10% untuk validasi, dan 10% untuk pengujian. AutoML Translation secara acak menetapkan pasangan segmen Anda menjadi tiga set. Anda dapat memiliki maksimal 10.000 pasangan segmen masing-masing untuk set validasi dan pengujian. Setelah 10.000 pasangan, pasangan-pasangan segmen dimasukkan ke set pelatihan.

Jika Anda melakukan beberapa impor data ke set data yang sama, Anda dapat menentukan bagian data secara manual untuk satu impor data dan menggunakan bagian otomatis untuk impor data lainnya. Data akan selalu disesuaikan ulang sehubungan dengan pembagian manual Anda setelah tiap impor dan penghapusan file.

Persyaratan data

Data pelatihan Anda harus sesuai dengan persyaratan berikut:

Jika Anda mengizinkan AutoML Translation membagi data secara otomatis, Anda harus mengirimkan minimal 1.000 pasangan segmen untuk melatih model kustom.
Jika Anda membagi data secara manual, Anda harus menyediakan minimal tiga pasangan segmen untuk set TRAIN, dan Anda harus memiliki minimal 100 pasangan segmen untuk masing-masing set VALIDATION dan TEST.
Anda harus menyediakan minimal tiga pasangan segmen untuk set TRAIN, dan Anda harus memiliki minimal 100 pasangan segmen untuk masing-masing set VALIDATION dan TEST.
Anda tidak dapat menyediakan lebih dari 10.000 pasangan segmen masing-masing untuk set VALIDATION dan set TEST.
Set data Anda tidak boleh melebihi jumlah maksimal 15 juta pasangan segmen.

Rekomendasi data

Rekomendasi berikut dapat membantu meningkatkan kualitas model Anda:

Gunakan minimal 5.000 pasangan segmen untuk TRAIN, 500 pasangan segmen untuk VALIDATION, dan 500 pasangan segmen untuk TEST. Meskipun demikian, gunakan lebih banyak data jika memungkinkan. Memiliki lebih banyak data untuk set TRAIN akan membantu model mempelajari pola, dan memiliki lebih banyak data untuk set VALIDATION dan TEST akan membantu memverifikasi bahwa model tersebut dapat digeneralisasi ke variasi skenario yang lebih luas di domain Anda.
Jaga agar segmen berisi sekitar 200 kata atau kurang. AutoML Translation dapat mengabaikan pasangan segmen yang lebih besar daripada itu. Untuk mengetahui informasi selengkapnya, lihat Masalah impor.
Perbaiki masalah data sumber yang umum, seperti yang dijelaskan di bagian "Membersihkan data berantakan" di bagian persiapan data dalam ringkasan.

Langkah berikutnya

Membuat set data dan mengimpor data Anda