Menyesuaikan model TLLM

Gunakan Cloud Translation - Advanced API untuk menyesuaikan model LLM Terjemahan (TLLM) Google tanpa menulis kode. Sesuaikan model kustom dengan konten khusus domain Anda, sehingga menghasilkan terjemahan yang lebih akurat daripada dengan model TLLM Google default. Model TLLM mencakup sejumlah besar pasangan bahasa dan berfungsi baik saat digunakan untuk teks tujuan umum. Model kustom unggul dalam menangani kosakata khusus yang spesifik. Jika Anda menjalankan layanan pelaporan khusus yang memiliki peluang untuk berekspansi ke negara-negara baru, alih-alih merekrut spesialis, buat dan sempurnakan model kustom untuk melakukan pekerjaan secara real time.

Persiapan data

Untuk melatih model kustom, berikan pasangan segmen yang cocok dalam bahasa sumber dan target. Pasangan kata atau frasa ini memiliki arti yang sama dalam bahasa sumber dan bahasa target terjemahan. Semakin dekat arti pasangan segmen, semakin baik model Anda dapat berfungsi. Saat menyusun set data pasangan segmen yang cocok, mulailah dengan kasus penggunaan:

  • Hasil apa yang ingin Anda capai?

  • Jenis segmen apa yang penting untuk diterjemahkan dengan benar, untuk mencapai hasil tersebut? Dapatkah model TLLM mencapainya langsung?

  • Apakah mungkin bagi manusia untuk menerjemahkan segmen penting ini dengan cara yang memenuhi standar Anda? Jika tugas terjemahan cukup ambigu sehingga orang yang fasih dalam kedua bahasa tersebut akan kesulitan melakukan pekerjaan yang memuaskan, model TLLM mungkin akan berperforma sama baiknya dengan model kustom.

  • Jenis contoh apa yang paling mencerminkan jenis dan rentang pasangan segmen yang perlu diterjemahkan oleh sistem Anda?

Mencocokkan data dengan domain permasalahan Anda

Latih model terjemahan kustom agar sesuai dengan domain linguistik tertentu. Pastikan pasangan segmen Anda telah optimal dalam merangkum keunikan kosakata, penggunaan, dan tata bahasa di industri atau area fokus Anda. Temukan dokumen dengan penggunaan umum untuk tugas terjemahan yang ingin diselesaikan, yang cocok dengan frasa paralel Anda sedekat mungkin. Bahasa tidak dapat dipetakan dengan sempurna dalam hal kosakata atau sintaksis, tetapi cobalah untuk menangkap keragaman semantik yang Anda temui. Anda membuat model dengan fitur terjemahan tujuan umum yang sudah cukup baik. Contoh Anda adalah langkah terakhir untuk menyesuaikan model kustom, jadi pastikan contoh tersebut relevan dan representatif.

Menangkap keragaman ruang linguistik Anda

Jangan berasumsi bahwa cara orang menulis tentang domain tertentu cukup seragam sehingga sampel teks dengan jumlah sedikit yang diterjemahkan oleh beberapa penerjemah saja sudah cukup untuk melatih model yang akan bekerja dengan baik bagi siapa pun yang menulis tentang domain tersebut. Setiap orang memiliki gaya bahasa yang berbeda-beda dalam menulis. Oleh karena itu, set data pelatihan dengan pasangan segmen dari banyak penulis dan penerjemah memiliki kemungkinan lebih besar untuk menghasilkan model yang berguna dalam menerjemahkan tulisan dari berbagai organisasi yang berbeda. Pertimbangkan juga berbagai panjang dan struktur segmen: Set data yang semua segmennya memiliki ukuran yang sama atau memiliki struktur tata bahasa yang serupa tidak akan membuat model yang mencakup semua kemungkinan.

Mengumpulkan data Anda

Setelah menentukan data yang diperlukan, temukan cara untuk mendapatkannya. Perhitungkan semua data yang dikumpulkan organisasi Anda. Anda mungkin mendapati bahwa Anda sudah mengumpulkan data yang diperlukan untuk melatih model terjemahan. Jika Anda tidak memiliki data yang diperlukan, dapatkan secara manual atau lakukan outsourcing ke pihak ketiga.

Tetap memerlukan interaksi manusia

Usahakan agar ada orang yang memahami kedua bahasa tersebut yang telah memvalidasi bahwa pasangan segmen sudah cocok dan mewakili terjemahan yang dapat dipahami dan akurat. Kesalahan umum, seperti tidak menyelaraskan barisan spreadsheet data pelatihan, dapat menghasilkan terjemahan yang tidak masuk akal. Data berkualitas tinggi diperlukan agar Cloud Translation - Advanced API mendapatkan model yang dapat digunakan.

Perhatikan keadilan dengan pasangan segmen

Prinsip utama yang mendasari produk ML Google adalah machine learning yang berpusat pada manusia, yaitu pendekatan yang mendorong praktik AI yang bertanggung jawab, termasuk keadilan. Tujuan keadilan dalam ML adalah untuk memahami dan mencegah perlakuan yang tidak adil atau merugikan terhadap orang yang terkait dengan ras, pendapatan, orientasi seksual, agama, gender, dan karakteristik lain yang secara historis terkait dengan diskriminasi dan marginalisasi, ketika dan di mana hal tersebut muncul dalam sistem algoritma atau pengambilan keputusan dengan bantuan algoritma.

Bersihkan data yang berantakan

Anda mungkin membuat kesalahan saat melakukan prapemrosesan data, yang dapat membingungkan model kustom. Temukan masalah data berikut yang dapat Anda perbaiki:

  • Hapus segmen sumber duplikat, terutama jika segmen tersebut memiliki target terjemahan yang berbeda, untuk memastikan bahwa Cloud Translation - Advanced API menggunakan terjemahan pilihan Anda.
  • Selaraskan segmen sumber ke segmen target yang tepat.
  • Cocokkan segmen dengan bahasa yang telah ditentukan. (Contoh: Hanya sertakan segmen bahasa China dalam set data bahasa China.)
  • Untuk segmen target dengan bahasa campuran, pastikan kata yang tidak diterjemahkan memang sengaja tidak diterjemahkan. Segmen target yang secara keliru menyertakan kata yang tidak diterjemahkan akan menambahkan derau ke data Anda, sehingga dapat menurunkan kualitas model.
  • Perbaiki segmen dengan kesalahan tipografi atau tata bahasa.
  • Hapus konten yang tidak dapat diterjemahkan, seperti tag placeholder dan tag HTML. Konten yang tidak dapat diterjemahkan dapat menyebabkan kesalahan tanda baca.
  • Jangan menyertakan pasangan segmen yang menggantikan hal umum dengan kata benda spesifik. Misalnya, menerjemahkan istilah umum seperti presiden menjadi JFK. Sebagai gantinya, hapus terjemahan ini atau ubah kata benda spesifik tersebut menjadi kata yang umum.
  • Hapus segmen duplikat dalam set pelatihan dan pengujian.
  • Gunakan huruf besar/kecil yang konsisten, yang memengaruhi cara model belajar, seperti membedakan judul dari isi teks.

Data proses

Batasan berikut berlaku:

  • Token input dan output maksimum:
    • Penayangan: 1.000 (sekitar 4.000 karakter)
  • Ukuran set data validasi: 1.024 contoh
  • Ukuran file set data pelatihan: Hingga 1 GB untuk JSONL
  • Panjang contoh pelatihan: 1.000 (sekitar 4.000 karakter)
  • Ukuran adaptor:
    • Translation LLM V2: Nilai yang didukung hanya 4. Menggunakan nilai lain (misalnya, 1 atau 8) akan menyebabkan kegagalan.

Debug

Proses debug model kustom lebih berfokus pada proses debug data daripada model itu sendiri. Jika model Anda tidak menerjemahkan sesuai keinginan Anda, periksa data Anda untuk melihat bagian yang dapat ditingkatkan.

Uji

Meskipun skor evaluasi Anda terlihat bagus, periksa model untuk memastikan performanya sesuai dengan harapan Anda. Jika data pelatihan dan pengujian Anda diambil dari kumpulan sampel yang salah dan sama, skornya mungkin akan sangat bagus meskipun terjemahannya tidak masuk akal. Siapkan beberapa contoh yang tidak ada dalam set pelatihan. Bandingkan hasil dari model kustom dengan model dasar TLLM Google.

Anda mungkin mendapati bahwa model Anda menghasilkan prediksi yang sama dengan model dasar, terutama pada segmen pendek atau jika Anda memiliki set pelatihan yang lebih kecil, karena model dasar sudah bagus. Jika demikian, coba segmen yang lebih panjang atau lebih kompleks. Jika hasil segmen Anda sama dengan prediksi dari model dasar, hal ini mungkin mengindikasikan adanya masalah data.

Jika ada kesalahan yang Anda khawatirkan akan dilakukan oleh model Anda, pastikan set atau prosedur pengujian Anda mencakup kasus tersebut secara memadai sehingga Anda merasa aman menggunakan model Anda.

Langkah berikutnya