Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Menyiapkan data pelatihan untuk model LLM Terjemahan

Dokumen ini menjelaskan cara menentukan set data penyesuaian terawasi untuk model LLM Terjemahan. Anda dapat menyesuaikan jenis data teks.

Tentang set data penyesuaian yang diawasi

Set data penyesuaian yang diawasi digunakan untuk menyesuaikan model terlatih ke domain tertentu. Data input harus serupa dengan data yang Anda harapkan akan ditemui model dalam penggunaan di dunia nyata. Label output harus merepresentasikan jawaban atau hasil yang benar untuk setiap input.

Set data pelatihan

Untuk menyetel model, Anda memberikan set data pelatihan. Untuk hasil terbaik, sebaiknya Anda memulai dengan 100 contoh. Anda dapat menskalakan hingga ribuan contoh jika diperlukan. Kualitas set data jauh lebih penting daripada kuantitasnya.

Batasan:

Token input dan output maksimum per contoh: 1.000
Ukuran file maksimum set data pelatihan: Hingga 1 GB untuk JSONL.

Set data validasi

Sebaiknya Anda memberikan set data validasi. Set data validasi membantu Anda mengukur efektivitas tugas penyesuaian.

Batasan:

Token input dan output maksimum per contoh: 1.000
Jumlah maksimum contoh dalam set data validasi: 1024
Ukuran file maksimum set data validasi: Hingga 1 GB untuk JSONL.

Format set data

Set data penyesuaian model Anda harus dalam format JSON Lines (JSONL), dengan setiap baris berisi satu contoh penyesuaian. Sebelum menyesuaikan model, Anda harus mengupload set data ke bucket Cloud Storage. Pastikan untuk mengupload ke us-central1.

Contoh set data untuk `translation-llm-002`

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

Daftar Isi

Jenis data terstruktur dasar yang berisi konten multi-bagian dari pesan. Class ini terdiri dari dua properti utama: role dan parts. Properti role menunjukkan individu yang membuat konten, sedangkan properti parts berisi beberapa elemen, yang masing-masing merepresentasikan segmen data dalam pesan.

Parameter

Parameter
`role`	Opsional: `string` Identitas entitas yang membuat pesan. Nilai-nilai berikut didukung: `user`: Ini menunjukkan bahwa pesan dikirim oleh orang sungguhan, biasanya pesan yang dibuat pengguna. `model`: Ini menunjukkan bahwa pesan dibuat oleh model.
`parts`	`part` Daftar bagian yang diurutkan yang membentuk satu pesan. Untuk mengetahui batas pada input, seperti jumlah maksimum token atau jumlah gambar, lihat spesifikasi model di halaman Model Google. Untuk menghitung jumlah token dalam permintaan Anda, lihat Mendapatkan jumlah token.

role

Opsional: string

Identitas entitas yang membuat pesan. Nilai-nilai berikut didukung:

user: Ini menunjukkan bahwa pesan dikirim oleh orang sungguhan, biasanya pesan yang dibuat pengguna.
model: Ini menunjukkan bahwa pesan dibuat oleh model.

parts

part

Daftar bagian yang diurutkan yang membentuk satu pesan.

Untuk mengetahui batas pada input, seperti jumlah maksimum token atau jumlah gambar, lihat spesifikasi model di halaman Model Google.

Untuk menghitung jumlah token dalam permintaan Anda, lihat Mendapatkan jumlah token.

Bagian

Jenis data yang berisi media yang merupakan bagian dari pesan Content multibagian.

Parameter

Parameter
`text`	Opsional: `string` Perintah teks atau cuplikan kode.

text

Opsional: string

Perintah teks atau cuplikan kode.

Mengupload set data penyesuaian ke Cloud Storage

Untuk menjalankan tugas penyesuaian, Anda perlu mengupload satu atau beberapa set data ke bucket Cloud Storage. Anda dapat membuat bucket Cloud Storage baru atau menggunakan bucket yang sudah ada untuk menyimpan file set data. Region bucket tidak penting, tetapi sebaiknya gunakan bucket yang berada di projectGoogle Cloud yang sama tempat Anda berencana untuk menyesuaikan model.

Setelah bucket siap, upload file set data Anda ke bucket.