Dokumen ini menjelaskan cara menentukan set data supervised fine-tuning untuk model LLM Terjemahan. Anda dapat menyesuaikan jenis data teks.
Tentang set data supervised fine-tuning
Set data supervised fine-tuning digunakan untuk melakukan fine-tuning model terlatih ke domain tertentu. Data input harus mirip dengan data yang Anda harapkan akan ditemui model dalam penggunaan di dunia nyata. Label output harus mewakili jawaban atau hasil yang benar untuk setiap input.
Set data pelatihan
Untuk menyesuaikan model, Anda harus menyediakan set data pelatihan. Untuk mendapatkan hasil terbaik, sebaiknya mulai dengan 100 contoh. Anda dapat meningkatkan skala hingga ribuan contoh jika diperlukan. Kualitas set data jauh lebih penting daripada kuantitas.
Batasan:
- Token input dan output maksimum per contoh: 1.000
- Ukuran file maksimum set data pelatihan: Hingga 1 GB untuk JSONL.
Set data validasi
Sebaiknya Anda menyediakan set data validasi. Set data validasi membantu Anda mengukur efektivitas tugas penyesuaian.
Batasan:
- Token input dan output maksimum per contoh: 1.000
- Jumlah maksimum contoh dalam set data validasi: 1.024
- Ukuran file maksimum set data pelatihan: Hingga 1 GB untuk JSONL.
Format set data
Set data penyesuaian model Anda harus dalam format JSON Lines (JSONL), dengan setiap baris berisi satu contoh penyesuaian. Sebelum menyesuaikan model, Anda harus mengupload set data ke bucket Cloud Storage. Pastikan untuk mengupload ke us-central1.
{
"contents": [
{
"role": string,
"parts": [
{
"text": string,
}
]
}
]
}
Parameter
Contoh ini berisi data dengan parameter berikut:
| Parameter | |
|---|---|
|
Wajib: Konten percakapan saat ini dengan model. Untuk kueri satu giliran, ini adalah satu instance. |
Contoh set data untuk translation-llm-002
{
"contents": [
{
"role": "user",
"parts": [
{
"text": "English: Hello. Spanish:",
}
]
}
{
"role": "model"",
"parts": [
{
"text": "Hola.",
}
]
}
]
}
Daftar Isi
Jenis data terstruktur dasar yang berisi konten multibagian dari sebuah pesan.
Class ini terdiri dari dua properti utama: role dan parts. Properti role menunjukkan individu yang membuat konten, sedangkan properti parts berisi beberapa elemen, yang masing-masing mewakili segmen data dalam pesan.
| Parameter | |
|---|---|
|
Opsional: Identitas entity yang membuat pesan. Nilai-nilai berikut didukung:
|
|
Daftar bagian yang diurutkan yang membentuk satu pesan. Untuk mengetahui batasan input, seperti jumlah token maksimum atau jumlah gambar, lihat spesifikasi model di halaman model Google. Untuk menghitung jumlah token dalam permintaan Anda, lihat Mendapatkan jumlah token. |
Bagian
Jenis data yang berisi media yang merupakan bagian dari pesan Content multibagian.
| Parameter | |
|---|---|
|
Opsional: Perintah teks atau cuplikan kode. |
Mengupload set data penyesuaian ke Cloud Storage
Untuk menjalankan tugas penyesuaian, Anda perlu mengupload satu atau beberapa set data ke bucket Cloud Storage. Anda dapat membuat bucket Cloud Storage baru atau menggunakan bucket yang sudah ada untuk menyimpan file set data. Region bucket tidak penting, tetapi sebaiknya Anda menggunakan bucket yang berada di Google Cloud project yang sama tempat Anda berencana untuk menyesuaikan model.
Setelah bucket siap, upload file set data Anda ke bucket.
Contoh notebook untuk menyiapkan data
Berikut beberapa contoh notebook Colab untuk membantu Anda memulai.
Set Data AutoML Translation
Jika sudah mengupload Set Data Terjemahan ke AutoML Translation, Anda dapat mengikuti contoh Colab untuk mengekspornya guna penyesuaian.
![]() Jalankan di Colab |
Jalankan di Colab Enterprise |
![]() Lihat di GitHub |
Set Data Lokal
Jika memiliki data dalam format TSV, CSV, atau TMX secara lokal, Anda dapat menguploadnya ke Colab untuk penyesuaian.
![]() Jalankan di Colab |
Jalankan di Colab Enterprise |
![]() Lihat di GitHub |
Langkah berikutnya
- Jalankan tugas supervised fine-tuning.

