Tentang penyesuaian preferensi untuk model Gemini

Penyesuaian preferensi Gemini Enterprise Agent Platform memungkinkan Anda menyesuaikan model Gemini dengan data masukan manusia.

Penyesuaian preferensi memungkinkan model mempelajari preferensi pengguna subjektif yang sulit ditentukan dengan menggunakan label tertentu atau melalui penyesuaian yang diawasi saja.

Set data input penyesuaian preferensi berisi contoh yang terdiri dari perintah dan sepasang respons yang menunjukkan mana yang lebih disukai dan mana yang tidak disukai. Model ini mempelajari cara menghasilkan respons yang disukai dengan probabilitas lebih tinggi dan respons yang tidak disukai dengan probabilitas lebih rendah.

Untuk mempelajari cara menyiapkan set data, lihat Menyiapkan data penyesuaian preferensi untuk model Gemini.

Model yang didukung

Model Gemini berikut mendukung penyesuaian preferensi:

Klik untuk meluaskan model yang didukung

Batasan

Spesifikasi Nilai
Modalitas Teks
Ukuran file set data pelatihan 1GB
Token input dan output maksimum per contoh pelatihan 131.072
Token penayangan input dan output maksimum Sama dengan model dasar Gemini
Jumlah maksimum contoh pelatihan dalam set data pelatihan 10 juta contoh pelatihan khusus teks
Ukuran set data validasi maksimum 5.000 contoh atau 30% dari jumlah contoh pelatihan jika ada lebih dari 1.000 contoh validasi
Ukuran adaptor Nilai yang didukung adalah 1, 2, 4, 8, dan 16

Praktik terbaik

Sebelum menerapkan algoritma pengoptimalan preferensi ke model Anda, sebaiknya lakukan hal berikut:

  1. Sesuaikan model menggunakan supervised fine-tuning pada data respons yang disukai. Hal ini mengajarkan model untuk menghasilkan respons yang disukai selama inferensi.
  2. Lanjutkan penyesuaian dari checkpoint yang dihasilkan dari langkah 1 menggunakan penyesuaian preferensi. Hal ini mengajarkan model untuk meningkatkan kesenjangan kemungkinan antara respons yang disukai dan tidak disukai.

Untuk membuat set data supervised fine-tuning, gunakan pasangan perintah dan respons yang diterima dalam set data preferensi Anda sebagai perintah dan target untuk set data supervised fine-tuning. Biasanya satu atau dua epoch penyesuaian yang diawasi sudah cukup, meskipun hal ini dapat berubah berdasarkan ukuran set data dan seberapa selaras set data pelatihan Anda dengan model Gemini pada awalnya.

Untuk menggunakan supervised fine-tuning guna menyesuaikan model, ikuti langkah-langkah di Menyesuaikan model Gemini menggunakan supervised fine-tuning.

Quota

Kuota diterapkan pada jumlah tugas penyesuaian serentak. Setiap project dilengkapi dengan kuota default untuk menjalankan setidaknya satu tugas penyesuaian. Ini adalah kuota global, yang dibagikan di semua region yang tersedia dan model yang didukung. Jika ingin menjalankan lebih banyak tugas secara serentak, Anda harus meminta kuota tambahan untuk Global concurrent tuning jobs.

Harga

Harga untuk penyesuaian preferensi Gemini dapat ditemukan di sini: Harga Gemini Enterprise Agent Platform.

Untuk tujuan penetapan harga, jumlah token untuk setiap contoh penyesuaian dihitung dengan mengalikan jumlah token dalam perintah dengan 2, lalu menambahkan jumlah token penyelesaian.

Langkah berikutnya