Menyiapkan data penyesuaian preferensi untuk model Gemini

Dokumen ini menjelaskan cara menentukan set data penyesuaian preferensi untuk model Gemini.

Tentang set data penyesuaian preferensi

Set data penyesuaian preferensi dibuat untuk merekam preferensi manusia menggunakan sinyal seperti suka-tidak suka, berpasangan, dan masukan yang diberi skor.

Menyiapkan data penyesuaian preferensi yang disesuaikan

Dalam contoh ini:

example terdiri dari input dan sepasang kolom completions.

Input mencakup contents dan system_instruction opsional. Jumlah maksimum token input dan maksimum token penyelesaian harus <= 128.000.

Kolom contents memiliki format yang sama dengan yang digunakan untuk penyesuaian terawasi. Model ini mendukung data teks multi-turn yang harus diakhiri dengan giliran pengguna. Model ini tidak mendukung data multimodal.

Kolom completions terdiri dari sepasang penyelesaian dan skornya. Pasangan harus memiliki satu penyelesaian yang lebih disukai dan satu penyelesaian yang kurang disukai.

completion adalah satu giliran model yang menunjukkan respons model. Kolom score menunjukkan apakah penyelesaian lebih disukai atau tidak disukai. Satu-satunya nilai yang mungkin adalah nol atau satu. Nol menunjukkan penyelesaian yang tidak disukai, sedangkan satu adalah penyelesaian yang disukai.

Kita hanya melatih giliran completions untuk setiap example.

Contoh set data untuk Gemini

{
  "system_instruction": {
    "parts": [
      {
        "text": "You are a chat bot."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "What is my favorite fruit?"
        }
      ]
    }
  ],
  "completions": [
    {
      "score": 1,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Apple! Apple! Apple!"
          }
        ]
      }
    },
    {
      "score": 0,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Your favorite fruit is apple."
          }
        ]
      }
    }
  ]
}

Langkah berikutnya