Prepara i dati di ottimizzazione delle preferenze per i modelli Gemini

Questo documento descrive come definire un set di dati di ottimizzazione delle preferenze per un modello Gemini.

Informazioni sui set di dati di ottimizzazione delle preferenze

Il set di dati di ottimizzazione delle preferenze viene creato per acquisire le preferenze umane utilizzando indicatori come Mi piace/Non mi piace, feedback a coppie e con punteggio.

Preparare i dati di ottimizzazione delle preferenze personalizzati

In questo esempio:

Un example è composto da un input e da una coppia di campi completions.

L'input include contents e, facoltativamente, system_instruction. La somma del numero massimo di token di input e di completamento deve essere <= 128.000.

Il campo contents ha lo stesso formato utilizzato per l'ottimizzazione supervisionata. Supporta dati di testo multi-turn che devono terminare con un turno dell'utente. Non supporta i dati multimodali.

Il campo completions è composto da una coppia di completamenti e dai relativi punteggi. La coppia deve avere un completamento preferito e uno non preferito.

Un completion è un singolo turno del modello che indica la risposta del modello. Il campo score indica se il completamento è preferito o meno. L'unico valore possibile è zero o uno. Zero rappresenta il completamento meno preferito, mentre uno è il completamento preferito.

Eseguiamo l'addestramento solo sul turno completions per ogni example.

Esempio di set di dati per Gemini

{
  "system_instruction": {
    "parts": [
      {
        "text": "You are a chat bot."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "What is my favorite fruit?"
        }
      ]
    }
  ],
  "completions": [
    {
      "score": 1,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Apple! Apple! Apple!"
          }
        ]
      }
    },
    {
      "score": 0,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Your favorite fruit is apple."
          }
        ]
      }
    }
  ]
}

Passaggi successivi