Preparar datos de ajuste de preferencias para los modelos de Gemini

En este documento se describe cómo definir un conjunto de datos de ajuste de preferencias para un modelo de Gemini.

Acerca de los conjuntos de datos de ajuste de preferencias

El conjunto de datos de ajuste de preferencias se crea para registrar las preferencias de los usuarios mediante señales como Me gusta y No me gusta, comparaciones por pares y comentarios con puntuación.

Preparar datos de ajuste de preferencias personalizados

En este ejemplo:

Un example se compone de una entrada y un par de campos completions.

La entrada incluye contents y un system_instruction opcional. La suma del número máximo de tokens de entrada y de finalización debe ser igual o inferior a 128.000.

El campo contents tiene el mismo formato que se usa para el ajuste fino supervisado. Admite datos de texto de varias interacciones que deben terminar con una interacción del usuario. No admite datos multimodales.

El campo completions se compone de un par de autocompletados y sus puntuaciones. El par debe tener una finalización preferida y otra no preferida.

Un completion es un turno de un solo modelo que indica la respuesta del modelo. El campo score indica si la finalización es preferente o no. Los únicos valores posibles son cero o uno. Cero representa la finalización no preferida, mientras que uno es la finalización preferida.

Solo entrenamos con el completions turno de cada example.

Ejemplo de conjunto de datos para Gemini

{
  "system_instruction": {
    "parts": [
      {
        "text": "You are a chat bot."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "What is my favorite fruit?"
        }
      ]
    }
  ],
  "completions": [
    {
      "score": 1,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Apple! Apple! Apple!"
          }
        ]
      }
    },
    {
      "score": 0,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Your favorite fruit is apple."
          }
        ]
      }
    }
  ]
}

Siguientes pasos