Prepara datos de ajuste de preferencias para los modelos de Gemini

En este documento, se describe cómo definir un conjunto de datos de ajuste de preferencias para un modelo de Gemini.

Acerca de los conjuntos de datos de ajuste de preferencias

El conjunto de datos de ajuste de preferencias se crea para capturar las preferencias humanas con indicadores como los comentarios de Me gusta y No me gusta, los comentarios por pares y los comentarios calificados.

Prepara datos de ajuste de preferencias personalizados

En este ejemplo:

Un example se compone de una entrada y un par de campos completions.

La entrada incluye contents y un system_instruction opcional. La suma de la cantidad máxima de tokens de entrada y de finalización debe ser menor o igual a 128 000.

El campo contents tiene el mismo formato que se usa para la optimización supervisada. Admite datos de texto de varios turnos que deben finalizar con un turno del usuario. No admite datos multimodales.

El campo completions se compone de un par de completaciones y sus puntuaciones. El par debe tener una sugerencia preferida y una no preferida.

Un completion es un solo turno del modelo que indica la respuesta del modelo. El campo score indica si se prefiere o no la finalización. El único valor posible es cero o uno. El cero representa la opción de completado no preferida, mientras que el uno representa la opción de completado preferida.

Solo entrenamos el turno completions para cada example.

Ejemplo de conjunto de datos para Gemini

{
  "system_instruction": {
    "parts": [
      {
        "text": "You are a chat bot."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "What is my favorite fruit?"
        }
      ]
    }
  ],
  "completions": [
    {
      "score": 1,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Apple! Apple! Apple!"
          }
        ]
      }
    },
    {
      "score": 0,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Your favorite fruit is apple."
          }
        ]
      }
    }
  ]
}

¿Qué sigue?