Preparar dados de ajuste de preferência para modelos Gemini

Neste documento, descrevemos como definir um conjunto de dados de ajuste de preferências para um modelo do Gemini.

Sobre conjuntos de dados de ajuste de preferências

O conjunto de dados de ajuste de preferências é criado para capturar a preferência humana usando indicadores como feedback positivo/negativo, pareado e classificado.

Preparar dados de ajuste de preferências personalizados

Neste exemplo:

Um example é composto por uma entrada e um par de campos completions.

A entrada inclui contents e uma system_instruction opcional. A soma das contagens máximas de tokens de entrada e conclusão precisa ser menor ou igual a 128 mil.

O campo contents está no mesmo formato usado para ajuste supervisionado. Ele oferece suporte a dados de texto de várias rodadas que precisam terminar com uma rodada do usuário. Ele não oferece suporte a dados multimodais.

O campo completions é composto por um par de conclusões e as respectivas pontuações. O par precisa ter uma conclusão preferida e uma não preferida.

Uma completion é uma única rodada de modelo que indica a resposta do modelo. O campo score indica se a conclusão é preferida ou não. O único valor possível é zero ou um. Zero representa a conclusão não preferida, enquanto um é a preferida.

Só treinamos na rodada completions para cada example.

Exemplo de conjunto de dados para o Gemini

{
  "system_instruction": {
    "parts": [
      {
        "text": "You are a chat bot."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "What is my favorite fruit?"
        }
      ]
    }
  ],
  "completions": [
    {
      "score": 1,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Apple! Apple! Apple!"
          }
        ]
      }
    },
    {
      "score": 0,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Your favorite fruit is apple."
          }
        ]
      }
    }
  ]
}

A seguir