Prepare dados de ajuste de preferências para os modelos Gemini

Este documento descreve como definir um conjunto de dados de ajuste de preferências para um modelo do Gemini.

Acerca dos conjuntos de dados de otimização de preferências

O conjunto de dados de ajuste de preferências é criado para captar as preferências humanas através de sinais como gosto/não gosto, aos pares e feedback classificado.

Prepare dados de ajuste de preferências personalizados

Neste exemplo:

Um example é composto por uma entrada e um par de campos completions.

A entrada inclui contents e um system_instruction opcional. A soma das contagens de tokens de entrada máxima e de conclusão máxima tem de ser <= 128 mil.

O campo contents está no mesmo formato usado para o ajuste fino supervisionado. Suporta dados de texto com várias interações que têm de terminar com uma interação do utilizador. Não suporta dados multimodaais.

O campo completions é composto por um par de conclusões e respetivas pontuações. O par tem de ter uma conclusão preferencial e uma conclusão não preferencial.

Uma completion é uma única interação do modelo que indica a resposta do modelo. O campo score indica se a conclusão é preferencial ou não preferencial. O único valor possível é zero ou um. Zero representa a conclusão menos preferida, enquanto um é a conclusão preferida.

Só fazemos a preparação com base na completions jogada de cada example.

Exemplo de conjunto de dados para o Gemini

{
  "system_instruction": {
    "parts": [
      {
        "text": "You are a chat bot."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "What is my favorite fruit?"
        }
      ]
    }
  ],
  "completions": [
    {
      "score": 1,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Apple! Apple! Apple!"
          }
        ]
      }
    },
    {
      "score": 0,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Your favorite fruit is apple."
          }
        ]
      }
    }
  ]
}

O que se segue?