Este documento descreve como definir um conjunto de dados de ajuste de preferências para um modelo do Gemini.
Acerca dos conjuntos de dados de otimização de preferências
O conjunto de dados de ajuste de preferências é criado para captar as preferências humanas através de sinais como gosto/não gosto, aos pares e feedback classificado.
Prepare dados de ajuste de preferências personalizados
Neste exemplo:
Um example é composto por uma entrada e um par de campos completions.
A entrada inclui contents e um system_instruction opcional. A soma das contagens de tokens de entrada máxima e de conclusão máxima tem de ser <= 128 mil.
O campo contents está no mesmo
formato usado para o ajuste fino supervisionado. Suporta dados de texto com várias interações que têm de terminar com uma interação do utilizador. Não suporta dados multimodaais.
O campo completions é composto por um par de conclusões e respetivas pontuações. O par tem de ter uma conclusão preferencial e uma conclusão não preferencial.
Uma completion é uma única interação do modelo que indica a resposta do modelo. O campo score indica se a conclusão é preferencial ou não preferencial.
O único valor possível é zero ou um.
Zero representa a conclusão menos preferida, enquanto um é a conclusão preferida.
Só fazemos a preparação com base na completions jogada de cada example.
Exemplo de conjunto de dados para o Gemini
{
"system_instruction": {
"parts": [
{
"text": "You are a chat bot."
}
]
},
"contents": [
{
"role": "user",
"parts": [
{
"text": "What is my favorite fruit?"
}
]
}
],
"completions": [
{
"score": 1,
"completion": {
"role": "model",
"parts": [
{
"text": "Apple! Apple! Apple!"
}
]
}
},
{
"score": 0,
"completion": {
"role": "model",
"parts": [
{
"text": "Your favorite fruit is apple."
}
]
}
}
]
}