Neste documento, descrevemos como definir um conjunto de dados de ajuste de preferências para um modelo do Gemini.
Sobre conjuntos de dados de ajuste de preferência
O conjunto de dados de ajuste de preferências é criado para capturar a preferência humana usando sinais como gostei/não gostei, feedback aos pares e com pontuação.
Preparar dados de ajuste de preferências personalizados
Neste exemplo:
Um example é composto por uma entrada e um par de campos completions.
A entrada inclui contents e um system_instruction opcional. A soma das contagens máximas de tokens de entrada e conclusão precisa ser <= 128 mil.
O campo contents está no mesmo formato usado para ajuste supervisionado. Ele
aceita dados de texto de várias rodadas que precisam terminar com uma rodada do usuário. Ela não aceita dados multimodais.
O campo completions é composto por um par de conclusões e as pontuações delas. O par precisa ter uma conclusão preferida e uma não preferida.
Um completion é uma única ação do modelo que indica a resposta dele. O campo score indica se a conclusão é preferida ou não.
O único valor possível é zero ou um.
Zero representa a conclusão não preferida, enquanto um é a conclusão preferida.
Só fazemos o treinamento no turno completions para cada example.
Exemplo de conjunto de dados para o Gemini
{
"system_instruction": {
"parts": [
{
"text": "You are a chat bot."
}
]
},
"contents": [
{
"role": "user",
"parts": [
{
"text": "What is my favorite fruit?"
}
]
}
],
"completions": [
{
"score": 1,
"completion": {
"role": "model",
"parts": [
{
"text": "Apple! Apple! Apple!"
}
]
}
},
{
"score": 0,
"completion": {
"role": "model",
"parts": [
{
"text": "Your favorite fruit is apple."
}
]
}
}
]
}