Neste documento, descrevemos como definir um conjunto de dados de ajuste de preferências para um modelo do Gemini.
Sobre conjuntos de dados de ajuste de preferências
O conjunto de dados de ajuste de preferências é criado para capturar a preferência humana usando indicadores como feedback positivo/negativo, pareado e classificado.
Preparar dados de ajuste de preferências personalizados
Neste exemplo:
Um example é composto por uma entrada e um par de campos completions.
A entrada inclui contents e uma system_instruction opcional. A soma das contagens máximas de tokens de entrada e conclusão precisa ser menor ou igual a 128 mil.
O campo contents está no mesmo
formato usado para ajuste supervisionado. Ele oferece suporte a dados de texto de várias rodadas que precisam terminar com uma rodada do usuário. Ele não oferece suporte a dados multimodais.
O campo completions é composto por um par de conclusões e as respectivas pontuações. O par precisa ter uma conclusão preferida e uma não preferida.
Uma completion é uma única rodada de modelo que indica a resposta do modelo. O campo score indica se a conclusão é preferida ou não.
O único valor possível é zero ou um.
Zero representa a conclusão não preferida, enquanto um é a preferida.
Só treinamos na rodada completions para cada example.
Exemplo de conjunto de dados para o Gemini
{
"system_instruction": {
"parts": [
{
"text": "You are a chat bot."
}
]
},
"contents": [
{
"role": "user",
"parts": [
{
"text": "What is my favorite fruit?"
}
]
}
],
"completions": [
{
"score": 1,
"completion": {
"role": "model",
"parts": [
{
"text": "Apple! Apple! Apple!"
}
]
}
},
{
"score": 0,
"completion": {
"role": "model",
"parts": [
{
"text": "Your favorite fruit is apple."
}
]
}
}
]
}