Ce document explique comment définir un ensemble de données de réglage des préférences pour un modèle Gemini.
À propos des ensembles de données d'ajustement des préférences
L'ensemble de données de réglage des préférences est créé pour capturer les préférences humaines à l'aide de signaux tels que les commentaires positifs/négatifs, les commentaires par paires et les commentaires notés.
Préparer des données de réglage des préférences personnalisées
Dans cet exemple :
Un example est composé d'une entrée et d'une paire de champs completions.
L'entrée inclut contents et un system_instruction facultatif. La somme du nombre maximal de jetons d'entrée et de complément doit être inférieure ou égale à 128 000.
Le champ contents est au même format que celui utilisé pour le réglage fin supervisé. Il accepte les données textuelles multitours qui doivent se terminer par un tour utilisateur. Elle n'est pas compatible avec les données multimodales.
Le champ completions se compose d'une paire de complétions et de leurs scores. La paire doit comporter une fin préférée et une fin non préférée.
Un completion est un tour de modèle unique qui indique la réponse du modèle. Le champ score indique si la réponse est préférée ou non.
La seule valeur possible est zéro ou un.
La valeur 0 représente la réponse non souhaitée, tandis que la valeur 1 représente la réponse souhaitée.
Nous n'entraînons que le tour completions pour chaque example.
Exemple d'ensemble de données pour Gemini
{
"system_instruction": {
"parts": [
{
"text": "You are a chat bot."
}
]
},
"contents": [
{
"role": "user",
"parts": [
{
"text": "What is my favorite fruit?"
}
]
}
],
"completions": [
{
"score": 1,
"completion": {
"role": "model",
"parts": [
{
"text": "Apple! Apple! Apple!"
}
]
}
},
{
"score": 0,
"completion": {
"role": "model",
"parts": [
{
"text": "Your favorite fruit is apple."
}
]
}
}
]
}