In diesem Dokument wird beschrieben, wie Sie ein Dataset für die Präferenzabstimmung für ein Gemini-Modell definieren.
Datasets für die Präferenzabstimmung
Das Dataset für die Präferenzabstimmung wird erstellt, um menschliche Präferenzen mithilfe von Signalen wie „Mag ich“/„Mag ich nicht“, paarweisem Feedback und bewertetem Feedback zu erfassen.
Benutzerdefinierte Daten für die Präferenzabstimmung vorbereiten
In diesem Fall gilt Folgendes:
Ein example besteht aus einer Eingabe und einem Paar von completions-Feldern.
Die Eingabe enthält contents und optional system_instruction. Die Summe der maximalen Anzahl von Eingabe- und Vervollständigungstokens muss <= 128.000 sein.
Das Feld contents hat dasselbe
Format wie bei der überwachten Feinabstimmung. Es unterstützt mehrfache Textdaten, die mit einer Nutzerantwort enden müssen. Multimodale Daten werden nicht unterstützt.
Das Feld completions besteht aus einem Paar von Vervollständigungen und ihren Bewertungen. Das Paar muss eine bevorzugte und eine nicht bevorzugte Vervollständigung enthalten.
Eine completion ist eine einzelne Modellantwort, die die Antwort des Modells angibt. Das Feld score gibt an, ob die Vervollständigung bevorzugt oder nicht bevorzugt ist.
Der einzig mögliche Wert ist 0 oder 1.
0 steht für die nicht bevorzugte Vervollständigung, 1 für die bevorzugte.
Wir trainieren nur mit der completions-Antwort für jedes example.
Dataset-Beispiel für Gemini
{
"system_instruction": {
"parts": [
{
"text": "You are a chat bot."
}
]
},
"contents": [
{
"role": "user",
"parts": [
{
"text": "What is my favorite fruit?"
}
]
}
],
"completions": [
{
"score": 1,
"completion": {
"role": "model",
"parts": [
{
"text": "Apple! Apple! Apple!"
}
]
}
},
{
"score": 0,
"completion": {
"role": "model",
"parts": [
{
"text": "Your favorite fruit is apple."
}
]
}
}
]
}