本文說明如何為 Gemini 模型定義偏好設定微調資料集。
關於偏好調整資料集
偏好調整資料集會使用「喜歡/不喜歡」按鈕、成對比較和評分回饋等信號,擷取人類偏好。
準備自訂偏好設定調整資料
在這個例子中:
example 由輸入內容和一對 completions 欄位組成。
輸入內容包括 contents 和選用的 system_instruction。輸入和完成權杖數上限的總和必須 <= 128,000。
contents 欄位的格式與監督式微調使用的格式相同。這項功能支援多輪文字資料,但必須以使用者輪次結尾。無法支援多模態資料。
completions 欄位是由一對完成項目及其分數組成。這組配對必須包含一個偏好完成和一個不偏好完成。
completion 是指單一模型回合,表示模型回覆。score 欄位會指出是否偏好完成。唯一可能的值為零或一。
零代表不偏好的完成方式,一則代表偏好的完成方式。
我們只會針對每個 example 的 completions 輪次進行訓練。
Gemini 的資料集範例
{
"system_instruction": {
"parts": [
{
"text": "You are a chat bot."
}
]
},
"contents": [
{
"role": "user",
"parts": [
{
"text": "What is my favorite fruit?"
}
]
}
],
"completions": [
{
"score": 1,
"completion": {
"role": "model",
"parts": [
{
"text": "Apple! Apple! Apple!"
}
]
}
},
{
"score": 0,
"completion": {
"role": "model",
"parts": [
{
"text": "Your favorite fruit is apple."
}
]
}
}
]
}