準備 Gemini 模型的偏好調整資料

本文說明如何為 Gemini 模型定義偏好設定微調資料集。

關於偏好調整資料集

偏好調整資料集會使用「喜歡/不喜歡」按鈕、成對比較和評分回饋等信號,擷取人類偏好。

準備自訂偏好設定調整資料

在這個例子中:

example 由輸入內容和一對 completions 欄位組成。

輸入內容包括 contents 和選用的 system_instruction。輸入和完成權杖數上限的總和必須 <= 128,000。

contents 欄位的格式與監督式微調使用的格式相同。這項功能支援多輪文字資料,但必須以使用者輪次結尾。無法支援多模態資料。

completions 欄位是由一對完成項目及其分數組成。這組配對必須包含一個偏好完成和一個不偏好完成。

completion 是指單一模型回合,表示模型回覆。score 欄位會指出是否偏好完成。唯一可能的值為零或一。 零代表不偏好的完成方式,一則代表偏好的完成方式。

我們只會針對每個 examplecompletions 輪次進行訓練。

Gemini 的資料集範例

{
  "system_instruction": {
    "parts": [
      {
        "text": "You are a chat bot."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "What is my favorite fruit?"
        }
      ]
    }
  ],
  "completions": [
    {
      "score": 1,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Apple! Apple! Apple!"
          }
        ]
      }
    },
    {
      "score": 0,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Your favorite fruit is apple."
          }
        ]
      }
    }
  ]
}

後續步驟