Gemini 모델용 선호도 조정 데이터 준비

이 문서에서는 Gemini 모델의 선호도 조정 데이터 세트를 정의하는 방법을 설명합니다.

선호도 조정 데이터 세트 정보

선호도 조정 데이터 세트는 좋아요/싫어요, 쌍별, 점수 피드백과 같은 신호를 사용하여 인간 선호도를 포착하기 위해 생성됩니다.

맞춤설정된 선호도 조정 데이터 준비

이 예에서는 다음과 같이 정의됩니다.

example은 입력과 completions 필드 쌍으로 구성됩니다.

입력에는 contents 및 선택적 system_instruction이 포함됩니다. 최대 입력 및 최대 완성 토큰 수의 합계는 128K 이하여야 합니다.

contents 필드는 지도 미세 조정에 사용되는 형식과 동일합니다. 사용자 턴으로 끝나야 하는 멀티턴 텍스트 데이터를 지원합니다. 멀티모달 데이터는 지원하지 않습니다.

completions 필드는 한 쌍의 완성된 턴과 해당 점수로 구성됩니다. 이 쌍에는 선호하는 완성된 턴 하나와 선호하지 않는 완성된 턴 하나가 있어야 합니다.

completion은 모델 응답을 나타내는 단일 모델 턴입니다. score 필드는 완성된 턴이 선호되는지 여부를 나타냅니다. 가능한 값은 0 또는 1뿐입니다. 0은 선호하지 않는 완성된 턴을 나타내고 1은 선호하는 완성된 턴을 나타냅니다.

examplecompletions 턴에 대해서만 학습합니다.

Gemini용 데이터 세트 예시

{
  "system_instruction": {
    "parts": [
      {
        "text": "You are a chat bot."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "What is my favorite fruit?"
        }
      ]
    }
  ],
  "completions": [
    {
      "score": 1,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Apple! Apple! Apple!"
          }
        ]
      }
    },
    {
      "score": 0,
      "completion": {
        "role": "model",
        "parts": [
          {
            "text": "Your favorite fruit is apple."
          }
        ]
      }
    }
  ]
}

다음 단계