이 문서에서는 Gemini 모델의 선호도 조정 데이터 세트를 정의하는 방법을 설명합니다.
선호도 조정 데이터 세트 정보
선호도 조정 데이터 세트는 좋아요/싫어요, 쌍별, 점수 피드백과 같은 신호를 사용하여 인간 선호도를 포착하기 위해 생성됩니다.
맞춤설정된 선호도 조정 데이터 준비
이 예에서는 다음과 같이 정의됩니다.
example은 입력과 completions 필드 쌍으로 구성됩니다.
입력에는 contents 및 선택적 system_instruction이 포함됩니다. 최대 입력 및 최대 완성 토큰 수의 합계는 128K 이하여야 합니다.
contents 필드는 지도 미세 조정에 사용되는 형식과 동일합니다. 사용자 턴으로 끝나야 하는 멀티턴 텍스트 데이터를 지원합니다. 멀티모달 데이터는 지원하지 않습니다.
completions 필드는 한 쌍의 완성된 턴과 해당 점수로 구성됩니다. 이 쌍에는 선호하는 완성된 턴 하나와 선호하지 않는 완성된 턴 하나가 있어야 합니다.
completion은 모델 응답을 나타내는 단일 모델 턴입니다. score 필드는 완성된 턴이 선호되는지 여부를 나타냅니다.
가능한 값은 0 또는 1뿐입니다.
0은 선호하지 않는 완성된 턴을 나타내고 1은 선호하는 완성된 턴을 나타냅니다.
각 example의 completions 턴에 대해서만 학습합니다.
Gemini용 데이터 세트 예시
{
"system_instruction": {
"parts": [
{
"text": "You are a chat bot."
}
]
},
"contents": [
{
"role": "user",
"parts": [
{
"text": "What is my favorite fruit?"
}
]
}
],
"completions": [
{
"score": 1,
"completion": {
"role": "model",
"parts": [
{
"text": "Apple! Apple! Apple!"
}
]
}
},
{
"score": 0,
"completion": {
"role": "model",
"parts": [
{
"text": "Your favorite fruit is apple."
}
]
}
}
]
}