이 페이지에서는 동영상 데이터에서 지도 학습을 사용한 Gemini 파인 튜닝에 필요한 기본 요건과 자세한 안내를 제공합니다.
사용 사례
미세 조정을 사용하면 특수한 태스크에 맞게 기본 Gemini 모델을 조정할 수 있습니다. 다음은 몇 가지 동영상 사용 사례입니다.
자동 동영상 요약: LLM을 튜닝하여 긴 동영상의 간결하고 일관된 요약을 생성하고 주요 테마, 이벤트, 내러티브를 포착합니다. 이는 콘텐츠 검색, 보관, 빠른 검토에 유용합니다.
자세한 이벤트 인식 및 현지화: 파인 튜닝을 통해 LLM은 동영상 타임라인 내에서 특정 작업, 이벤트 또는 객체를 더 정확하게 식별하고 찾아낼 수 있습니다. 예를 들어 마케팅 동영상에서 특정 제품의 모든 인스턴스를 식별하거나 스포츠 영상에서 특정 동작을 식별할 수 있습니다.
콘텐츠 검토: 특화된 튜닝은 LLM이 동영상 내에서 민감하거나 부적절하거나 정책을 위반하는 콘텐츠를 감지하는 능력을 향상시켜 단순한 객체 감지를 넘어 맥락과 미묘한 차이를 이해할 수 있습니다.
동영상 자막 생성 및 제작: 이미 일반적인 애플리케이션이지만, 튜닝을 통해 비언어적 신호에 대한 설명을 비롯해 자동 생성된 자막의 정확성, 유창성, 문맥 인지 기능을 개선할 수 있습니다.
제한사항
- 최대 동영상 파일 크기: 100MB.
대용량 동영상 파일에는 충분하지 않을 수 있습니다. 권장되는 해결 방법은 다음과 같습니다.
- 대용량 파일이 매우 적은 경우 JSONL 파일에 포함하지 않도록 해당 파일을 삭제합니다.
- 데이터 세트에 대용량 파일이 많고 무시할 수 없는 경우 파일의 시각적 해상도를 줄입니다. 이로 인해 성능이 저하될 수 있습니다.
- 파일 크기를 100MB로 제한하도록 동영상을 청크로 나누고 청크로 나눈 동영상을 튜닝에 사용합니다. 원래 동영상에 해당하는 타임스탬프 주석을 새 (청크) 동영상 타임라인으로 변경해야 합니다.
- 예시별 최대 동영상 길이:
MEDIA_RESOLUTION_MEDIUM의 경우 5분,MEDIA_RESOLUTION_LOW의 경우 20분 - 삭제된 예시: 예시에 지원되는 최대 길이보다 긴 동영상이 포함된 경우 해당 예시가 데이터 세트에서 삭제됩니다. 삭제된 예시는 청구되지 않으며 학습에 사용되지 않습니다. 데이터 세트의 10% 이상이 삭제되면 학습이 시작되기 전에 오류 메시지와 함께 작업이 실패합니다.
- 다양한 미디어 해상도 혼합은 지원되지 않음: 전체 학습 데이터 세트의 각 예시에 대한
mediaResolution값이 일관되어야 합니다. 학습 및 검증에 사용되는 JSONL 파일의 모든 줄에는 동일한mediaResolution값이 있어야 합니다.
데이터 세트 형식
fileUri 필드는 데이터 세트의 위치를 지정합니다. Cloud Storage 버킷의 파일 URI이거나 공개적으로 사용 가능한 HTTP 또는 HTTPS URL일 수 있습니다.
mediaResolution 필드는 입력 동영상의 프레임당 토큰 수를 다음 값 중 하나로 지정하는 데 사용됩니다.
MEDIA_RESOLUTION_LOW: 프레임당 64개 토큰MEDIA_RESOLUTION_MEDIUM: 프레임당 256개 토큰
MEDIA_RESOLUTION_LOW로 모델을 튜닝하는 것이 MEDIA_RESOLUTION_MEDIUM으로 조정하는 것보다 약 4배 빠르며 성능 개선은 미미합니다.
동영상 세그먼트가 학습 및 검증에 사용되는 경우 동영상 세그먼트는 videoMetadata 필드에 있습니다. 튜닝 중에 이 데이터 포인트는 지정된 동영상 파일에서 추출된 세그먼트의 정보를 포함하도록 디코딩되며, 타임스탬프는 startOffset(시작 오프셋, 초 단위)부터 endOffset까지입니다.
일반적인 형식 예시는 Gemini용 데이터 세트 예시를 참조하세요.
다음 섹션에서는 동영상 데이터 세트 형식의 예시를 보여줍니다.
전체 동영상이 학습 및 검증에 사용되는 경우의 JSON 스키마 예시
이 스키마는 JSONL 파일에 한 줄로 추가됩니다.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
},
{
"text": "
You are a video analysis expert. Detect which animal appears in the
video.The video can only have one of the following animals: dog, cat,
rabbit.\n Output Format:\n Generate output in the following JSON
format:\n
[{\n
\"animal_name\": \"<CATEGORY>\",\n
}]\n"
}
]
},
{
"role": "model",
"parts": [
{
"text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
}
]
},
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
동영상 세그먼트가 학습 및 검증에 사용되는 경우의 JSON 스키마 예시
이 스키마는 JSONL 파일에 한 줄로 추가됩니다.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
"videoMetadata": {
"startOffset": "5s",
"endOffset": "25s"
}
},
{
"text": "
You are a video analysis expert. Detect which animal appears in the
video.The video can only have one of the following animals: dog, cat,
rabbit.\n Output Format:\n Generate output in the following JSON
format:\n
[{\n
\"animal_name\": \"<CATEGORY>\",\n
}]\n"
}
]
},
{
"role": "model",
"parts": [
{
"text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
}
]
},
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
다음 단계
- 동영상 튜닝에 대해 자세히 알아보려면 Vertex AI를 통해 동영상을 사용하여 Gemini 2.5를 파인 튜닝하는 방법을 참조하세요.
- Gemini의 이미지 이해 기능에 대한 자세한 내용은 이미지 이해 문서를 참조하세요.
- 튜닝을 시작하려면 지도 미세 조정을 사용하여 Gemini 모델 튜닝을 참조하세요.
- 생성형 AI 기술 자료를 구축하는 솔루션에서 지도 미세 조정을 사용하는 방법을 알아보려면 점프 스타트 솔루션: 생성형 AI 기술 자료를 참조하세요.