동영상 조정

이 페이지에서는 동영상 데이터에서 지도 학습을 사용한 Gemini 파인 튜닝에 필요한 기본 요건과 자세한 안내를 제공합니다.

사용 사례

미세 조정을 사용하면 특수한 태스크에 맞게 기본 Gemini 모델을 조정할 수 있습니다. 다음은 몇 가지 동영상 사용 사례입니다.

자동 동영상 요약: LLM을 튜닝하여 긴 동영상의 간결하고 일관된 요약을 생성하고 주요 테마, 이벤트, 내러티브를 포착합니다. 이는 콘텐츠 검색, 보관, 빠른 검토에 유용합니다.
자세한 이벤트 인식 및 현지화: 파인 튜닝을 통해 LLM은 동영상 타임라인 내에서 특정 작업, 이벤트 또는 객체를 더 정확하게 식별하고 찾아낼 수 있습니다. 예를 들어 마케팅 동영상에서 특정 제품의 모든 인스턴스를 식별하거나 스포츠 영상에서 특정 동작을 식별할 수 있습니다.
콘텐츠 검토: 특화된 튜닝은 LLM이 동영상 내에서 민감하거나 부적절하거나 정책을 위반하는 콘텐츠를 감지하는 능력을 향상시켜 단순한 객체 감지를 넘어 맥락과 미묘한 차이를 이해할 수 있습니다.
동영상 자막 생성 및 제작: 이미 일반적인 애플리케이션이지만, 튜닝을 통해 비언어적 신호에 대한 설명을 비롯해 자동 생성된 자막의 정확성, 유창성, 문맥 인지 기능을 개선할 수 있습니다.

제한사항

최대 동영상 파일 크기: 100MB. 대용량 동영상 파일에는 충분하지 않을 수 있습니다. 권장되는 해결 방법은 다음과 같습니다.
- 대용량 파일이 매우 적은 경우 JSONL 파일에 포함하지 않도록 해당 파일을 삭제합니다.
- 데이터 세트에 대용량 파일이 많고 무시할 수 없는 경우 파일의 시각적 해상도를 줄입니다. 이로 인해 성능이 저하될 수 있습니다.
- 파일 크기를 100MB로 제한하도록 동영상을 청크로 나누고 청크로 나눈 동영상을 튜닝에 사용합니다. 원래 동영상에 해당하는 타임스탬프 주석을 새 (청크) 동영상 타임라인으로 변경해야 합니다.
예시별 최대 동영상 길이: MEDIA_RESOLUTION_MEDIUM의 경우 5분, MEDIA_RESOLUTION_LOW의 경우 20분
삭제된 예시: 예시에 지원되는 최대 길이보다 긴 동영상이 포함된 경우 해당 예시가 데이터 세트에서 삭제됩니다. 삭제된 예시는 청구되지 않으며 학습에 사용되지 않습니다. 데이터 세트의 10% 이상이 삭제되면 학습이 시작되기 전에 오류 메시지와 함께 작업이 실패합니다.
다양한 미디어 해상도 혼합은 지원되지 않음: 전체 학습 데이터 세트의 각 예시에 대한 mediaResolution 값이 일관되어야 합니다. 학습 및 검증에 사용되는 JSONL 파일의 모든 줄에는 동일한 mediaResolution 값이 있어야 합니다.

데이터 세트 형식

fileUri 필드는 데이터 세트의 위치를 지정합니다. Cloud Storage 버킷의 파일 URI이거나 공개적으로 사용 가능한 HTTP 또는 HTTPS URL일 수 있습니다.

mediaResolution 필드는 입력 동영상의 프레임당 토큰 수를 다음 값 중 하나로 지정하는 데 사용됩니다.

MEDIA_RESOLUTION_LOW: 프레임당 64개 토큰
MEDIA_RESOLUTION_MEDIUM: 프레임당 256개 토큰

MEDIA_RESOLUTION_LOW로 모델을 튜닝하는 것이 MEDIA_RESOLUTION_MEDIUM으로 조정하는 것보다 약 4배 빠르며 성능 개선은 미미합니다.

동영상 세그먼트가 학습 및 검증에 사용되는 경우 동영상 세그먼트는 videoMetadata 필드에 있습니다. 튜닝 중에 이 데이터 포인트는 지정된 동영상 파일에서 추출된 세그먼트의 정보를 포함하도록 디코딩되며, 타임스탬프는 startOffset(시작 오프셋, 초 단위)부터 endOffset까지입니다.

일반적인 형식 예시는 Gemini용 데이터 세트 예시를 참조하세요.

다음 섹션에서는 동영상 데이터 세트 형식의 예시를 보여줍니다.

전체 동영상이 학습 및 검증에 사용되는 경우의 JSON 스키마 예시

이 스키마는 JSONL 파일에 한 줄로 추가됩니다.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          },
        },
        {
          "text": "
          You are a video analysis expert. Detect which animal appears in the
          video.The video can only have one of the following animals: dog, cat,
          rabbit.\n Output Format:\n Generate output in the following JSON
          format:\n
          [{\n
            \"animal_name\": \"<CATEGORY>\",\n
          }]\n"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
        }
       ]
    },
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

동영상 세그먼트가 학습 및 검증에 사용되는 경우의 JSON 스키마 예시