Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ajuste de vídeo

Esta página fornece pré-requisitos e instruções detalhadas para ajustar o Gemini em dados de vídeo usando o aprendizado supervisionado.

Casos de uso

Com o ajuste de detalhes, é possível adaptar os modelos de base do Gemini para tarefas especializadas. Confira alguns casos de uso de vídeo:

Resumo automático de vídeos: ajuste de LLMs para gerar resumos concisos e coerentes de vídeos longos, capturando os principais temas, eventos e narrativas. Isso é útil para descoberta de conteúdo, arquivamento e revisões rápidas.
Reconhecimento e localização detalhados de eventos: o ajuste fino permite que os LLMs identifiquem e localizem ações, eventos ou objetos específicos em uma linha do tempo de vídeo com mais precisão. Por exemplo, identificar todas as instâncias de um produto específico em um vídeo de marketing ou uma ação específica em imagens de esportes.
Moderação de conteúdo: o ajuste especializado pode melhorar a capacidade de um LLM de detectar conteúdo sensível, inadequado ou que viola a política em vídeos, indo além da simples detecção de objetos para entender o contexto e as nuances.
Legendas e legendagem de vídeos: embora já seja uma aplicação comum, o ajuste pode melhorar a precisão, a fluidez e a percepção de contexto das legendas geradas automaticamente, incluindo descrições de sinais não verbais.

Limitações

Tamanho máximo do arquivo de vídeo: 100 MB. Isso pode não ser suficiente para arquivos de vídeo grandes. Confira algumas soluções alternativas recomendadas:
- Se houver poucos arquivos grandes, remova-os da inclusão nos arquivos JSONL.
- Se houver muitos arquivos grandes no conjunto de dados e eles não puderem ser ignorados, reduza a resolução visual dos arquivos. Isso pode prejudicar a performance.
- Divida os vídeos para limitar o tamanho dos arquivos a 100 MB e use os vídeos divididos para ajuste. Mude todas as anotações de carimbo de data/hora correspondentes ao vídeo original para a nova linha do tempo (em partes).
Duração máxima do vídeo por exemplo: 5 minutos com MEDIA_RESOLUTION_HIGH ou MEDIA_RESOLUTION_MEDIUM e 20 minutos com MEDIA_RESOLUTION_LOW.
Exemplos descartados: se um exemplo tiver um vídeo com duração maior que o máximo permitido, ele será descartado do conjunto de dados. Os exemplos descartados não são cobrados nem usados para treinamento. Se mais de 10% do conjunto de dados for descartado, o job vai falhar com uma mensagem de erro antes do início do treinamento.
Não é possível misturar resoluções de mídia diferentes: o valor de mediaResolution para cada exemplo em todo o conjunto de dados de treinamento precisa ser consistente. Todas as linhas nos arquivos JSONL usados para treinamento e validação precisam ter o mesmo valor de mediaResolution.

Formato do conjunto de dados

O campo fileUri especifica o local do conjunto de dados. Pode ser o URI de um arquivo em um bucket do Cloud Storage ou um URL HTTP ou HTTPS disponível publicamente.

O campo mediaResolution é usado para especificar a contagem de tokens por frame dos vídeos de entrada. Para o Gemini 2.5, a contagem de tokens por frame é a seguinte:

MEDIA_RESOLUTION_LOW: 64 tokens por frame
MEDIA_RESOLUTION_MEDIUM e MEDIA_RESOLUTION_HIGH : 256 tokens por frame

Para o Gemini 3, as contagens de tokens são as mesmas do modelo de base. Para mais informações, consulte Resolução de mídia.

O ajuste do modelo com MEDIA_RESOLUTION_LOW é aproximadamente quatro vezes mais rápido do que os ajustados com MEDIA_RESOLUTION_MEDIUM ou MEDIA_RESOLUTION_HIGH, com uma melhoria mínima de performance.

Quando um segmento de vídeo é usado para treinamento e validação, ele fica no campo videoMetadata. Durante o ajuste, esse ponto de dados é decodificado para conter informações do segmento extraído do arquivo de vídeo especificado, começando do carimbo de data/hora startOffset (o deslocamento inicial, em segundos) até endOffset.

Para conferir o exemplo de formato genérico, consulte Exemplo de conjunto de dados para o Gemini.

As seções a seguir apresentam exemplos de formatos de conjuntos de dados de vídeo.

Exemplo de esquema JSON para casos em que o vídeo completo é usado para treinamento e validação

Esse esquema é adicionado como uma única linha no arquivo JSONL.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          },
        },
        {
          "text": "
          You are a video analysis expert. Detect which animal appears in the
          video.The video can only have one of the following animals: dog, cat,
          rabbit.\n Output Format:\n Generate output in the following JSON
          format:\n
          [{\n
            \"animal_name\": \"<CATEGORY>\",\n
          }]\n"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
        }
       ]
    },
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

(Somente modelos Gemini 3 e mais recentes) A partir dos modelos do Gemini 3, também é possível definir a resolução de mídia para cada mídia individual Part. Isso permite misturar resoluções no seu conjunto de dados (por exemplo, definindo MEDIA_RESOLUTION_HIGH para um item e MEDIA_RESOLUTION_LOW para outro). Para mais informações sobre a resolução no nível da parte e as contagens de tokens correspondentes, consulte Resolução de mídia.

As configurações de resolução de mídia no nível do Part têm precedência sobre as configurações globais.

Este é um exemplo de conjunto de dados que define a resolução da mídia nos níveis Part e global:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          }
        },
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          },
          "mediaResolution": {
            "level": "MEDIA_RESOLUTION_HIGH"
          }
        },
        {
          "text": "Describe these videos in detail."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Video 1 is low resolution while video 2 is sharp and clear"
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

Exemplo de esquema JSON para casos em que um segmento de vídeo é usado para treinamento e validação