Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Sintonizzazione video

Questa pagina fornisce i prerequisiti e le istruzioni dettagliate per il perfezionamento di Gemini sui dati video utilizzando l'apprendimento supervisionato.

Casi d'uso

Il fine-tuning ti consente di adattare i modelli Gemini di base per attività specializzate. Ecco alcuni casi d'uso dei video:

Riepilogo automatico dei video: ottimizzazione dei LLM per generare riepiloghi concisi e coerenti di video lunghi, catturando i temi, gli eventi e le narrazioni principali. Questa funzionalità è utile per la scoperta, l'archiviazione e la revisione rapida dei contenuti.
Riconoscimento e localizzazione dettagliati degli eventi: l'ottimizzazione consente agli LLM di identificare e individuare azioni, eventi o oggetti specifici all'interno della sequenza temporale di un video con maggiore precisione. Ad esempio, identificare tutte le istanze di un determinato prodotto in un video di marketing o un'azione specifica in un filmato sportivo.
Moderazione dei contenuti: la messa a punto specializzata può migliorare la capacità di un LLM di rilevare contenuti sensibili, inappropriati o che violano le norme all'interno dei video, andando oltre il semplice rilevamento degli oggetti per comprendere il contesto e le sfumature.
Sottotitoli codificati e sottotitoli per i video: sebbene si tratti di un'applicazione già comune, la messa a punto può migliorare l'accuratezza, la fluidità e la consapevolezza del contesto dei sottotitoli codificati e dei sottotitoli generati automaticamente, incluse le descrizioni di segnali non verbali.

Limitazioni

Dimensioni massime del file video: 100 MB. Potrebbe non essere sufficiente per i file video di grandi dimensioni. Di seguito sono riportate alcune soluzioni alternative consigliate:
- Se ci sono pochi file di grandi dimensioni, escludili dai file JSONL.
- Se nel set di dati sono presenti molti file di grandi dimensioni che non possono essere ignorati, riduci la risoluzione visiva dei file. Ciò potrebbe influire negativamente sul rendimento.
- Dividi i video in blocchi per limitare le dimensioni dei file a 100 MB e utilizza i video suddivisi per la messa a punto. Assicurati di modificare le annotazioni dei timestamp corrispondenti al video originale con la nuova cronologia del video (in blocchi).
Durata video massima per esempio: limite di 1 video per esempio. Può essere di 5 minuti con MEDIA_RESOLUTION_HIGH o MEDIA_RESOLUTION_MEDIUM e di 20 minuti con MEDIA_RESOLUTION_LOW.
Esempi eliminati: se un esempio contiene un video più lungo della lunghezza massima supportata, l'esempio viene eliminato dal set di dati. Gli esempi eliminati non vengono fatturati né utilizzati per l'addestramento. Se viene eliminato più del 10% del set di dati, il job non andrà a buon fine e verrà visualizzato un messaggio di errore prima dell'inizio dell'addestramento.
La combinazione di risoluzioni diverse dei contenuti multimediali non è supportata: il valore di mediaResolution per ogni esempio nell'intero set di dati di addestramento deve essere coerente. Tutte le righe dei file JSONL utilizzati per l'addestramento e la convalida devono avere lo stesso valore di mediaResolution.

Formato del set di dati

Il campo fileUri specifica la posizione del set di dati. Può essere l'URI di un file in un bucket Cloud Storage oppure un URL HTTP o HTTPS disponibile pubblicamente.

Il campo mediaResolution viene utilizzato per specificare il conteggio dei token per frame per i video di input. Di seguito sono descritti i conteggi dei token per i modelli supportati:

Gemini 2.5:
- MEDIA_RESOLUTION_LOW: 64 token per frame
- MEDIA_RESOLUTION_MEDIUM e MEDIA_RESOLUTION_HIGH : 256 token per frame
La messa a punto del modello con MEDIA_RESOLUTION_LOW è circa 4 volte più veloce rispetto a quella con MEDIA_RESOLUTION_MEDIUM o MEDIA_RESOLUTION_HIGH con un miglioramento minimo del rendimento.
Gemini 3:

Il conteggio dei token è uguale a quello del modello di base. Per ulteriori informazioni, vedi Risoluzione dei contenuti multimediali.

Quando un segmento video viene utilizzato per l'addestramento e la convalida, il segmento video si trova nel campo videoMetadata. Durante l'ottimizzazione, questo punto dati viene decodificato in modo da contenere informazioni del segmento estratto dal file video specificato, a partire dal timestamp startOffset (l'offset iniziale, in secondi) fino a endOffset.

Per visualizzare l'esempio di formato generico, vedi Esempio di set di dati per Gemini.

Le sezioni seguenti presentano esempi di formati di set di dati video.

Esempio di schema JSON per i casi in cui l'intero video viene utilizzato per l'addestramento e la convalida

Questo schema viene aggiunto come singola riga nel file JSONL.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          },
        },
        {
          "text": "
          You are a video analysis expert. Detect which animal appears in the
          video.The video can only have one of the following animals: dog, cat,
          rabbit.\n Output Format:\n Generate output in the following JSON
          format:\n
          [{\n
            \"animal_name\": \"<CATEGORY>\",\n
          }]\n"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
        }
       ]
    },
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

(Solo modelli Gemini 3 e successivi) A partire dai modelli Gemini 3, puoi anche impostare la risoluzione dei contenuti multimediali per ogni singolo elemento Part. In questo modo puoi combinare le risoluzioni nel tuo set di dati (ad esempio, impostando MEDIA_RESOLUTION_HIGH per un elemento e MEDIA_RESOLUTION_LOW per un altro). Per ulteriori informazioni sulla risoluzione a livello di parte e sui conteggi dei token corrispondenti, consulta Risoluzione dei contenuti multimediali.

Le impostazioni di risoluzione dei contenuti multimediali a livello di Part hanno la precedenza su quelle globali.

Di seguito è riportato un esempio di set di dati che imposta la risoluzione dei contenuti multimediali sia a livello Part che globale:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          }
        },
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          },
          "mediaResolution": {
            "level": "MEDIA_RESOLUTION_HIGH"
          }
        },
        {
          "text": "Describe these videos in detail."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Video 1 is low resolution while video 2 is sharp and clear"
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

Esempio di schema JSON per i casi in cui un segmento video viene utilizzato per l'addestramento e la convalida