Cette page a été traduite par l'API Cloud Translation.

Compréhension des vidéos

Vous pouvez ajouter des vidéos aux requêtes Gemini pour effectuer des tâches qui impliquent de comprendre le contenu des vidéos incluses. Cette page vous explique comment ajouter des vidéos à vos requêtes Gemini dans Vertex AI à l'aide de la console Google Cloud et de l'API Vertex AI.

Modèles compatibles

Le tableau suivant liste les modèles compatibles avec la compréhension des vidéos :

Modèle	Informations sur les contenus multimédias	Types MIME
Gemini 3 Pro Modèle en preview	Durée maximale de la vidéo (avec l'audio) : environ 45 minutes Durée maximale de la vidéo (sans audio) : environ une heure Nombre maximal de vidéos par requête : 10 Jetons de résolution par défaut par frame : 70	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Pro	Durée maximale de la vidéo (avec l'audio) : environ 45 minutes Durée maximale de la vidéo (sans audio) : environ une heure Nombre maximal de vidéos par requête : 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash Modèle en preview	Durée maximale de la vidéo (avec l'audio) : environ 45 minutes Durée maximale de la vidéo (sans audio) : environ une heure Nombre maximal de vidéos par requête : 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash-Lite Modèle en prévisualisation	Durée maximale de la vidéo (avec l'audio) : environ 45 minutes Durée maximale de la vidéo (sans audio) : environ une heure Nombre maximal de vidéos par requête : 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash	Durée maximale de la vidéo (avec l'audio) : environ 45 minutes Durée maximale de la vidéo (sans audio) : environ une heure Nombre maximal de vidéos par requête : 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash-Lite	Durée maximale de la vidéo (avec l'audio) : environ 45 minutes Durée maximale de la vidéo (sans audio) : environ une heure Nombre maximal de vidéos par requête : 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash avec l'audio natif de l'API Live Modèle en preview	Résolution standard : 768 x 768	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash avec l'API Live Modèle en preview	Durée maximale de la vidéo (avec l'audio) : environ 45 minutes Durée maximale de la vidéo (sans audio) : environ une heure Nombre maximal de vidéos par requête : 10 Nombre maximal de jetons par minute (TPM) : Résolution des contenus multimédias élevée/moyenne/par défaut : États-Unis/Asie : 37,9 M UE : 9,5 M Basse résolution des contenus multimédias : États-Unis/Asie : 1 G UE : 2,5 M	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash avec génération d'images Modèle en aperçu	Durée maximale de la vidéo (avec l'audio) : environ 45 minutes Durée maximale de la vidéo (sans audio) : environ une heure Nombre maximal de vidéos par requête : 10 Nombre maximal de jetons par minute (TPM) : Résolution des contenus multimédias élevée/moyenne/par défaut : États-Unis/Asie : 37,9 M UE : 9,5 M Basse résolution des contenus multimédias : États-Unis/Asie : 1 G UE : 2,5 M
Gemini 2.0 Flash	Durée maximale de la vidéo (avec l'audio) : environ 45 minutes Durée maximale de la vidéo (sans audio) : environ une heure Nombre maximal de vidéos par requête : 10 Nombre maximal de jetons par minute (TPM) : Résolution des contenus multimédias élevée/moyenne/par défaut : États-Unis/Asie : 38 M UE : 10 M Basse résolution des contenus multimédias : États-Unis/Asie : 10 M UE : 2,5 M	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash-Lite	Durée maximale de la vidéo (avec l'audio) : environ 45 minutes Durée maximale de la vidéo (sans audio) : environ une heure Nombre maximal de vidéos par requête : 10 Nombre maximal de jetons par minute (TPM) : Résolution des contenus multimédias élevée/moyenne/par défaut : États-Unis/Asie : 6,3 M UE : 3,2 M Basse résolution des contenus multimédias : États-Unis/Asie : 3,2 M UE : 3,2 M	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`

Pour obtenir la liste des langues compatibles avec les modèles Gemini, consultez les informations sur les modèles en accédant à Modèles Google. Pour en savoir plus sur la conception de requêtes multimodales, consultez Concevoir des requêtes multimodales. Si vous souhaitez utiliser Gemini directement à partir de vos applications mobiles et Web, consultez les SDK client Firebase AI Logic pour les applications Swift, Android, Web, Flutter et Unity.

Ajouter des vidéos à une requête

Vous pouvez ajouter une ou plusieurs vidéos à votre requête Gemini. Celles-ci peuvent inclure de l'audio.

Vidéo unique

Chacun des exemples de code sur les onglets suivants présente une manière spécifique permettant d'identifier le contenu d'une vidéo. Cet exemple fonctionne avec tous les modèles multimodaux Gemini.

Console

Pour envoyer un prompt multimodal à l'aide de la console Google Cloud , procédez comme suit :

Dans la section "Vertex AI" de la console Google Cloud , accédez à la page Vertex AI Studio.

Accéder à Vertex AI Studio
Cliquez sur Créer un prompt.
(Facultatif) Configurez le modèle et les paramètres :
- Modèle : sélectionnez un modèle.
(Facultatif) Pour configurer des paramètres avancés, cliquez sur Avancé, puis configurez les paramètres comme suit :
Cliquez pour développer les configurations avancées.
- Top-K : utilisez le curseur ou la zone de texte pour saisir une valeur.
  Le top-K modifie la façon dont le modèle sélectionne les jetons pour la sortie. Une valeur top-K de 1 signifie que le prochain jeton sélectionné est le plus probable parmi tous les jetons du vocabulaire du modèle (également appelé décodage glouton), tandis qu'une valeur top-K de 3 signifie que le jeton suivant est sélectionné parmi les trois jetons les plus probables en utilisant la température.
  Pour chaque étape de sélection du jeton, les jetons top-K avec les probabilités les plus élevées sont échantillonnés. Les jetons sont ensuite filtrés en fonction du top-P avec le jeton final sélectionné à l'aide de l'échantillonnage de température.
  
  Spécifiez une valeur inférieure pour obtenir des réponses moins aléatoires et une valeur supérieure pour des réponses plus aléatoires.
- Top-P : utilisez le curseur ou la zone de texte pour saisir une valeur. Les jetons sont sélectionnés du plus probable au moins probable, jusqu'à ce que la somme de leurs probabilités soit égale à la valeur du top-P. Pour obtenir les résultats les moins variables, définissez "Top-P" sur 0.
- Nombre maximal de réponses : utilisez le curseur ou la zone de texte pour saisir le nombre de réponses à générer.
- Réponses en streaming : permet d'imprimer les réponses au fur et à mesure de leur génération.
- Seuil de filtre de sécurité : sélectionnez le seuil de la probabilité que des réponses potentiellement nuisibles s'affichent.
- Activer l'ancrage : l'ancrage n'est pas compatible avec les requêtes multimodales.
- Région : sélectionnez la région que vous souhaitez utiliser.
- Température : utilisez le curseur ou la zone de texte pour saisir une valeur de température.
  The temperature is used for sampling during response generation, which occurs when topP and topK are applied. Temperature controls the degree of randomness in token selection. Lower temperatures are good for prompts that require a less open-ended or creative response, while higher temperatures can lead to more diverse or creative results. A temperature of 0 means that the highest probability tokens are always selected. In this case, responses for a given prompt are mostly deterministic, but a small amount of variation is still possible. If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. If the model enters infinite generation, increasing the temperature to at least 0.1 may lead to improved results. 1.0 is the recommended starting value for temperature. <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words. Specify a lower value for shorter responses and a higher value for potentially longer responses. <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences. </ul>
Cliquez sur Insérer un média, puis sélectionnez une source pour votre fichier.
Importer
Sélectionnez le fichier que vous souhaitez importer, puis cliquez sur Ouvrir.

À partir d'une URL
Saisissez l'URL du fichier que vous souhaitez utiliser, puis cliquez sur Insérer.

YouTube

Preview

Cette fonctionnalité est soumise(s) aux "Conditions des offres de pré-DG" de la section "Conditions générales du service" des Conditions spécifiques du service. Les fonctionnalités de pré-DG sont disponibles "en l'état" et peuvent avoir une prise en charge limitée. Pour en savoir plus, consultez les descriptions des étapes de lancement.

Saisissez l'URL de la vidéo YouTube que vous souhaitez utiliser, puis cliquez sur Insérer.

Vous pouvez choisir n'importe quelle vidéo publique ou une vidéo appartenant au compte dont vous vous êtes servi pour vous connecter à la console Google Cloud .

Cloud Storage
Sélectionnez le bucket, puis le fichier que vous souhaitez importer, et cliquez sur Sélectionner.
Google Drive
1. Choisissez un compte et autorisez Vertex AI Studio à y accéder la première fois que vous sélectionnez cette option. Vous pouvez importer plusieurs fichiers, à condition de ne pas dépasser une taille totale de 10 Mo. La taille d'un seul fichier ne peut pas dépasser 7 Mo.
2. Cliquez sur le fichier que vous souhaitez ajouter.
3. Cliquez sur Sélectionner.
  
  La vignette du fichier s'affiche dans le volet Prompt. Le nombre total de jetons est également indiqué. Si les données de votre prompt dépassent la limite de jetons, les jetons sont tronqués et ne sont pas inclus dans le traitement de vos données.
Saisissez votre prompt textuelle dans le volet Prompt.
(Facultatif) Pour afficher les ID de jeton Texte et les ID de jeton, cliquez sur le nombre de jetons dans le volet Prompt.

Remarque : Les jetons multimédias ne sont pas acceptés.
Cliquez sur Envoyer.
(Facultatif) Pour enregistrer votre prompt dans Mes prompts, cliquez sur Enregistrer.
(Facultatif) pour obtenir le code Python ou la commande curl de votre prompt, cliquez sur Compiler avec du code > Obtenir le code.

Python

Installation

pip install --upgrade google-genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

Go

Découvrez comment installer ou mettre à jour le Go.

Pour en savoir plus, lisez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"

	genai "google.golang.org/genai"
)

// generateWithMuteVideo shows how to generate text using a video with no sound as the input.
func generateWithMuteVideo(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: "What is in the video?"},
			{FileData: &genai.FileData{
				FileURI:  "gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
				MIMEType: "video/mp4",
			}},
		},
			Role: "user"},
	}

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// The video shows several surfers riding waves in an ocean setting. The waves are ...

	return nil
}

Java

Découvrez comment installer ou mettre à jour le Java.

Pour en savoir plus, lisez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import com.google.genai.types.Part;

public class TextGenerationWithMuteVideo {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates text with mute video input
  public static String generateContent(String modelId) {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("global")
            .vertexAI(true)
            .httpOptions(HttpOptions.builder().apiVersion("v1").build())
            .build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              Content.fromParts(
                  Part.fromUri(
                      "gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
                      "video/mp4"),
                  Part.fromText("What is in this video?")),
              null);

      System.out.print(response.text());
      // Example response:
      // This video features **surfers in the ocean**.
      //
      // The main focus is on **one individual who catches and rides a wave**, executing various
      // turns and maneuvers as the wave breaks and dissipates into whitewater...
      return response.text();
    }
  }
}

Node.js

Installer

npm install @google/genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateText(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: [
      {
        role: 'user',
        parts: [
          {
            fileData: {
              mimeType: 'video/mp4',
              fileUri:
                'gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4',
            },
          },
          {
            text: 'What is in the video?',
          },
        ],
      },
    ],
  });

  console.log(response.text);

  // Example response:
  // The video shows several people surfing in an ocean with a coastline in the background. The camera ...

  return response.text;
}

REST

Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

PROJECT_ID : ID de votre projet.
FILE_URI : URI ou URL du fichier à inclure dans le prompt. Les valeurs acceptées incluent les suivantes :
- URI du bucket Cloud Storage : l'objet doit être lisible publiquement ou se trouver dans le même projet Google Cloud que celui qui envoie la requête. La taille limite pour gemini-2.0-flash et gemini-2.0-flash-lite est de 2 Go.
- URL HTTP : l'URL du fichier doit être lisible publiquement. Vous pouvez spécifier un fichier vidéo, un fichier audio et jusqu'à 10 fichiers image par requête. Les fichiers audio, les fichiers vidéo et les documents ne doivent pas dépasser 15 Mo.
- URL de la vidéo YouTube : la vidéo YouTube doit appartenir au compte que vous avez utilisé pour vous connecter à la console Google Cloud ou être publique. Une seule URL de vidéo YouTube est acceptée par requête.
Lorsque vous spécifiez un fileURI, vous devez également indiquer le type de contenu multimédia (mimeType) du fichier. Si VPC Service Controls est activé, la spécification d'une URL de fichier multimédia pour fileURI n'est pas prise en charge.

Si vous ne disposez pas de fichier vidéo dans Cloud Storage, vous pouvez utiliser le fichier suivant, accessible publiquement : gs://cloud-samples-data/video/animals.mp4 avec un type MIME video/mp4. Pour voir cette vidéo, ouvrez l'exemple de fichier MP4.
MIME_TYPE : type de contenu du fichier spécifié dans les champs data ou fileUri. Les valeurs acceptées incluent les suivantes :
Cliquez pour développer les types MIME.
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
TEXT : instructions textuelles à inclure dans le prompt. Exemple : What is in the video?

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Remarque : Pour la commande suivante, nous partons du principe que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel :

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

Remarque : Pour la commande suivante, nous partons du principe que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel :

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Réponse

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "This video is a commercial for Google Photos, featuring animals taking selfies
              with the Google Photos app. The commercial plays on the popularity of media in which
              animals act like humans, especially their use of technology. The commercial also
              highlights the app's ability to automatically back up photos."
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

Notez les points suivants dans l'URL de cet exemple :

Utilisez la méthode generateContent pour demander que la réponse soit renvoyée une fois qu'elle a été entièrement générée. Pour réduire la perception de la latence auprès d'un public humain, affichez la réponse progressivement à mesure qu'elle est générée à l'aide de la méthode streamGenerateContent.
L'ID du modèle multimodal se trouve à la fin de l'URL avant la méthode (par exemple, gemini-2.0-flash). Cet exemple peut également s'appliquer à d'autres modèles.

Vidéo avec audio

L'exemple suivant montre comment résumer un fichier vidéo avec du contenu audio et renvoyer des chapitres avec des codes temporels. Cet exemple fonctionne avec Gemini 2.0.

Python

Installer

pip install --upgrade google-genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

REST

Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

PROJECT_ID : .
FILE_URI : URI ou URL du fichier à inclure dans le prompt. Les valeurs acceptées incluent les suivantes :
- URI du bucket Cloud Storage : l'objet doit être lisible publiquement ou se trouver dans le même projet Google Cloud que celui qui envoie la requête. La taille limite pour gemini-2.0-flash et gemini-2.0-flash-lite est de 2 Go.
- URL HTTP : l'URL du fichier doit être lisible publiquement. Vous pouvez spécifier un fichier vidéo, un fichier audio et jusqu'à 10 fichiers image par requête. Les fichiers audio, les fichiers vidéo et les documents ne doivent pas dépasser 15 Mo.
- URL de la vidéo YouTube : la vidéo YouTube doit appartenir au compte que vous avez utilisé pour vous connecter à la console Google Cloud ou être publique. Une seule URL de vidéo YouTube est acceptée par requête.
Lorsque vous spécifiez un fileURI, vous devez également indiquer le type de contenu multimédia (mimeType) du fichier. Si VPC Service Controls est activé, la spécification d'une URL de fichier multimédia pour fileURI n'est pas prise en charge.

Si vous ne disposez pas de fichier vidéo dans Cloud Storage, vous pouvez utiliser le fichier suivant, accessible publiquement : gs://cloud-samples-data/generative-ai/video/pixel8.mp4 avec un type MIME video/mp4. Pour voir cette vidéo, ouvrez l'exemple de fichier MP4.
MIME_TYPE : type de contenu du fichier spécifié dans les champs data ou fileUri. Les valeurs acceptées incluent les suivantes :
Cliquez pour développer les types MIME.
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
```
TEXT
```
Instructions textuelles à inclure dans le prompt. Exemple : Provide a description of the video. The description should also contain anything important which people say in the video.

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel :

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

Remarque : Pour la commande suivante, nous partons du principe que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel :

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Réponse

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "The video opens with a shot of a train traveling over a bridge in the night. \n
              \nThe scene changes to a woman walking in the streets of Tokyo. She says "My name is
              Saeko. I am a photographer in Tokyo. Tokyo has many faces. The city at night
              is totally different from what you see during the day. The new Pixel has a feature
              called "Video Boost". In low light, it activates "Night Sight" to make the quality
              even better." \n\nShe then uses her phone to take several photos of different parts of
              the city including a street with a lot of shops, a small alleyway, and a small
              restaurant. She says "Sancha is where I used to live when I first moved to Tokyo. I
              have a lot of great memories here. Oh, I like this." \n\nShe smiles and says
              "Beautiful".\n\nThe video ends with the woman standing in a different part of the
              city. She says "Next, I came to Shibuya." The scene shows the famous Shibuya crossing
              in the night. \n\nThe video features a woman showcasing the camera features of the
              Google Pixel phone while walking around the streets of Tokyo. She mentions "Night
              Sight" and "Video Boost" features. \n"
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

Notez les points suivants dans l'URL de cet exemple :

Utilisez la méthode generateContent pour demander que la réponse soit renvoyée une fois qu'elle a été entièrement générée. Pour réduire la perception de la latence auprès d'un public humain, affichez la réponse progressivement à mesure qu'elle est générée à l'aide de la méthode streamGenerateContent.
L'ID du modèle multimodal se trouve à la fin de l'URL avant la méthode (par exemple, gemini-2.0-flash). Cet exemple peut également s'appliquer à d'autres modèles.

Console

Pour envoyer un prompt multimodal à l'aide de la console Google Cloud , procédez comme suit :

Dans la section "Vertex AI" de la console Google Cloud , accédez à la page Vertex AI Studio.

Accéder à Vertex AI Studio
Cliquez sur Créer un prompt.
(Facultatif) Configurez le modèle et les paramètres :
- Modèle : sélectionnez un modèle.
(Facultatif) Pour configurer des paramètres avancés, cliquez sur Avancé, puis configurez les paramètres comme suit :
Cliquez pour développer les configurations avancées.
- Top-K : utilisez le curseur ou la zone de texte pour saisir une valeur.
  Le top-K modifie la façon dont le modèle sélectionne les jetons pour la sortie. Une valeur top-K de 1 signifie que le prochain jeton sélectionné est le plus probable parmi tous les jetons du vocabulaire du modèle (également appelé décodage glouton), tandis qu'une valeur top-K de 3 signifie que le jeton suivant est sélectionné parmi les trois jetons les plus probables en utilisant la température.
  Pour chaque étape de sélection du jeton, les jetons top-K avec les probabilités les plus élevées sont échantillonnés. Les jetons sont ensuite filtrés en fonction du top-P avec le jeton final sélectionné à l'aide de l'échantillonnage de température.
  
  Spécifiez une valeur inférieure pour obtenir des réponses moins aléatoires et une valeur supérieure pour des réponses plus aléatoires.
- Top-P : utilisez le curseur ou la zone de texte pour saisir une valeur. Les jetons sont sélectionnés du plus probable au moins probable, jusqu'à ce que la somme de leurs probabilités soit égale à la valeur du top-P. Pour obtenir les résultats les moins variables, définissez "Top-P" sur 0.
- Nombre maximal de réponses : utilisez le curseur ou la zone de texte pour saisir le nombre de réponses à générer.
- Réponses en streaming : permet d'imprimer les réponses au fur et à mesure de leur génération.
- Seuil de filtre de sécurité : sélectionnez le seuil de la probabilité que des réponses potentiellement nuisibles s'affichent.
- Activer l'ancrage : l'ancrage n'est pas compatible avec les requêtes multimodales.
- Région : sélectionnez la région que vous souhaitez utiliser.
- Température : utilisez le curseur ou la zone de texte pour saisir une valeur de température.
  The temperature is used for sampling during response generation, which occurs when topP and topK are applied. Temperature controls the degree of randomness in token selection. Lower temperatures are good for prompts that require a less open-ended or creative response, while higher temperatures can lead to more diverse or creative results. A temperature of 0 means that the highest probability tokens are always selected. In this case, responses for a given prompt are mostly deterministic, but a small amount of variation is still possible. If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. If the model enters infinite generation, increasing the temperature to at least 0.1 may lead to improved results. 1.0 is the recommended starting value for temperature. <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words. Specify a lower value for shorter responses and a higher value for potentially longer responses. <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences. </ul>
Cliquez sur Insérer un média, puis sélectionnez une source pour votre fichier.
Importer
Sélectionnez le fichier que vous souhaitez importer, puis cliquez sur Ouvrir.

À partir d'une URL
Saisissez l'URL du fichier que vous souhaitez utiliser, puis cliquez sur Insérer.

YouTube

Preview

Cette fonctionnalité est soumise(s) aux "Conditions des offres de pré-DG" de la section "Conditions générales du service" des Conditions spécifiques du service. Les fonctionnalités de pré-DG sont disponibles "en l'état" et peuvent avoir une prise en charge limitée. Pour en savoir plus, consultez les descriptions des étapes de lancement.

Saisissez l'URL de la vidéo YouTube que vous souhaitez utiliser, puis cliquez sur Insérer.

Vous pouvez choisir n'importe quelle vidéo publique ou une vidéo appartenant au compte dont vous vous êtes servi pour vous connecter à la console Google Cloud .

Cloud Storage
Sélectionnez le bucket, puis le fichier que vous souhaitez importer, et cliquez sur Sélectionner.
Google Drive
1. Choisissez un compte et autorisez Vertex AI Studio à y accéder la première fois que vous sélectionnez cette option. Vous pouvez importer plusieurs fichiers, à condition de ne pas dépasser une taille totale de 10 Mo. La taille d'un seul fichier ne peut pas dépasser 7 Mo.
2. Cliquez sur le fichier que vous souhaitez ajouter.
3. Cliquez sur Sélectionner.
  
  La vignette du fichier s'affiche dans le volet Prompt. Le nombre total de jetons est également indiqué. Si les données de votre prompt dépassent la limite de jetons, les jetons sont tronqués et ne sont pas inclus dans le traitement de vos données.
Saisissez votre prompt textuelle dans le volet Prompt.
(Facultatif) Pour afficher les ID de jeton Texte et les ID de jeton, cliquez sur le nombre de jetons dans le volet Prompt.

Remarque : Les jetons multimédias ne sont pas acceptés.
Cliquez sur Envoyer.
(Facultatif) Pour enregistrer votre prompt dans Mes prompts, cliquez sur Enregistrer.
(Facultatif) pour obtenir le code Python ou la commande curl de votre prompt, cliquez sur Compiler avec du code > Obtenir le code.

Personnaliser le traitement des vidéos

Vous pouvez personnaliser le traitement vidéo dans l'API Gemini pour Google Cloud en définissant des intervalles de découpage ou en fournissant un échantillonnage de fréquence d'images personnalisé.

Définir des intervalles de clipping

Vous pouvez créer des extraits vidéo en spécifiant videoMetadata avec des décalages de début et de fin.

Définir une fréquence d'images personnalisée

Vous pouvez définir un échantillonnage personnalisé de la fréquence d'images en transmettant un argument fps à videoMetadata.

Par défaut, une image par seconde (FPS) est échantillonnée à partir de la vidéo. Vous pouvez définir un faible FPS (< 1) pour les vidéos longues. Cela est particulièrement utile pour les vidéos principalement statiques (par exemple, les conférences). Si vous souhaitez capturer plus de détails dans des visuels qui changent rapidement, envisagez de définir une valeur FPS plus élevée.

Ajuster la résolution du contenu multimédia

Vous pouvez ajuster MediaResolution pour traiter vos vidéos avec moins de jetons.

Définir des paramètres de modèle facultatifs

Chaque modèle est associé à un ensemble de paramètres facultatifs que vous pouvez définir. Pour en savoir plus, consultez Paramètres de génération de contenu.

Tokenisation vidéo

Preview

Ce produit ou cette fonctionnalité sont soumis aux "Conditions des offres de pré-DG" de la section "Conditions générales du service" des Conditions spécifiques du serviceet aux Conditions supplémentaires pour les produits d'IA générative en version preview. Vous pouvez traiter des données à caractère personnel pour ce produit ou cette fonctionnalité comme indiqué dans l'Avenant relatif au traitement des données dans le cloud, sous réserve de respecter les obligations et restrictions décrites dans le contrat en vertu duquel vous accédez à Google Cloud. Les produits et fonctionnalités de pré-DG sont proposés "en l'état" et peuvent avoir une compatibilité limitée. Pour en savoir plus, consultez les descriptions des étapes de lancement.

Avec Gemini 3 Pro, la tokenisation vidéo utilise une longueur de séquence variable, qui remplace la méthode Pan and Scan utilisée dans les modèles précédents pour une meilleure qualité et une latence réduite.

Vous pouvez spécifier une résolution média pour les entrées vidéo, ce qui affecte la façon dont les vidéos sont tokenisées et le nombre de jetons utilisés pour chaque vidéo. Vous pouvez définir media_resolution dans generationConfig pour l'appliquer à tous les médias de la demande, ou le définir pour des parties média individuelles, ce qui remplacera le paramètre de niveau supérieur. La résolution par défaut des vidéos est de 70 jetons par frame.

Les résolutions suivantes sont disponibles pour Gemini 3 Pro :

MEDIA_RESOLUTION_HIGH : 280 jetons par frame
MEDIA_RESOLUTION_MEDIUM : 70 jetons par frame
MEDIA_RESOLUTION_LOW : 70 jetons par frame
MEDIA_RESOLUTION_UNSPECIFIED : 70 jetons par frame (par défaut)

Pour les modèles antérieurs à Gemini 3 Pro, chaque frame est tokenisé à 258 jetons par frame pour la résolution par défaut, ou à 66 jetons par frame pour la basse résolution.

Cet exemple de code montre comment ajuster media_resolution :

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
  model="gemini-3-pro-preview",
  contents=[
      types.Part(
          file_data=types.FileData(
              file_uri="gs://cloud-samples-data/generative-ai/image/a-man-and-a-dog.png",
              mime_type="image/jpeg",
          ),
          media_resolution=types.PartMediaResolution(
              level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_HIGH
          ),
      ),
      Part(
          file_data=types.FileData(
              file_uri="gs://cloud-samples-data/generative-ai/video/behind_the_scenes_pixel.mp4",
              mime_type="video/mp4",
          ),
          media_resolution=types.PartMediaResolution(
              level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_LOW
          ),
      ),
      "When does the image appear in the video? What is the context?",
  ],
)
print(response.text)

Bonnes pratiques

Lorsque vous utilisez des vidéos, suivez les bonnes pratiques et informations suivantes pour obtenir de meilleurs résultats :

Si votre prompt contient une seule vidéo, placez cette vidéo avant le prompt textuel.
Si vous devez définir une localisation de code temporel dans une vidéo avec audio, demandez au modèle de générer des codes temporels au format décrit dans "Format des codes temporels".

Limites

Bien que les modèles multimodaux Gemini soient performants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre les limites des modèles :

Modération de contenus : les modèles refusent de fournir des réponses sur des vidéos qui ne respectent pas nos règles de sécurité.
Reconnaissance des sons non vocaux : les modèles compatibles avec les flux audio peuvent faire des erreurs de reconnaissance avec les sons autres que la parole.

Détails techniques sur les vidéos

Traitement de l'API File : lorsque vous utilisez l'API File, les vidéos sont échantillonnées à 1 image par seconde (FPS) et l'audio est traité à 1 kbit/s (canal unique). Des codes temporels sont ajoutés toutes les secondes.
- Ces taux sont susceptibles d'être modifiés à l'avenir pour améliorer l'inférence.
Format du code temporel : lorsque vous faites référence à des moments précis d'une vidéo dans votre requête, le format du code temporel dépend du taux d'échantillonnage en images par seconde (FPS) de votre vidéo :
- Pour les fréquences d'échantillonnage inférieures ou égales à 1 FPS : utilisez le format MM:SS, où les deux premiers chiffres représentent les minutes et les deux derniers chiffres représentent les secondes. Si vos décalages sont supérieurs à une heure, utilisez le format H:MM:SS.
- Pour les fréquences d'échantillonnage supérieures à 1 FPS : utilisez le format MM:SS.sss ou, si vous avez des décalages supérieurs à une heure, utilisez le format H:MM:SS.sss, décrit comme suit :
  - Le premier chiffre représente l'heure.
  - Les deux chiffres suivants représentent les minutes.
  - Les deux derniers chiffres représentent les secondes.
  - Les trois derniers chiffres représentent les sous-secondes.
Bonnes pratiques
- Pour obtenir des résultats optimaux, n'utilisez qu'une seule vidéo par requête.
- Si vous combinez du texte et une seule vidéo, placez la requête textuelle après la partie vidéo dans le tableau contents.
- Sachez que les séquences d'action rapides peuvent perdre des détails en raison du taux d'échantillonnage de 1 FPS. Envisagez de ralentir ces extraits si nécessaire.

Étapes suivantes

Commencez à créer des modèles multimodaux Gemini. Les nouveaux clients bénéficient de 300 $ de crédits Google Cloud gratuits pour découvrir ce qu'ils peuvent faire avec Gemini.
Découvrez comment envoyer des requêtes de chat.
Découvrez les bonnes pratiques d'IA responsable et les filtres de sécurité de Vertex AI.

Compréhension des vidéos Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Modèles compatibles

Ajouter des vidéos à une requête

Vidéo unique

Console

Cliquez pour développer les configurations avancées.

Importer

À partir d'une URL

YouTube

Cloud Storage

Google Drive

Python

Installation

Go

Java

Node.js

Installer

REST

curl

PowerShell

Réponse

Vidéo avec audio

Python

Installer

REST

curl

PowerShell

Réponse

Console

Cliquez pour développer les configurations avancées.

Importer

À partir d'une URL

YouTube

Cloud Storage

Google Drive

Personnaliser le traitement des vidéos

Définir des intervalles de clipping

Définir une fréquence d'images personnalisée

Ajuster la résolution du contenu multimédia

Définir des paramètres de modèle facultatifs

Tokenisation vidéo

Bonnes pratiques

Limites

Détails techniques sur les vidéos

Étapes suivantes

Compréhension des vidéos