Comprensión de vídeos

Puedes añadir vídeos a las peticiones de Gemini para realizar tareas que impliquen entender el contenido de los vídeos incluidos. En esta página se explica cómo añadir vídeos a tus peticiones a Gemini en Vertex AI mediante la consola y la API de Vertex AI. Google Cloud

Modelos admitidos

En la siguiente tabla se indican los modelos que admiten la función de interpretación de vídeo:

Modelos	Detalles del contenido multimedia	tipos MIME
Gemini 3 Pro versión preliminar Gemini 3 Flash vista previa	Duración máxima del vídeo (con audio): aproximadamente 45 minutos Duración máxima del vídeo (sin audio): aproximadamente 1 hora Número máximo de vídeos por petición: 10 Tokens de resolución predeterminados por fotograma: 70	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Pro Gemini 2.5 Flash-Lite versión preliminar Gemini 2.5 Flash-Lite Gemini 2.5 Flash vista previa Gemini 2.5 Flash	Duración máxima del vídeo (con audio): aproximadamente 45 minutos Duración máxima del vídeo (sin audio): aproximadamente 1 hora Número máximo de vídeos por petición: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash con audio nativo de la API Live (versión preliminar) preview Gemini 2.5 Flash con audio nativo de la API Gemini Live	Resolución estándar: 768x768	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash Lite	Duración máxima del vídeo (con audio): aproximadamente 45 minutos Duración máxima del vídeo (sin audio): aproximadamente 1 hora Número máximo de vídeos por petición: 10 Número máximo de tokens por minuto (TPM): Resolución de contenido multimedia alta, media o predeterminada: EE. UU./Asia: 6,3 M UE: 3,2 M Resolución multimedia baja: EE. UU./Asia: 3,2 M UE: 3,2 M	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash con la API Live vista previa	Duración máxima del vídeo (con audio): aproximadamente 45 minutos Duración máxima del vídeo (sin audio): aproximadamente 1 hora Número máximo de vídeos por petición: 10 Número máximo de tokens por minuto (TPM): Resolución de contenido multimedia alta, media o predeterminada: EE. UU./Asia: 37,9 M UE: 9,5 M Resolución multimedia baja: EE. UU./Asia: 1 G UE: 2,5 M	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash	Duración máxima del vídeo (con audio): aproximadamente 45 minutos Duración máxima del vídeo (sin audio): aproximadamente 1 hora Número máximo de vídeos por petición: 10 Número máximo de tokens por minuto (TPM): Resolución de contenido multimedia alta, media o predeterminada: EE. UU./Asia: 38 M UE: 10 M Resolución multimedia baja: EE. UU./Asia: 10 M UE: 2,5 M	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`

Para ver una lista de los idiomas disponibles en los modelos de Gemini, consulta la información sobre los modelos de Google. Para obtener más información sobre cómo diseñar peticiones multimodales, consulta Diseña peticiones multimodales. Si quieres usar Gemini directamente desde tus aplicaciones móviles y web, consulta los SDKs de cliente de lógica de IA de Firebase para aplicaciones Swift, Android, web, Flutter y Unity.

Añadir vídeos a una solicitud

Puedes añadir uno o varios vídeos en tu petición a Gemini. Los vídeos pueden incluir audio.

Vídeo único

El código de ejemplo de cada una de las pestañas siguientes muestra una forma diferente de identificar el contenido de un vídeo. Este ejemplo funciona con todos los modelos multimodales de Gemini.

Consola

Para enviar una petición multimodal mediante la Google Cloud consola, sigue estos pasos:

En la sección Vertex AI de la Google Cloud consola, ve a la página Vertex AI Studio.

Ir a Vertex AI Studio
Haz clic en Crear petición.
Opcional: Configura el modelo y los parámetros:
- Modelo: selecciona un modelo.
Opcional: Para configurar parámetros avanzados, haga clic en Avanzado y configure lo siguiente:
Haz clic para desplegar las configuraciones avanzadas
- Top-K: usa el control deslizante o el cuadro de texto para introducir un valor de top-K.
  Top-K cambia la forma en que el modelo selecciona los tokens de salida. Un valor de K superior de 1 significa que el siguiente token seleccionado es el más probable de todos los tokens del vocabulario del modelo (también llamado decodificación voraz), mientras que un valor de K superior de 3 significa que el siguiente token se selecciona de entre los tres tokens más probables mediante la temperatura.
  En cada paso de selección de tokens, se muestrean los K tokens principales con las probabilidades más altas. Después, los tokens se filtran en función del valor de top-P y el token final se selecciona mediante un muestreo de temperatura.
  
  Especifica un valor más bajo para obtener respuestas menos aleatorias y un valor más alto para obtener respuestas más aleatorias.
- Top-P: usa el control deslizante o el cuadro de texto para introducir un valor de top-P. Los tokens se seleccionan de más probable a menos probable hasta que la suma de sus probabilidades sea igual al valor de top-P. Para obtener los resultados menos variables, define top-P como 0.
- Número máximo de respuestas: usa el control deslizante o el cuadro de texto para introducir un valor que indique el número de respuestas que quieres generar.
- Respuestas graduales: habilita esta opción para imprimir las respuestas a medida que se generan.
- Umbral del filtro de seguridad: selecciona el umbral de probabilidad de que veas respuestas que puedan ser dañinas.
- Habilitar Grounding: Grounding no se admite en las peticiones multimodales.
- Región: selecciona la región que quieras usar.
- Temperatura: usa el control deslizante o el cuadro de texto para introducir un valor de temperatura.
  The temperature is used for sampling during response generation, which occurs when topP and topK are applied. Temperature controls the degree of randomness in token selection. Lower temperatures are good for prompts that require a less open-ended or creative response, while higher temperatures can lead to more diverse or creative results. A temperature of 0 means that the highest probability tokens are always selected. In this case, responses for a given prompt are mostly deterministic, but a small amount of variation is still possible. If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. If the model enters infinite generation, increasing the temperature to at least 0.1 may lead to improved results. 1.0 is the recommended starting value for temperature. <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words. Specify a lower value for shorter responses and a higher value for potentially longer responses. <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences. </ul>
Haz clic en Insertar contenido multimedia y selecciona una fuente para el archivo.
Subir
Selecciona el archivo que quieras subir y haz clic en Abrir.

Por URL
Introduzca la URL del archivo que quiera usar y haga clic en Insertar.

YouTube

Vista previa

Esta función está sujeta a los "Términos de las Ofertas de Acceso Previo a la Disponibilidad General" de la sección Términos Generales de los Servicios de los Términos Específicos de los Servicios. Las funciones previas a la disponibilidad general están disponibles tal cual y pueden tener una compatibilidad y asistencia limitadas. Para obtener más información, consulta las descripciones de las fases de lanzamiento.

Introduce la URL del vídeo de YouTube que quieras usar y haz clic en Insertar.

Puedes usar cualquier vídeo público o un vídeo que sea propiedad de la cuenta que hayas usado para iniciar sesión en la consola de Google Cloud .

Cloud Storage
Selecciona el contenedor y, a continuación, el archivo del contenedor que quieras importar y haz clic en Seleccionar.
Google Drive
1. Elige una cuenta y da tu consentimiento para que Vertex AI Studio acceda a ella la primera vez que selecciones esta opción. Puedes subir varios archivos que tengan un tamaño total de hasta 10 MB. Un solo archivo no puede superar los 7 MB.
2. Haz clic en el archivo que quieras añadir.
3. Haz clic en Seleccionar.
  
  La miniatura del archivo se muestra en el panel Petición. También se muestra el número total de tokens. Si los datos de tu petición superan el límite de tokens, los tokens se truncarán y no se incluirán en el procesamiento de tus datos.
Escribe tu petición de texto en el panel Petición.
Opcional: Para ver el ID de token a texto y los IDs de token, haz clic en el recuento de tokens del panel Petición.

Nota: No se admiten tokens multimedia.
Haz clic en Enviar.
Opcional: Para guardar tu petición en Mis peticiones, haz clic en Guardar.
Opcional: Para obtener el código de Python o un comando curl para tu petición, haz clic en Crear con código > Obtener código.

Python

Instalar

pip install --upgrade google-genai

Para obtener más información, consulta la documentación de referencia del SDK.

Define variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

Go

Consulta cómo instalar o actualizar Go.

Para obtener más información, consulta la documentación de referencia del SDK.

Define variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"

	genai "google.golang.org/genai"
)

// generateWithMuteVideo shows how to generate text using a video with no sound as the input.
func generateWithMuteVideo(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: "What is in the video?"},
			{FileData: &genai.FileData{
				FileURI:  "gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
				MIMEType: "video/mp4",
			}},
		},
			Role: genai.RoleUser},
	}

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// The video shows several surfers riding waves in an ocean setting. The waves are ...

	return nil
}

Java

Consulta cómo instalar o actualizar Java.

Para obtener más información, consulta la documentación de referencia del SDK.

Define variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import com.google.genai.types.Part;

public class TextGenerationWithMuteVideo {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates text with mute video input
  public static String generateContent(String modelId) {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("global")
            .vertexAI(true)
            .httpOptions(HttpOptions.builder().apiVersion("v1").build())
            .build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              Content.fromParts(
                  Part.fromUri(
                      "gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
                      "video/mp4"),
                  Part.fromText("What is in this video?")),
              null);

      System.out.print(response.text());
      // Example response:
      // This video features **surfers in the ocean**.
      //
      // The main focus is on **one individual who catches and rides a wave**, executing various
      // turns and maneuvers as the wave breaks and dissipates into whitewater...
      return response.text();
    }
  }
}

Node.js

Instalar

npm install @google/genai

Para obtener más información, consulta la documentación de referencia del SDK.

Define variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateText(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash-lite',
    contents: [
      {
        role: 'user',
        parts: [
          {
            fileData: {
              mimeType: 'video/mp4',
              fileUri:
                'gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4',
            },
          },
          {
            text: 'What is in the video?',
          },
        ],
      },
    ],
    config: {
      mediaResolution: 'MEDIA_RESOLUTION_LOW',
    },
  });

  console.log(response.text);

  // Example response:
  // The video shows several people surfing in an ocean with a coastline in the background. The camera ...

  return response.text;
}

REST

Después de configurar tu entorno, puedes usar REST para probar una petición de texto. En el siguiente ejemplo se envía una solicitud al endpoint del modelo del editor.

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

PROJECT_ID: tu ID de proyecto.
FILE_URI: URI o URL del archivo que se va a incluir en la petición. Entre los valores aceptados se incluyen los siguientes:
- URI del segmento de Cloud Storage: el objeto debe ser de lectura pública o estar en el mismo proyecto Google Cloud que envía la solicitud. En gemini-2.0-flash y gemini-2.0-flash-lite, el límite de tamaño es de 2 GB.
- URL HTTP: la URL del archivo debe ser de lectura pública. Puedes especificar un archivo de vídeo, un archivo de audio y hasta 10 archivos de imagen por solicitud. Los archivos de audio, los archivos de vídeo y los documentos no pueden superar los 15 MB.
- URL del vídeo de YouTube: el vídeo de YouTube debe ser propiedad de la cuenta que has usado para iniciar sesión en la consola Google Cloud o debe ser público. Solo se admite una URL de vídeo de YouTube por solicitud.
Cuando especifiques un fileURI, también debes especificar el tipo de contenido multimedia (mimeType) del archivo. Si Controles de Servicio de VPC está habilitado, no se admite la especificación de una URL de archivo multimedia para fileURI.

Si no tienes ningún archivo de vídeo en Cloud Storage, puedes usar el siguiente archivo público: gs://cloud-samples-data/video/animals.mp4 con el tipo MIME video/mp4. Para ver este vídeo, abre el archivo MP4 de muestra.
MIME_TYPE: el tipo de contenido multimedia del archivo especificado en los campos data o fileUri. Entre los valores aceptados se incluyen los siguientes:
Haz clic para desplegar los tipos de MIME
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
TEXT: las instrucciones de texto que se deben incluir en la petición. Por ejemplo: What is in the video?

Para enviar tu solicitud, elige una de estas opciones:

curl

Nota: En el siguiente comando se presupone que has iniciado sesión en la CLI de gcloud con tu cuenta de usuario ejecutando gcloud init o gcloud auth login , o bien usando Cloud Shell, que inicia sesión automáticamente en la CLI de gcloud . Para comprobar la cuenta activa, ejecuta el comando gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json. Ejecuta el siguiente comando en el terminal para crear o sobrescribir este archivo en el directorio actual:

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

A continuación, ejecuta el siguiente comando para enviar tu solicitud REST:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

Nota: El siguiente comando presupone que has iniciado sesión en la CLI de gcloud con tu cuenta de usuario ejecutando gcloud init o gcloud auth login . Para comprobar la cuenta activa, ejecuta el comando gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json. Ejecuta el siguiente comando en el terminal para crear o sobrescribir este archivo en el directorio actual:

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

A continuación, ejecuta el siguiente comando para enviar tu solicitud REST:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la siguiente.

Respuesta

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "This video is a commercial for Google Photos, featuring animals taking selfies
              with the Google Photos app. The commercial plays on the popularity of media in which
              animals act like humans, especially their use of technology. The commercial also
              highlights the app's ability to automatically back up photos."
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

Fíjate en lo siguiente de la URL de este ejemplo:

Usa el método generateContent para solicitar que la respuesta se devuelva una vez que se haya generado por completo. Para reducir la percepción de latencia en la audiencia humana, transmite la respuesta a medida que se genera mediante el método streamGenerateContent.
El ID del modelo multimodal se encuentra al final de la URL, antes del método (por ejemplo, gemini-2.0-flash). Es posible que esta muestra también admita otros modelos.

Vídeo con audio

A continuación, se muestra cómo resumir un archivo de vídeo con audio y devolver capítulos con marcas de tiempo. Este ejemplo funciona con Gemini 2.0.

Python

Instalar

pip install --upgrade google-genai

Para obtener más información, consulta la documentación de referencia del SDK.

Define variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

REST

Después de configurar tu entorno, puedes usar REST para probar una petición de texto. En el siguiente ejemplo se envía una solicitud al endpoint del modelo del editor.

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

PROJECT_ID: .
FILE_URI: URI o URL del archivo que se va a incluir en la petición. Entre los valores aceptados se incluyen los siguientes:
- URI del segmento de Cloud Storage: el objeto debe ser de lectura pública o estar en el mismo proyecto Google Cloud que envía la solicitud. En gemini-2.0-flash y gemini-2.0-flash-lite, el límite de tamaño es de 2 GB.
- URL HTTP: la URL del archivo debe ser de lectura pública. Puedes especificar un archivo de vídeo, un archivo de audio y hasta 10 archivos de imagen por solicitud. Los archivos de audio, los archivos de vídeo y los documentos no pueden superar los 15 MB.
- URL del vídeo de YouTube: el vídeo de YouTube debe ser propiedad de la cuenta que has usado para iniciar sesión en la consola Google Cloud o debe ser público. Solo se admite una URL de vídeo de YouTube por solicitud.
Cuando especifiques un fileURI, también debes especificar el tipo de contenido multimedia (mimeType) del archivo. Si Controles de Servicio de VPC está habilitado, no se admite la especificación de una URL de archivo multimedia para fileURI.

Si no tienes ningún archivo de vídeo en Cloud Storage, puedes usar el siguiente archivo público: gs://cloud-samples-data/generative-ai/video/pixel8.mp4 con el tipo MIME video/mp4. Para ver este vídeo, abre el archivo MP4 de muestra.
MIME_TYPE: el tipo de contenido multimedia del archivo especificado en los campos data o fileUri. Entre los valores aceptados se incluyen los siguientes:
Haz clic para desplegar los tipos de MIME
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
```
TEXT
```
Las instrucciones de texto que se incluirán en la petición. Por ejemplo: Provide a description of the video. The description should also contain anything important which people say in the video.

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json. Ejecuta el siguiente comando en el terminal para crear o sobrescribir este archivo en el directorio actual:

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

A continuación, ejecuta el siguiente comando para enviar tu solicitud REST:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json. Ejecuta el siguiente comando en el terminal para crear o sobrescribir este archivo en el directorio actual:

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

A continuación, ejecuta el siguiente comando para enviar tu solicitud REST:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la siguiente.

Respuesta

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "The video opens with a shot of a train traveling over a bridge in the night. \n
              \nThe scene changes to a woman walking in the streets of Tokyo. She says "My name is
              Saeko. I am a photographer in Tokyo. Tokyo has many faces. The city at night
              is totally different from what you see during the day. The new Pixel has a feature
              called "Video Boost". In low light, it activates "Night Sight" to make the quality
              even better." \n\nShe then uses her phone to take several photos of different parts of
              the city including a street with a lot of shops, a small alleyway, and a small
              restaurant. She says "Sancha is where I used to live when I first moved to Tokyo. I
              have a lot of great memories here. Oh, I like this." \n\nShe smiles and says
              "Beautiful".\n\nThe video ends with the woman standing in a different part of the
              city. She says "Next, I came to Shibuya." The scene shows the famous Shibuya crossing
              in the night. \n\nThe video features a woman showcasing the camera features of the
              Google Pixel phone while walking around the streets of Tokyo. She mentions "Night
              Sight" and "Video Boost" features. \n"
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

Fíjate en lo siguiente de la URL de este ejemplo:

Usa el método generateContent para solicitar que la respuesta se devuelva una vez que se haya generado por completo. Para reducir la percepción de latencia en la audiencia humana, transmite la respuesta a medida que se genera mediante el método streamGenerateContent.
El ID del modelo multimodal se encuentra al final de la URL, antes del método (por ejemplo, gemini-2.0-flash). Es posible que esta muestra también admita otros modelos.

Consola

Para enviar una petición multimodal mediante la Google Cloud consola, sigue estos pasos:

En la sección Vertex AI de la Google Cloud consola, ve a la página Vertex AI Studio.

Ir a Vertex AI Studio
Haz clic en Crear petición.
Opcional: Configura el modelo y los parámetros:
- Modelo: selecciona un modelo.
Opcional: Para configurar parámetros avanzados, haga clic en Avanzado y configure lo siguiente:
Haz clic para desplegar las configuraciones avanzadas
- Top-K: usa el control deslizante o el cuadro de texto para introducir un valor de top-K.
  Top-K cambia la forma en que el modelo selecciona los tokens de salida. Un valor de K superior de 1 significa que el siguiente token seleccionado es el más probable de todos los tokens del vocabulario del modelo (también llamado decodificación voraz), mientras que un valor de K superior de 3 significa que el siguiente token se selecciona de entre los tres tokens más probables mediante la temperatura.
  En cada paso de selección de tokens, se muestrean los K tokens principales con las probabilidades más altas. Después, los tokens se filtran en función del valor de top-P y el token final se selecciona mediante un muestreo de temperatura.
  
  Especifica un valor más bajo para obtener respuestas menos aleatorias y un valor más alto para obtener respuestas más aleatorias.
- Top-P: usa el control deslizante o el cuadro de texto para introducir un valor de top-P. Los tokens se seleccionan de más probable a menos probable hasta que la suma de sus probabilidades sea igual al valor de top-P. Para obtener los resultados menos variables, define top-P como 0.
- Número máximo de respuestas: usa el control deslizante o el cuadro de texto para introducir un valor que indique el número de respuestas que quieres generar.
- Respuestas graduales: habilita esta opción para imprimir las respuestas a medida que se generan.
- Umbral del filtro de seguridad: selecciona el umbral de probabilidad de que veas respuestas que puedan ser dañinas.
- Habilitar Grounding: Grounding no se admite en las peticiones multimodales.
- Región: selecciona la región que quieras usar.
- Temperatura: usa el control deslizante o el cuadro de texto para introducir un valor de temperatura.
  The temperature is used for sampling during response generation, which occurs when topP and topK are applied. Temperature controls the degree of randomness in token selection. Lower temperatures are good for prompts that require a less open-ended or creative response, while higher temperatures can lead to more diverse or creative results. A temperature of 0 means that the highest probability tokens are always selected. In this case, responses for a given prompt are mostly deterministic, but a small amount of variation is still possible. If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. If the model enters infinite generation, increasing the temperature to at least 0.1 may lead to improved results. 1.0 is the recommended starting value for temperature. <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words. Specify a lower value for shorter responses and a higher value for potentially longer responses. <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences. </ul>
Haz clic en Insertar contenido multimedia y selecciona una fuente para el archivo.
Subir
Selecciona el archivo que quieras subir y haz clic en Abrir.

Por URL
Introduzca la URL del archivo que quiera usar y haga clic en Insertar.

YouTube

Vista previa

Esta función está sujeta a los "Términos de las Ofertas de Acceso Previo a la Disponibilidad General" de la sección Términos Generales de los Servicios de los Términos Específicos de los Servicios. Las funciones previas a la disponibilidad general están disponibles tal cual y pueden tener una compatibilidad y asistencia limitadas. Para obtener más información, consulta las descripciones de las fases de lanzamiento.

Introduce la URL del vídeo de YouTube que quieras usar y haz clic en Insertar.

Puedes usar cualquier vídeo público o un vídeo que sea propiedad de la cuenta que hayas usado para iniciar sesión en la consola de Google Cloud .

Cloud Storage
Selecciona el contenedor y, a continuación, el archivo del contenedor que quieras importar y haz clic en Seleccionar.
Google Drive
1. Elige una cuenta y da tu consentimiento para que Vertex AI Studio acceda a ella la primera vez que selecciones esta opción. Puedes subir varios archivos que tengan un tamaño total de hasta 10 MB. Un solo archivo no puede superar los 7 MB.
2. Haz clic en el archivo que quieras añadir.
3. Haz clic en Seleccionar.
  
  La miniatura del archivo se muestra en el panel Petición. También se muestra el número total de tokens. Si los datos de tu petición superan el límite de tokens, los tokens se truncarán y no se incluirán en el procesamiento de tus datos.
Escribe tu petición de texto en el panel Petición.
Opcional: Para ver el ID de token a texto y los IDs de token, haz clic en el recuento de tokens del panel Petición.

Nota: No se admiten tokens multimedia.
Haz clic en Enviar.
Opcional: Para guardar tu petición en Mis peticiones, haz clic en Guardar.
Opcional: Para obtener el código de Python o un comando curl para tu petición, haz clic en Crear con código > Obtener código.

Personalizar el procesamiento de vídeo

Puedes personalizar el procesamiento de vídeo en la API Gemini for Google Cloud definiendo intervalos de recorte o proporcionando un muestreo de la frecuencia de fotogramas personalizado.

Definir intervalos de recorte

Puedes recortar vídeos especificando videoMetadata con los desplazamientos de inicio y de finalización.

Definir una frecuencia de imagen personalizada

Puedes definir un muestreo de la frecuencia de fotogramas personalizada pasando un argumento fps a videoMetadata.

De forma predeterminada, se toma una muestra de 1 fotograma por segundo (FPS) del vídeo. Puede que quieras definir un valor de FPS bajo (< 1) para los vídeos largos. Esto es especialmente útil para vídeos que no tienen mucho movimiento (por ejemplo, conferencias). Si quieres captar más detalles en imágenes que cambian rápidamente, te recomendamos que elijas un valor de FPS más alto.

Ajustar la resolución del contenido multimedia

Puedes ajustar MediaResolution para procesar tus vídeos con menos tokens.

Definir parámetros de modelo opcionales

Cada modelo tiene un conjunto de parámetros opcionales que puedes definir. Para obtener más información, consulta Parámetros de generación de contenido.

Tokenización de vídeo

Vista previa

Este producto o función está sujeto a los "Términos de las Ofertas de Acceso Previo a la Disponibilidad General" de la sección Términos Generales de los Servicios de los Términos Específicos de los Serviciosy a los Términos Adicionales para Productos de IA Generativa en Versión Preliminar. Puedes tratar datos personales para este producto o función tal como se indica en la Adenda sobre Tratamiento de Datos de Cloud, de acuerdo con las obligaciones y restricciones descritas en el contrato en virtud del cual accedes a Google Cloud. Los productos y las funciones previos a la disponibilidad general están disponibles tal cual y pueden tener una compatibilidad y asistencia limitadas. Para obtener más información, consulta las descripciones de las fases de lanzamiento.

Con Gemini 3, la tokenización de vídeo usa una longitud de secuencia variable, que sustituye al método de panorámica y escaneo usado en modelos anteriores para mejorar la calidad y la latencia.

Puedes especificar una resolución multimedia para las entradas de vídeo, lo que afecta a la forma en que se tokenizan los vídeos y a cuántos tokens se usan en cada vídeo. Puedes definir media_resolution en generationConfig para que se aplique a todos los elementos multimedia de la solicitud o definirlo para partes multimedia concretas, lo que anulará el ajuste de nivel superior. La resolución predeterminada de los vídeos es de 70 tokens por fotograma.

Los modelos de Gemini 3 están disponibles en las siguientes resoluciones:

MEDIA_RESOLUTION_HIGH: 280 tokens por fotograma
MEDIA_RESOLUTION_MEDIUM: 70 tokens por fotograma
MEDIA_RESOLUTION_LOW: 70 tokens por fotograma
MEDIA_RESOLUTION_UNSPECIFIED: 70 tokens por fotograma (valor predeterminado)

En los modelos anteriores a Gemini 3, cada fotograma se tokeniza a 258 tokens por fotograma en la resolución predeterminada o a 66 tokens por fotograma en la resolución baja.

En este ejemplo de código se muestra cómo ajustar media_resolution:

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
  model="gemini-3-pro-preview",
  contents=[
      types.Part(
          file_data=types.FileData(
              file_uri="gs://cloud-samples-data/generative-ai/image/a-man-and-a-dog.png",
              mime_type="image/jpeg",
          ),
          media_resolution=types.PartMediaResolution(
              level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_HIGH
          ),
      ),
      Part(
          file_data=types.FileData(
              file_uri="gs://cloud-samples-data/generative-ai/video/behind_the_scenes_pixel.mp4",
              mime_type="video/mp4",
          ),
          media_resolution=types.PartMediaResolution(
              level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_LOW
          ),
      ),
      "When does the image appear in the video? What is the context?",
  ],
)
print(response.text)

Prácticas recomendadas

Cuando uses vídeos, sigue estas prácticas recomendadas e información para obtener los mejores resultados:

Si tu petición contiene un solo vídeo, colócalo antes de la petición de texto.
Si necesitas que se localicen las marcas de tiempo en un vídeo con audio, pide al modelo que genere marcas de tiempo con el formato descrito en "Formato de marca de tiempo".

En el caso de los modelos de Gemini 3, también debes tener en cuenta lo siguiente:

Usa una frecuencia de muestreo de fotogramas por segundo (FPS) más alta en los vídeos que requieran un análisis temporal detallado, como la comprensión de acciones rápidas o el seguimiento de movimientos a alta velocidad.

Limitaciones

Aunque los modelos multimodales de Gemini son potentes en muchos casos de uso multimodal, es importante conocer sus limitaciones:

Moderación de contenido: los modelos se niegan a proporcionar respuestas sobre vídeos que infrinjan nuestras políticas de seguridad.
Reconocimiento de sonidos que no son de voz: los modelos que admiten audio pueden cometer errores al reconocer sonidos que no son de voz.

Detalles técnicos sobre los vídeos

Procesamiento de la API File: cuando se usa la API File, los vídeos se muestrean a 1 fotograma por segundo (FPS) y el audio se procesa a 1 Kbps (un solo canal). Las marcas de tiempo se añaden cada segundo.
- Estas tarifas están sujetas a cambios en el futuro para mejorar la inferencia.
Formato de marca de tiempo: cuando hagas referencia a momentos específicos de un vídeo en tu petición, el formato de la marca de tiempo dependerá de la frecuencia de muestreo de fotogramas por segundo (FPS) del vídeo:
- Para frecuencias de muestreo de 1 FPS o inferiores: usa el formato MM:SS, donde los dos primeros dígitos representan los minutos y los dos últimos, los segundos. Si tienes desfases de más de una hora, usa el formato H:MM:SS.
- Para frecuencias de muestreo superiores a 1 FPS: usa el formato MM:SS.sss o, si tienes desfases de más de 1 hora, el formato H:MM:SS.sss, que se describe a continuación:
  - El primer dígito representa la hora.
  - Los dos segundos dígitos representan los minutos.
  - Los dos últimos dígitos representan los segundos.
  - Los tres últimos dígitos representan los subsegundos.
Prácticas recomendadas:
- Para obtener resultados óptimos, usa solo un vídeo por solicitud.
- Si combinas texto y un solo vídeo, coloca la petición de texto después de la parte del vídeo en la matriz contents.
- Ten en cuenta que las secuencias de acción rápidas pueden perder detalles debido a la frecuencia de muestreo de 1 FPS. Si es necesario, puedes ralentizar los vídeos.

Siguientes pasos

Empieza a crear con los modelos multimodales de Gemini: los nuevos clientes reciben 300 USD en crédito Google Cloud sin coste económico para descubrir lo que pueden hacer con Gemini.
Consulta cómo enviar solicitudes de peticiones de chat.
Consulta las prácticas recomendadas de IA responsable y los filtros de seguridad de Vertex AI.

Comprensión de vídeos Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Modelos admitidos

Añadir vídeos a una solicitud

Vídeo único

Consola

Haz clic para desplegar las configuraciones avanzadas

Subir

Por URL

YouTube

Cloud Storage

Google Drive

Python

Instalar

Go

Java

Node.js

Instalar

REST

curl

PowerShell

Respuesta

Vídeo con audio

Python

Instalar

REST

curl

PowerShell

Respuesta

Consola

Haz clic para desplegar las configuraciones avanzadas

Subir

Por URL

YouTube

Cloud Storage

Google Drive

Personalizar el procesamiento de vídeo

Definir intervalos de recorte

Definir una frecuencia de imagen personalizada

Ajustar la resolución del contenido multimedia

Definir parámetros de modelo opcionales

Tokenización de vídeo

Prácticas recomendadas

Limitaciones

Detalles técnicos sobre los vídeos

Siguientes pasos

Comprensión de vídeos