Modelos admitidos

En las siguientes tablas se muestran los modelos que admiten el rendimiento aprovisionado, el rendimiento de cada unidad de escalado de IA generativa (GSU) y las tasas de reducción de cada modelo.

Modelos de Google

El rendimiento aprovisionado solo admite modelos a los que llamas directamente desde tu proyecto mediante el ID de modelo específico y no un alias de modelo. Para usar el rendimiento aprovisionado y hacer llamadas a la API de un modelo, debes usar el ID de versión del modelo específico (por ejemplo, gemini-2.0-flash-001) y no un alias de versión del modelo.

Además, el rendimiento aprovisionado no admite modelos a los que llamen otros productos de Vertex AI, como Vertex AI Agents y Vertex AI Search. Por ejemplo, si haces llamadas a la API de Gemini 2.0 Flash mientras usas Vertex AI Search, tu pedido de rendimiento aprovisionado de Gemini 2.0 Flash no garantizará las llamadas realizadas por Vertex AI Search.

El rendimiento aprovisionado no admite llamadas de predicción por lotes.

En la siguiente tabla se muestran el rendimiento, el incremento de compra y las tasas de reducción de los modelos de Google que admiten el rendimiento aprovisionado. El rendimiento por segundo se define como la entrada de la petición y la salida generada en todas las solicitudes por segundo.

Para saber cuántos tokens necesita tu carga de trabajo, consulta el tokenizer del SDK o la API countTokens.

Modelo Rendimiento por segundo por GSU Unidades Incremento mínimo de compra de GSU Ritmos de reducción

Gemini 3 Pro

Última versión admitida: gemini-3-pro-preview (vista previa)

500 Tokens 1 Menos de 200.000 tokens de entrada:
1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de audio de entrada = 1 token
1 token de texto de respuesta de salida = 6 tokens
1 token de texto de razonamiento de salida = 6 tokens

Más de 200.000 tokens de entrada:
1 token de texto de entrada = 2 tokens
1 token de imagen de entrada = 2 tokens
1 token de vídeo de entrada = 2 tokens
1 token de audio de entrada = 2 tokens
1 token de texto de respuesta de salida = 9 tokens
1 token de texto de razonamiento de salida = 9 tokens

Imagen de Gemini 3 Pro

Última versión admitida: gemini-3-pro-image-preview (vista previa)

500 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de texto de salida = 6 tokens
1 token de reflexión de salida = 6 tokens
1 token de imagen de salida = 60 tokens

Gemini 2.5 Pro

Última versión admitida: gemini-2.5-pro

650 Tokens 1 Menos de 200.000 tokens de entrada:
1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de audio de entrada = 1 token
1 token de texto de respuesta de salida = 8 tokens
1 token de texto de razonamiento de salida = 8 tokens

Más de 200.000 tokens de entrada:
1 token de texto de entrada = 2 tokens
1 token de imagen de entrada = 2 tokens
1 token de vídeo de entrada = 2 tokens
1 token de audio de entrada = 2 tokens
1 token de texto de respuesta de salida = 12 tokens
1 token de texto de razonamiento de salida = 12 tokens

Gemini 2.5 Flash Image

Última versión admitida: gemini-2.5-flash-image

2690 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de texto de salida = 9 tokens
1 token de imagen de salida = 100 tokens

Gemini 2.5 Flash

Última versión admitida (GA): gemini-2.5-flash

Última versión admitida (vista previa): gemini-2.5-flash-preview-09-2025

2690 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de audio de entrada = 4 tokens
1 token de texto de respuesta de salida = 9 tokens
1 token de texto de razonamiento de salida = 9 tokens

Gemini 2.5 Flash-Lite

Última versión admitida (GA): gemini-2.5-flash-lite

Última versión admitida (vista previa): gemini-2.5-flash-lite-preview-09-2025

8070 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de audio de entrada = 3 tokens
1 token de texto de respuesta de salida = 4 tokens
1 token de texto de razonamiento de salida = 4 tokens

Gemini 2.5 Flash con Live API

Última versión admitida: gemini-live-2.5-flash

1620 Tokens 1 1 token de texto de entrada = 1 token de texto de entrada
1 token de audio de entrada = 6 tokens de texto de entrada
1 token de vídeo de entrada = 6 tokens de texto de entrada
1 token de memoria de sesión de entrada = 1 token de texto de entrada
1 token de texto de salida = 4 tokens de texto de entrada
1 token de audio de salida = 24 tokens de texto de entrada

Gemini 2.5 Flash con audio nativo de la API Live

Última versión admitida: gemini-live-2.5-flash-preview-native-audio-09-2025 (vista previa)

1620 Tokens 1 1 token de texto de entrada = 1 token
1 token de audio de entrada = 6 tokens
1 token de vídeo de entrada = 6 tokens
1 token de imagen de entrada = 6 tokens
1 token de memoria de sesión de entrada = 1 token
1 token de texto de salida = 4 tokens
1 token de audio de salida = 24 tokens

Gemini 2.0 Flash

Última versión admitida: gemini-2.0-flash-001

3360 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de audio de entrada = 7 tokens
1 token de texto de salida = 4 tokens

Gemini 2.0 Flash-Lite

Última versión admitida: gemini-2.0-flash-lite-001

6720 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de audio de entrada = 1 token
1 token de texto de salida = 4 tokens

Vista previa de Veo 3.1

Última versión admitida: veo-3.1-generate-001 (vista previa)

0,0040 Segundos de vídeo 1 1 segundo de vídeo de salida = 1 segundo de vídeo de salida
Vídeo y audio en segundos 1 1 segundo de vídeo y audio de salida = 2 segundos de vídeo de salida

Vista previa de Veo 3.1 Fast

Última versión admitida: veo-3.1-fast-generate-001 (vista previa)

0,0080 Segundos de vídeo 1 1 segundo de vídeo de salida = 1 segundo de vídeo de salida
Vídeo y audio en segundos 1 1 segundo de vídeo y audio de salida = 1,45 segundos de vídeo de salida

Veo 3

Última versión admitida: veo-3.0-generate-001

0,0040 Segundos de vídeo 1 1 segundo de vídeo de salida = 1 segundo de vídeo de salida
Vídeo y audio en segundos 1 1 segundo de vídeo y audio de salida = 2 segundos de vídeo de salida

Veo 3 Fast

Última versión admitida: veo-3.0-fast-generate-001

0,0080 Segundos de vídeo 1 1 segundo de vídeo de salida = 1 segundo de vídeo de salida
Vídeo y audio en segundos 1 1 segundo de vídeo y audio de salida = 1,45 segundos de vídeo de salida

Imagen 4 Ultra Generate

imagen-4.0-ultra-generate-001

0,015 Imágenes 1 Solo las imágenes de salida se tienen en cuenta para calcular tu cuota de capacidad de procesamiento aprovisionada.

Imagen 4 Generate

imagen-4.0-generate-001

0,02 Imágenes 1 Solo las imágenes de salida se tienen en cuenta para calcular tu cuota de capacidad de procesamiento aprovisionada.

Imagen 4 - Generación rápida

imagen-4.0-fast-generate-001

0,04 Imágenes 1 Solo las imágenes de salida se tienen en cuenta para calcular tu cuota de capacidad de procesamiento aprovisionada.

Imagen 3 Generate 002

imagen-3.0-generate-002

0,02 Imágenes 1 Solo las imágenes de salida se tienen en cuenta para calcular tu cuota de capacidad de procesamiento aprovisionada.

Imagen 3 Generate 001

imagen-3.0-generate-001

0,025 Imágenes 1 Solo las imágenes de salida se tienen en cuenta para calcular tu cuota de capacidad de procesamiento aprovisionada.
Imagen 3 - Fast 0,05 Imágenes 1 Solo las imágenes de salida se tienen en cuenta para calcular tu cuota de capacidad de procesamiento aprovisionada.

Para obtener información sobre las funciones de un modelo y los límites de entrada o salida, consulta la documentación del modelo.

Puedes cambiarte a modelos nuevos a medida que estén disponibles. Para obtener información sobre la disponibilidad de los modelos y las fechas de discontinuación, consulta Modelos de Google.

Para obtener más información sobre las ubicaciones admitidas, consulta Ubicaciones disponibles.

Modelos de partners

En la siguiente tabla se muestran el rendimiento, el incremento de compra y las tasas de reducción de los modelos de partners que admiten el rendimiento aprovisionado. Los modelos de Claude se miden en tokens por segundo, que se definen como el total de tokens de entrada y salida de todas las solicitudes por segundo.

Modelo Rendimiento por unidad de programación de Google (tokens/seg) Compra mínima de GSU Incremento de compra de GSU Ritmos de reducción
Claude Opus 4.5 de Anthropic 210 35 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
1 token de escritura en caché de 5 minutos = 1,25 tokens
1 token de escritura en caché de 1 hora = 2 tokens
1 token de acierto de caché = 0,1 token
Claude Sonnet 4.5 de Anthropic 350 25 1 Menos de 200.000 tokens de entrada:
1 token de entrada = 1 token
1 token de salida = 5 tokens
1 token de escritura en caché de 5 minutos = 1,25 tokens
1 token de escritura en caché de 1 hora = 2 tokens
1 token de acierto de caché = 0,1 token

200.000 tokens de entrada o más:
1 token de entrada = 2 tokens
1 token de salida = 7,5 tokens
1 token de escritura en caché de 5 minutos = 2,5 tokens
1 token de escritura en caché de 1 hora = 4 tokens
1 token de acierto de caché = 0,2 token
Claude Opus 4.1 de Anthropic 70 35 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
1 token de escritura en caché de 5 minutos = 1,25 tokens
1 token de escritura en caché de 1 hora = 2 tokens
1 token de acierto de caché = 0,1 token
Claude Haiku 4.5 de Anthropic 1050 8 1 Menos de 200.000 tokens de entrada:
1 token de entrada = 1 token
1 token de salida = 5 tokens
1 token de escritura en caché de 5 minutos = 1,25 tokens
1 token de escritura en caché de 1 hora = 2 tokens
1 token de acierto de caché = 0,1 token
Claude Opus 4 de Anthropic 70 35 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
1 token de escritura en caché de 5 minutos = 1,25 tokens
1 token de escritura en caché de 1 hora = 2 tokens
1 token de acierto de caché = 0,1 token
Claude Sonnet 4 de Anthropic 350 25 1 Menos de 200.000 tokens de entrada:
1 token de entrada = 1 token
1 token de salida = 5 tokens
1 token de escritura en caché de 5 minutos = 1,25 tokens
1 token de escritura en caché de 1 hora = 2 tokens
1 token de acierto de caché = 0,1 token

200.000 tokens de entrada o más:
1 token de entrada = 2 tokens
1 token de salida = 7,5 tokens
1 token de escritura en caché de 5 minutos = 2,5 tokens
1 token de escritura en caché de 1 hora = 4 tokens
1 token de acierto de caché = 0,2 token
Claude 3.7 Sonnet de Anthropic (obsoleto) 350 25 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
1 token de escritura en caché de 5 minutos = 1,25 tokens
1 token de acierto de caché = 0,1 token
Claude 3.5 Sonnet v2 de Anthropic (obsoleto) 350 25 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
1 token de escritura en caché de 5 minutos = 1,25 tokens
1 token de acierto de caché = 0,1 token
Claude 3.5 Haiku de Anthropic 2000 10 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
1 token de escritura en caché de 5 minutos = 1,25 tokens
1 token de escritura en caché de 1 hora = 2 tokens
1 token de acierto de caché = 0,1 token
Claude 3 Opus de Anthropic 70 35 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
1 token de escritura en caché de 5 minutos = 1,25 tokens
1 token de acierto de caché = 0,1 token
Claude 3 Haiku de Anthropic 4200 5 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
1 token de escritura en caché de 5 minutos = 1,25 tokens
1 token de escritura en caché de 1 hora = 2 tokens
1 token de acierto de caché = 0,1 token
Claude 3.5 Sonnet de Anthropic (obsoleto) 350 25 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
1 token de escritura en caché de 5 minutos = 1,25 tokens
1 token de acierto de caché = 0,1 token

Para obtener información sobre las ubicaciones admitidas, consulta la disponibilidad de la región de Claude de Anthropic. Para pedir el servicio de Provisioned Throughput para modelos de Anthropic, ponte en contacto con tu Google Cloud representante de cuentas.

Modelos abiertos

En la siguiente tabla se muestran el rendimiento, el incremento de compra y las tasas de consumo de los modelos abiertos que admiten el rendimiento aprovisionado.

Modelo Rendimiento por unidad de programación de Google (tokens/seg) Compra mínima de GSU Incremento de compra de GSU Ritmos de reducción

DeepSeek-OCR

Última versión admitida: deepseek-ocr-maas

3360 1 1 1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de texto de salida = 4 tokens

Kimi K2 Thinking

Última versión admitida: kimi-k2-thinking-maas

1680 1 1 1 token de texto de entrada = 1 token
1 token de texto de salida = 4 tokens

Llama 3.3 70B

Última versión admitida: llama-3.3-70b-instruct-maas

1400 1 1 1 token de texto de entrada = 1 token
1 token de texto de salida = 1 token

Llama 4 Maverick 17B-128E

Última versión admitida: llama-4-maverick-17b-128e-instruct-maas

2800 1 1 1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de texto de salida = 4 tokens

Llama 4 Scout 17B-16E

Última versión admitida: llama-4-scout-17b-16e-instruct-maas

4035 1 1 1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de texto de salida = 3 tokens

MiniMax M2

Última versión admitida: minimax-m2-maas

3360 1 1 1 token de texto de entrada = 1 token
1 token de texto de salida = 4 tokens

gpt-oss 120B de OpenAI

Última versión admitida: gpt-oss-120b-maas

11.205 1 1 1 token de texto de entrada = 1 token
1 token de texto de salida = 4 tokens

gpt-oss 20B de OpenAI

Última versión admitida: gpt-oss-20b-maas

14.405 1 1 1 token de texto de entrada = 1 token
1 token de texto de salida = 4 tokens

Qwen3 235B

Última versión admitida: qwen3-235b-a22b-instruct-2507-maas

4035 1 1 1 token de texto de entrada = 1 token
1 token de texto de salida = 4 tokens

Qwen3 Coder

Última versión admitida: qwen3-coder-480b-a35b-instruct-maas

1010 1 1 1 token de texto de entrada = 1 token
1 token de texto de salida = 4 tokens

Qwen3-Next-80B Instruct

Última versión admitida: qwen3-next-80b-a3b-instruct-maas

6725 1 1 1 token de texto de entrada = 1 token
1 token de texto de salida = 8 tokens

Qwen3-Next-80B Thinking

Última versión admitida: qwen3-next-80b-a3b-thinking-maas

6725 1 1 1 token de texto de entrada = 1 token
1 token de texto de salida = 8 tokens

Funciones disponibles para modelos de Google y modelos abiertos

En la siguiente tabla se indican las funciones disponibles con el rendimiento aprovisionado para los modelos de Google y los modelos abiertos:

Competencia Modelos de Google Modelos abiertos (vista previa)
Hacer un pedido a través de la consola Google Cloud
Admite endpoints globales Consulta Asistencia para modelos de puntos finales globales. Consulta Asistencia para modelos de puntos finales globales.
Admite modelos ajustados con supervisión No
Admite el uso de claves de API No
Integración con el almacenamiento en caché de contexto implícito No aplicable
Integración con el almacenamiento en caché de contexto explícito No aplicable
Procesamiento de aprendizaje automático Disponible en determinadas regiones. Para obtener más información, consulta Single Zone Provisioned Throughput (Rendimiento aprovisionado de una sola zona). No aplicable
Términos de pedido disponibles 1 semana, 1 mes, 3 meses y 1 año 1 mes, 3 meses y 1 año
Cambiar el orden desde la consola No
Estados de los pedidos: pendiente de revisión, aprobado, activo y caducado
Los excesos se transfieren al modelo de pago por uso de forma predeterminada
Control de encabezado de API: usa "dedicated" para usar solo el rendimiento aprovisionado o "shared" para usar solo el pago por uso.
Monitorización: métricas, paneles y alertas

Compatibilidad con modelos de endpoint global

El rendimiento aprovisionado admite el endpoint global para los modelos de Google y los modelos abiertos.

El tráfico que supera la cuota de capacidad de procesamiento aprovisionada usa el endpoint global de forma predeterminada.

Para asignar el throughput aprovisionado al endpoint global de un modelo, selecciona global como región cuando hagas un pedido de throughput aprovisionado.

Modelos de Google con compatibilidad con endpoints globales

En la siguiente tabla se indican los modelos de Google en los que el rendimiento aprovisionado admite el endpoint global:

Modelo Versión de modelo más reciente admitida
Gemini 3 Pro (versión preliminar) gemini-3-pro-preview
Imagen de Gemini 3 Pro (versión preliminar) gemini-3-pro-image-preview
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash Image gemini-2.5-flash-image
Gemini 2.5 Flash
  • gemini-2.5-flash-preview-09-2025  (vista previa)
  • gemini-2.5-flash  (GA)
Gemini 2.5 Flash-Lite
  • gemini-2.5-flash-lite-preview-09-2025  (vista previa)
  • gemini-2.5-flash-lite  (GA)
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

Modelos abiertos con asistencia de endpoint global

En la siguiente tabla se enumeran los modelos abiertos para los que el rendimiento aprovisionado admite el endpoint global:

Modelo Versión de modelo más reciente admitida
DeepSeek-OCR deepseek-ocr-maas
Kimi K2 Thinking kimi-k2-thinking-maas
MiniMax M2 minimax-m2-maas
OpenAI gpt-oss 120B gpt-oss-120b-maas
Qwen3-Next-80B Instruct qwen3-next-80b-a3b-instruct-maas
Qwen3-Next-80B Thinking qwen3-next-80b-a3b-thinking-maas

Compatibilidad con modelos ajustados con supervisión

Se admite lo siguiente en los modelos de Google que admiten ajustes con supervisión:

  • El rendimiento aprovisionado se puede aplicar tanto a los modelos base como a las versiones de esos modelos base ajustadas con supervisión.

  • Los endpoints de modelos ajustados con supervisión y su número de modelos base correspondiente se incluyen en la misma cuota de rendimiento aprovisionado.

    Por ejemplo, el rendimiento aprovisionado comprado para gemini-2.0-flash-lite-001 en un proyecto específico prioriza las solicitudes que se realizan desde versiones ajustadas supervisadas de gemini-2.0-flash-lite-001 creadas en ese proyecto. Usa el encabezado adecuado para controlar el comportamiento del tráfico.

Siguientes pasos