Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Modelos compatibles

En las siguientes tablas, se muestran los modelos que admiten la capacidad de procesamiento aprovisionada, la capacidad de procesamiento para cada unidad de escala de IA generativa (GSU) y las tasas de consumo para cada modelo.

La capacidad de procesamiento aprovisionada no admite llamadas de predicción por lotes.

Modelos de Google

Precaución: A partir del 6 de marzo de 2026, gemini-2.0-flash-001 y gemini-2.0-flash-lite-001 solo estarán disponibles para los clientes existentes. Esto incluye la entrega de modelos y la Capacidad de procesamiento aprovisionada. Los proyectos nuevos deben usar gemini-2.5-flash, gemini-2.5-flash-lite o versiones más recientes.

La capacidad de procesamiento aprovisionada solo admite modelos a los que llamas directamente desde tu proyecto con el ID de modelo específico y no con un alias de modelo. Para usar la capacidad de procesamiento aprovisionada y realizar llamadas a la API de un modelo, debes usar el ID de versión del modelo específico (por ejemplo, gemini-2.0-flash-001) y no un alias de versión del modelo.

Si bien la Capacidad de procesamiento aprovisionada garantiza la capacidad para las solicitudes de tu modelo, no incluye ni omite las cuotas de otras herramientas que podrías usar, como Fundamentación. Según el tamaño de tu carga de trabajo, es posible que debas solicitar una cuota adicional para estas herramientas por separado.

Además, la capacidad de procesamiento aprovisionada no admite modelos que llamen otros productos de Vertex AI, como los agentes de Vertex AI y Agent Search. Por ejemplo, si realizas llamadas a la API de Gemini 2.0 Flash mientras usas Agent Search, tu pedido de capacidad de procesamiento aprovisionada para Gemini 2.0 Flash no garantizará las llamadas que realice Agent Search.

La capacidad de procesamiento aprovisionada para los modelos en versión preliminar se excluye del Acuerdo de Nivel de Servicio de la inferencia en línea de Gemini en Vertex AI.

En la siguiente tabla, se muestran las tasas de capacidad de procesamiento, incremento de compra y consumo para los modelos de Google que admiten la capacidad de procesamiento aprovisionada. Tu capacidad de procesamiento por segundo se define como la entrada de tu instrucción y la salida generada en todas las solicitudes por segundo.

Para saber cuántos tokens requiere tu carga de trabajo, consulta el tokenizador del SDK o la API de countTokens.

Modelo	Capacidad de procesamiento por segundo y por GSU	Unidades	Incremento mínimo de compra de GSU	Tasas de consumo
Gemini 3.1 Flash-Lite Versión compatible más reciente: `gemini-3.1-flash-lite`	4030	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 2 tokens 1 token de almacenamiento en caché de texto de entrada = 0.1 tokens 1 token de almacenamiento en caché de imagen de entrada = 0.1 tokens 1 token de almacenamiento en caché de video de entrada = 0.1 tokens 1 token de almacenamiento en caché de audio de entrada = 0.2 tokens 1 token de texto de salida = 6 tokens
Imagen de Gemini 3.1 Flash Versión compatible más reciente: `gemini-3.1-flash-image-preview` (versión preliminar)	2015	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 6 tokens 1 token de imagen de salida = 120 tokens
Gemini 3.1 Pro Versión compatible más reciente: `gemini-3.1-pro-preview` (versión preliminar)	500	Tokens	1	Menor o igual que 200,000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 1 token 1 token de caché de entrada = 0.1 tokens 1 token de texto de respuesta de salida = 6 tokens 1 token de texto de razonamiento de salida = 6 tokens Mayor que 200,000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagen de entrada = 2 tokens 1 token de video de entrada = 2 tokens 1 token de audio de entrada = 2 tokens 1 token de caché de entrada = 0.2 tokens 1 token de texto de respuesta de salida = 9 tokens 1 token de texto de razonamiento de salida = 9 tokens
Gemini 3 Flash Versión compatible más reciente: `gemini-3-flash-preview` (versión preliminar)	2015	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 2 tokens 1 token de almacenamiento en caché de texto, imagen o video de entrada = 0.1 tokens 1 token de almacenamiento en caché de audio de entrada = 0.2 tokens 1 token de texto de respuesta de salida = 6 tokens 1 token de texto de razonamiento de salida = 6 tokens
Gemini 3 Pro Versión compatible más reciente: `gemini-3-pro-preview` (versión preliminar)	500	Tokens	1	Menor o igual que 200,000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 1 token 1 token de texto de respuesta de salida = 6 tokens 1 token de texto de razonamiento de salida = 6 tokens Mayor que 200,000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagen de entrada = 2 tokens 1 token de video de entrada = 2 tokens 1 token de audio de entrada = 2 tokens 1 token de texto de respuesta de salida = 9 tokens 1 token de texto de razonamiento de salida = 9 tokens
Imagen de Gemini 3 Pro Versión compatible más reciente: `gemini-3-pro-image-preview` (versión preliminar)	500	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 6 tokens 1 token de pensamiento de salida = 6 tokens 1 token de imagen de salida = 60 tokens
Gemini 2.5 Pro Versión compatible más reciente: `gemini-2.5-pro`	650	Tokens	1	Menos o igual a 200,000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 1 token 1 token de texto de respuesta de salida = 8 tokens 1 token de texto de razonamiento de salida = 8 tokens Más de 200,000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagen de entrada = 2 tokens 1 token de video de entrada = 2 tokens 1 token de audio de entrada = 2 tokens 1 token de texto de respuesta de salida = 12 tokens 1 token de texto de razonamiento de salida = 12 tokens
Gemini 2.5 Flash Image Versión compatible más reciente: `gemini-2.5-flash-image`	2,690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 9 tokens 1 token de imagen de salida = 100 tokens
Gemini 2.5 Flash Versión compatible más reciente: `gemini-2.5-flash`	2690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 4 tokens 1 token de texto de respuesta de salida = 9 tokens 1 token de texto de razonamiento de salida = 9 tokens
Gemini 2.5 Flash-Lite Versión compatible más reciente (GA): `gemini-2.5-flash-lite` Versión compatible más reciente (vista previa): `gemini-2.5-flash-lite-preview-09-2025`	8,070	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 3 tokens 1 token de texto de respuesta de salida = 4 tokens 1 token de texto de razonamiento de salida = 4 tokens
Gemini 2.5 Flash con audio nativo de la API de Gemini Live Versión compatible más reciente: `gemini-live-2.5-flash-native-audio`	1,620	Tokens	1	1 token de texto de entrada = 1 token 1 token de audio de entrada = 6 tokens 1 token de video de entrada = 6 tokens 1 token de imagen de entrada = 6 tokens 1 token de memoria de sesión de entrada = 1 token 1 token de texto de salida = 4 tokens 1 token de audio de salida = 24 tokens
Gemini 2.0 Flash Versión compatible más reciente: `gemini-2.0-flash-001`	3,360	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 7 tokens 1 token de texto de salida = 4 tokens
Gemini 2.0 Flash-Lite Versión compatible más reciente: `gemini-2.0-flash-lite-001`	6,720	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 1 token 1 token de texto de salida = 4 tokens
Veo 3.1 Lite Generate Versión compatible más reciente: `veo-3.1-lite-generate-001`	0.0350	Segundos de video (720p)	1	1 segundo de video de salida (720p) = 1 segundo de video de salida
		Segundos de audio y video (720p)	1	1 segundo de video y audio de salida (720p) = 1.75 segundos de video de salida
		Segundos de video (1080p)	1	1 segundo de video de salida en 1080p = 1.75 segundos de video de salida en 720p
		Segundos de video y audio (1080p)	1	1 segundo de audio y video de salida (1080p) = 2.33 segundos de video de salida (720p)
Veo 3.1 Versión compatible más reciente: `veo-3.1-generate-001`	0.0040	Segundos de video	1	1 segundo de video de salida = 1 segundo de video de salida
	0.0040	Segundos de audio y video	1	1 segundo de audio y video de salida = 2 segundos de video de salida
Veo 3.1 Fast Versión compatible más reciente: `veo-3.1-fast-generate-001`	0.01	Segundos de video (720p)	1	1 segundo de video de salida (720p) = 1 segundo de video de salida
		Segundos de video y audio (720p)	1	1 segundo de audio y video de salida (720p) = 1.30 segundos de video de salida
		Segundos de video (1080p)	1	1 segundo de video de salida en 1080p = 1.30 segundos de video de salida en 720p
		Segundos de video y audio (1080p)	1	1 segundo de video y audio de salida (1080p) = 1.60 segundos de video de salida (720p)
		Segundos de video (4K)	1	1 segundo de video de salida (4K) = 3.40 segundos de video de salida (720p)
		Segundos de video y audio (4K)	1	1 segundo de video y audio de salida (4K) = 4 segundos de video de salida (720p)
Veo 3 Versión compatible más reciente: `veo-3.0-generate-001`	0.0040	Segundos de video	1	1 segundo de video de salida = 1 segundo de video de salida
	0.0040	Segundos de audio y video	1	1 segundo de audio y video de salida = 2 segundos de video de salida
Veo 3 Fast Versión compatible más reciente: `veo-3.0-fast-generate-001`	0.01	Segundos de video (720p)	1	1 segundo de video de salida (720p) = 1 segundo de video de salida
		Segundos de video y audio (720p)	1	1 segundo de audio y video de salida (720p) = 1.30 segundos de video de salida
		Segundos de video (1080p)	1	1 segundo de video de salida en 1080p = 1.30 segundos de video de salida en 720p
		Segundos de video y audio (1080p)	1	1 segundo de video y audio de salida (1080p) = 1.60 segundos de video de salida (720p)
Prueba virtual 001 `virtual-try-on-001`	0.02	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 4 Ultra Generate `imagen-4.0-ultra-generate-001`	0.015	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 4 Generate `imagen-4.0-generate-001`	0.02	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 4 Fast Generate `imagen-4.0-fast-generate-001`	0.04	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 3 Generate 002 `imagen-3.0-generate-002`	0.02	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 3 Generate 001 `imagen-3.0-generate-001`	0.025	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 3 Fast `imagen-3.0-fast-generate-001`	0.05	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.

Para obtener información sobre las capacidades de un modelo y los límites de entrada o salida, consulta la documentación del modelo.

Solicita acceso: El modelo gemini-live-2.5-flash se encuentra en DG privada. Para obtener información sobre el acceso a esta versión, consulta la página de solicitud de acceso.

Puedes actualizar a modelos nuevos a medida que estén disponibles. Para obtener información sobre la disponibilidad de los modelos y las fechas de interrupción, consulta Modelos de Google.

Para obtener más información sobre las ubicaciones admitidas, consulta Ubicaciones disponibles.

Modelos de socios

En la siguiente tabla, se muestran las tasas de capacidad de procesamiento, incremento de compra y consumo para los modelos de socios que admiten la capacidad de procesamiento aprovisionada. Los modelos de Claude se miden en tokens por segundo, lo que se define como un total de tokens de entrada y salida en todas las solicitudes por segundo.

Modelo	Capacidad de procesamiento por GSU (tokens/s)	Compra mínima de GSU	Incremento de compra de GSU	Tasas de consumo
Claude Opus 4.7 de Anthropic	210	35	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token
Claude Sonnet 4.6 de Anthropic	350	25	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token
Claude Opus 4.6 de Anthropic	210	35	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token
Claude Opus 4.5 de Anthropic	210	35	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token
Claude Sonnet 4.5 de Anthropic	350	25	1	Menos de 200,000 tokens de entrada: 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token Mayor o igual que 200,000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de salida = 7.5 tokens 1 token de escritura en caché de 5 min = 2.5 tokens 1 token de escritura en caché de 1 h = 4 tokens 1 token de acierto de caché = 0.2 token
Claude Opus 4.1 de Anthropic	70	35	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token
Claude Haiku 4.5 de Anthropic	1,050	8	1	Menos de 200,000 tokens de entrada: 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token
Claude Opus 4 de Anthropic	70	35	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token
Claude Sonnet 4 de Anthropic	350	25	1	Menos de 200,000 tokens de entrada: 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token Mayor o igual que 200,000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de salida = 7.5 tokens 1 token de escritura en caché de 5 min = 2.5 tokens 1 token de escritura en caché de 1 h = 4 tokens 1 token de acierto de caché = 0.2 token
Claude 3.7 Sonnet de Anthropic (obsoleto)	350	25	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 minutos = 1.25 tokens 1 token de acierto de caché = 0.1 token
Claude 3.5 Sonnet v2 de Anthropic (obsoleto)	350	25	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 minutos = 1.25 tokens 1 token de acierto de caché = 0.1 token
Claude 3.5 Haiku de Anthropic (obsoleto)	2,000	10	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token
Claude 3 Opus de Anthropic	70	35	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 minutos = 1.25 tokens 1 token de acierto de caché = 0.1 token
Claude 3 Haiku de Anthropic (obsoleto)	4,200	5	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token
Claude 3.5 Sonnet de Anthropic (obsoleto)	350	25	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 minutos = 1.25 tokens 1 token de acierto de caché = 0.1 token

Para obtener información sobre las ubicaciones compatibles, consulta Disponibilidad de regiones de Claude Anthropic. Para solicitar capacidad de procesamiento aprovisionada para los modelos de Anthropic, comunícate con tu Google Cloud representante de cuenta.

Modelos abiertos

En esta tabla, se muestran las tasas de capacidad de procesamiento, incremento de compra y consumo para los modelos abiertos que admiten la capacidad de procesamiento aprovisionada.

Modelo	Capacidad de procesamiento por GSU (tokens/s)	Compra mínima de GSU	Incremento de compra de GSU	Tasas de consumo
DeepSeek-OCR Versión compatible más reciente: `deepseek-ocr-maas`	3,360	1	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 4 tokens
DeepSeek-V3.2 Versión compatible más reciente: `deepseek-v3.2-maas`	1,680	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens
Gemma 4 26B A4B IT Versión compatible más reciente: `gemma-4-26b-a4b-it-maas`	6,725	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens
Kimi K2 Thinking Versión compatible más reciente: `kimi-k2-thinking-maas`	1,680	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens
Llama 3.3 70B Versión compatible más reciente: `llama-3.3-70b-instruct-maas`	1,400	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 1 token
Llama 4 Maverick 17B-128E Versión compatible más reciente: `llama-4-maverick-17b-128e-instruct-maas`	2,800	1	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 4 tokens
Llama 4 Scout 17B-16E Versión compatible más reciente: `llama-4-scout-17b-16e-instruct-maas`	4,035	1	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 3 tokens
MiniMax M2 Versión compatible más reciente: `minimax-m2-maas`	3,360	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens
OpenAI gpt-oss 120B Versión compatible más reciente: `gpt-oss-120b-maas`	11,205	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens
OpenAI gpt-oss 20B Versión compatible más reciente: `gpt-oss-20b-maas`	14,405	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens
Qwen3 235B Versión compatible más reciente: `qwen3-235b-a22b-instruct-2507-maas`	4,035	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens
Qwen3 Coder Versión compatible más reciente: `qwen3-coder-480b-a35b-instruct-maas`	1,010	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens
Qwen3-Next-80B Instruct Versión compatible más reciente: `qwen3-next-80b-a3b-instruct-maas`	6,725	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 8 tokens
Qwen3-Next-80B Thinking Versión compatible más reciente: `qwen3-next-80b-a3b-thinking-maas`	6,725	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 8 tokens
GLM 4.7 Versión compatible más reciente: `glm-4.7-maas`	1,685	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens
GLM 5 Versión compatible más reciente: `glm-5-maas`	1,010	1	1	1 token de texto de entrada = 1 token 1 token de texto de salida = 3 tokens

Capacidades disponibles para los modelos abiertos y de Google

En la siguiente tabla, se enumeran las capacidades disponibles con la Capacidad de procesamiento aprovisionada para los modelos de Google y los modelos abiertos:

Función	Modelos de Google	Modelos abiertos (versión preliminar)
Cómo hacer pedidos a través de la consola de Google Cloud	Sí	Sí
Admite extremos globales	Consulta Compatibilidad con el modelo de extremo global.	Consulta Compatibilidad con el modelo de extremo global.
Admite modelos ajustados de forma supervisada	Sí	No
Admite el uso de claves de API	Sí	No
Integrado en el almacenamiento implícito de contexto en caché	Sí	No aplicable
Integrado con el almacenamiento en caché de contexto explícito	Sí	No aplicable
Procesamiento de AA	Disponible en regiones específicas. Para obtener más detalles, consulta Capacidad de procesamiento aprovisionada de una sola zona.	No aplicable
Condiciones de pedido disponibles	1 semana, 1 mes, 3 meses y 1 año	1 semana, 1 mes, 3 meses y 1 año
Cambia el orden desde la consola	Sí	No
Estados del pedido: Pendiente de revisión, Aprobado, Activo, Vencido	Sí	Sí
Los excedentes se extienden al pago por uso de forma predeterminada	Sí	Sí
Control de encabezado de la API: Usa "dedicado" para usar solo el procesamiento aprovisionado o "compartido" para usar solo el pago por uso.	Sí	Sí
Supervisión: Métricas, paneles y alertas	Sí	Sí

Compatibilidad con el modelo de extremo global

La capacidad de procesamiento aprovisionada admite el extremo global para los modelos de Google y los modelos abiertos.

De forma predeterminada, el tráfico que supera la cuota de capacidad de procesamiento aprovisionada usa el extremo global.

Para asignar capacidad de procesamiento aprovisionada al extremo global de un modelo, selecciona global como la región cuando realices un pedido de capacidad de procesamiento aprovisionada.

Modelos de Google con compatibilidad con extremos globales

En la siguiente tabla, se enumeran los modelos de Google para los que la capacidad de procesamiento aprovisionada admite el extremo global:

Modelo	Versión del modelo compatible más reciente
Gemini 3.1 Flash-Lite	`gemini-3.1-flash-lite`
Gemini 3.1 Flash Image vista previa	`gemini-3.1-flash-image-preview`
Gemini 3.1 Pro versión preliminar	`gemini-3.1-pro-preview`
Gemini 3 Flash vista previa	`gemini-3-flash-preview`
Imagen de Gemini 3 Pro vista previa	`gemini-3-pro-image-preview`
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.5 Flash vista previa	`gemini-2.5-flash-preview-09-2025`
Gemini 2.5 Flash-Lite vista previa	`gemini-2.5-flash-lite-preview-09-2025`
Gemini 2.5 Flash Image	`gemini-2.5-flash-image`
Gemini 2.5 Flash	`gemini-2.5-flash`
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite`

Modelos abiertos con compatibilidad con extremos globales

En la siguiente tabla, se enumeran los modelos abiertos para los que la capacidad de procesamiento aprovisionada admite el extremo global:

Modelo	Versión del modelo compatible más reciente
DeepSeek-OCR	`deepseek-ocr-maas`
DeepSeek-V3.2	`deepseek-v3.2-maas`
Kimi K2 Thinking	`kimi-k2-thinking-maas`
MiniMax M2	`minimax-m2-maas`
OpenAI gpt-oss 120B	`gpt-oss-120b-maas`
Qwen3-Next-80B Instruct	`qwen3-next-80b-a3b-instruct-maas`
Qwen3-Next-80B Thinking	`qwen3-next-80b-a3b-thinking-maas`
GLM 4.7	`glm-4.7-maas`
GLM 5	`glm-5-maas`

Compatibilidad con modelos ajustados de forma supervisada

Los siguientes elementos son compatibles con los modelos de Google que admiten el ajuste supervisado:

La capacidad de procesamiento aprovisionada se puede aplicar tanto a los modelos base como a las versiones ajustadas de forma supervisada de esos modelos base.
Los extremos de modelos ajustados de forma supervisada y sus modelos base correspondientes se incluyen en la misma cuota de Capacidad de procesamiento aprovisionada.

Por ejemplo, la capacidad de procesamiento aprovisionada comprada para gemini-2.0-flash-lite-001 para un proyecto específico prioriza las solicitudes que se realizan desde versiones ajustadas supervisadas de gemini-2.0-flash-lite-001 creadas dentro de ese proyecto. Usa el encabezado adecuado para controlar el comportamiento del tráfico.

¿Qué sigue?

Calcula los requisitos de capacidad de procesamiento aprovisionada.

Modelos compatibles Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Modelos de Google

Modelos de socios

Modelos abiertos

Capacidades disponibles para los modelos abiertos y de Google

Compatibilidad con el modelo de extremo global

Modelos de Google con compatibilidad con extremos globales

Modelos abiertos con compatibilidad con extremos globales

Compatibilidad con modelos ajustados de forma supervisada

¿Qué sigue?

Modelos compatibles