Modelos de Google
La capacidad de procesamiento aprovisionada solo admite modelos a los que llamas directamente desde tu proyecto con el ID de modelo específico y no con un alias de modelo. Para usar la capacidad de procesamiento aprovisionada y realizar llamadas a la API de un modelo, debes usar el ID de versión del modelo específico (por ejemplo, gemini-2.0-flash-001) y no un alias de versión del modelo.
Además, el procesamiento aprovisionado no admite modelos que llamen otros productos de Vertex AI, como Vertex AI Agents y Vertex AI Search. Por ejemplo, si realizas llamadas a la API de Gemini 2.0 Flash mientras usas Vertex AI Search, tu pedido de capacidad de procesamiento aprovisionada para Gemini 2.0 Flash no garantizará las llamadas que realice Vertex AI Search.
El rendimiento aprovisionado no admite llamadas de predicción por lotes.
En la siguiente tabla, se muestran las tasas de capacidad de procesamiento, incremento de compra y consumo para los modelos de Google que admiten la capacidad de procesamiento aprovisionada. Tu capacidad de procesamiento por segundo se define como tu entrada de instrucción y tu salida generada en todas las solicitudes por segundo.
Para saber cuántos tokens requiere tu carga de trabajo, consulta el tokenizador del SDK o la API de countTokens.
| Modelo | Capacidad de procesamiento por segundo y por GSU | Unidades | Incremento mínimo de compra de GSU | Tasas de consumo |
|---|---|---|---|---|
|
Versión compatible más reciente: |
500 | Tokens | 1 |
Menos de 200,000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 1 token 1 token de texto de respuesta de salida = 6 tokens 1 token de texto de explicación de salida = 6 tokens Más de 200,000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagen de entrada = 2 tokens 1 token de video de entrada = 2 tokens 1 token de audio de entrada = 2 tokens 1 token de texto de respuesta de salida = 9 tokens 1 token de texto de explicación de salida = 9 tokens |
|
Versión compatible más reciente: |
500 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 6 tokens 1 token de pensamiento de salida = 6 tokens 1 token de imagen de salida = 60 tokens |
|
Versión compatible más reciente: |
650 | Tokens | 1 |
Menor o igual a 200,000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 1 token 1 token de texto de respuesta de salida = 8 tokens 1 token de texto de fundamentación de salida = 8 tokens Mayor que 200,000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagen de entrada = 2 tokens 1 token de video de entrada = 2 tokens 1 token de audio de entrada = 2 tokens 1 token de texto de respuesta de salida = 12 tokens 1 token de texto de fundamentación de salida = 12 tokens |
|
Versión compatible más reciente: |
2,690 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 9 tokens 1 token de imagen de salida = 100 tokens |
|
Versión compatible más reciente (GA): Versión compatible más reciente (vista previa): |
2690 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 4 tokens 1 token de texto de respuesta de salida = 9 tokens 1 token de texto de explicación de salida = 9 tokens |
|
Versión compatible más reciente (GA): Versión compatible más reciente (vista previa): |
8,070 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 3 tokens 1 token de texto de respuesta de salida = 4 tokens 1 token de texto de razonamiento de salida = 4 tokens |
Gemini 2.5 Flash con la API de Live Versión compatible más reciente: |
1,620 | Tokens | 1 | 1 token de texto de entrada = 1 token de texto de entrada 1 token de audio de entrada = 6 tokens de texto de entrada 1 token de video de entrada = 6 tokens de texto de entrada 1 token de memoria de sesión de entrada = 1 token de texto de entrada 1 token de texto de salida = 4 tokens de texto de entrada 1 token de audio de salida = 24 tokens de texto de entrada |
|
Gemini 2.5 Flash con audio nativo de la API de Live Versión compatible más reciente: |
1,620 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de audio de entrada = 6 tokens 1 token de video de entrada = 6 tokens 1 token de imagen de entrada = 6 tokens 1 token de memoria de sesión de entrada = 1 token 1 token de texto de salida = 4 tokens 1 token de audio de salida = 24 tokens |
|
Versión compatible más reciente: |
3,360 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 7 tokens 1 token de texto de salida = 4 tokens |
|
Versión compatible más reciente: |
6,720 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 1 token 1 token de texto de salida = 4 tokens |
Versión compatible más reciente: |
0.0040 | Segundos de video | 1 | 1 segundo de video de salida = 1 segundo de video de salida |
| Segundos de audio y video | 1 | 1 segundo de audio y video de salida = 2 segundos de video de salida | ||
Versión preliminar de Veo 3.1 Fast Versión compatible más reciente: |
0.0080 | Segundos de video | 1 | 1 segundo de video de salida = 1 segundo de video de salida |
| Segundos de audio y video | 1 | 1 segundo de video y audio de salida = 1.45 segundos de video de salida | ||
Versión compatible más reciente: |
0.0040 | Segundos de video | 1 | 1 segundo de video de salida = 1 segundo de video de salida |
| Segundos de audio y video | 1 | 1 segundo de audio y video de salida = 2 segundos de video de salida | ||
Versión compatible más reciente: |
0.0080 | Segundos de video | 1 | 1 segundo de video de salida = 1 segundo de video de salida |
| Segundos de audio y video | 1 | 1 segundo de video y audio de salida = 1.45 segundos de video de salida | ||
|
|
0.015 | Imágenes | 1 | Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada. |
|
|
0.02 | Imágenes | 1 | Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada. |
|
|
0.04 | Imágenes | 1 | Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada. |
|
|
0.02 | Imágenes | 1 | Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada. |
|
|
0.025 | Imágenes | 1 | Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada. |
| Imagen 3 Fast | 0.05 | Imágenes | 1 | Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada. |
Para obtener información sobre las capacidades de un modelo y los límites de entrada o salida, consulta la documentación del modelo.
Puedes actualizar a modelos nuevos a medida que estén disponibles. Para obtener información sobre la disponibilidad de los modelos y las fechas de interrupción, consulta Modelos de Google.
Para obtener más información sobre las ubicaciones compatibles, consulta Ubicaciones disponibles.
Modelos de socios
En la siguiente tabla, se muestran las tasas de capacidad de procesamiento, incremento de compra y consumo para los modelos de socios que admiten la capacidad de procesamiento aprovisionada. Los modelos de Claude se miden en tokens por segundo, lo que se define como un total de tokens de entrada y salida en todas las solicitudes por segundo.
| Modelo | Capacidad de procesamiento por GSU (tokens/s) | Compra mínima de GSU | Incremento de compra de GSU | Tasas de consumo |
|---|---|---|---|---|
| Claude Opus 4.5 de Anthropic | 210 | 35 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token |
| Claude Sonnet 4.5 de Anthropic | 350 | 25 | 1 | Menos de 200,000 tokens de entrada: 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token Mayor o igual que 200,000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de salida = 7.5 tokens 1 token de escritura en caché de 5 min = 2.5 tokens 1 token de escritura en caché de 1 h = 4 tokens 1 token de acierto de caché = 0.2 token |
| Claude Opus 4.1 de Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token |
| Claude Haiku 4.5 de Anthropic | 1,050 | 8 | 1 | Menos de 200,000 tokens de entrada: 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 escritura en caché de 5 min = 1.25 tokens 1 escritura en caché de 1 h = 2 tokens 1 acierto de caché = 0.1 token |
| Claude Opus 4 de Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token |
| Claude Sonnet 4 de Anthropic | 350 | 25 | 1 | Menos de 200,000 tokens de entrada: 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token Mayor o igual que 200,000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de salida = 7.5 tokens 1 token de escritura en caché de 5 min = 2.5 tokens 1 token de escritura en caché de 1 h = 4 tokens 1 token de acierto de caché = 0.2 token |
| Claude 3.7 Sonnet de Anthropic (obsoleto) | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de acierto de caché = 0.1 token |
| Claude 3.5 Sonnet v2 de Anthropic (obsoleto) | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de acierto de caché = 0.1 token |
| Claude 3.5 Haiku de Anthropic | 2,000 | 10 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token |
| Claude 3 Opus de Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de acierto de caché = 0.1 token |
| Claude 3 Haiku de Anthropic | 4,200 | 5 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de escritura en caché de 1 h = 2 tokens 1 token de acierto de caché = 0.1 token |
| Claude 3.5 Sonnet de Anthropic (obsoleto) | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché de 5 min = 1.25 tokens 1 token de acierto de caché = 0.1 token |
Para obtener información sobre las ubicaciones compatibles, consulta Disponibilidad de regiones de Claude Anthropic. Para solicitar capacidad de procesamiento aprovisionada para los modelos de Anthropic, comunícate con tu Google Cloud representante de cuenta.
Modelos abiertos
En la siguiente tabla, se muestran las tasas de capacidad de procesamiento, incremento de compra y consumo para los modelos abiertos que admiten la capacidad de procesamiento aprovisionada.
| Modelo | Capacidad de procesamiento por GSU (tokens/s) | Compra mínima de GSU | Incremento de compra de GSU | Tasas de consumo |
|---|---|---|---|---|
|
Versión compatible más reciente: |
3,360 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 4 tokens |
|
Versión compatible más reciente: |
1,680 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens |
|
Versión compatible más reciente: |
1,400 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de salida = 1 token |
|
Versión compatible más reciente: |
2,800 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 4 tokens |
|
Versión compatible más reciente: |
4,035 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 3 tokens |
|
Versión compatible más reciente: |
3,360 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens |
|
Versión compatible más reciente: |
11,205 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens |
|
Versión compatible más reciente: |
14,405 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens |
|
Versión compatible más reciente: |
4,035 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens |
|
Versión compatible más reciente: |
1,010 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de salida = 4 tokens |
|
Versión compatible más reciente: |
6,725 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de salida = 8 tokens |
|
Versión compatible más reciente: |
6,725 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de salida = 8 tokens |
Capacidades disponibles para los modelos abiertos y de Google
En la siguiente tabla, se enumeran las capacidades disponibles con el procesamiento aprovisionado para los modelos de Google y los modelos abiertos:
| Función | Modelos de Google | Modelos abiertos (vista previa) |
|---|---|---|
| Cómo hacer pedidos a través de la consola de Google Cloud | Sí | Sí |
| Admite extremos globales | Consulta Compatibilidad con el modelo de extremo global. | Consulta Compatibilidad con el modelo de extremo global. |
| Admite modelos ajustados de forma supervisada | Sí | No |
| Admite el uso de claves de API | Sí | No |
| Integrado en el almacenamiento implícito de contexto en caché | Sí | No aplicable |
| Integrado con el almacenamiento en caché de contexto explícito | Sí | No aplicable |
| Procesamiento de AA | Disponible en regiones específicas. Para obtener más información, consulta Capacidad de procesamiento aprovisionada de una sola zona. | No aplicable |
| Condiciones de pedido disponibles | 1 semana, 1 mes, 3 meses y 1 año | 1 mes, 3 meses y 1 año |
| Cambiar el pedido desde la consola | Sí | No |
| Estados del pedido: Pendiente de revisión, Aprobado, Activo, Vencido | Sí | Sí |
| Los excedentes se extienden al pago por uso de forma predeterminada | Sí | Sí |
| Control de encabezado de la API: Usa "dedicado" para usar solo el rendimiento aprovisionado o "compartido" para usar solo el pago por uso. | Sí | Sí |
| Supervisión: Métricas, paneles y alertas | Sí | Sí |
Compatibilidad con el modelo de extremo global
La capacidad de procesamiento aprovisionada admite el extremo global para los modelos de Google y los modelos abiertos.
De forma predeterminada, el tráfico que supera la cuota de capacidad de procesamiento aprovisionada usa el extremo global.
Para asignar capacidad de procesamiento aprovisionada al extremo global de un modelo, selecciona global como la región cuando realices un pedido de capacidad de procesamiento aprovisionada.
Modelos de Google con compatibilidad con extremos globales
En la siguiente tabla, se enumeran los modelos de Google para los que la capacidad de procesamiento aprovisionada admite el extremo global:
| Modelo | Versión del modelo compatible más reciente |
|---|---|
| Gemini 3 Pro (versión preliminar) | gemini-3-pro-preview |
| Gemini 3 Pro Image (versión preliminar) | gemini-3-pro-image-preview |
| Gemini 2.5 Pro | gemini-2.5-pro |
| Gemini 2.5 Flash Image | gemini-2.5-flash-image |
| Gemini 2.5 Flash |
|
| Gemini 2.5 Flash-Lite |
|
| Gemini 2.0 Flash | gemini-2.0-flash-001 |
| Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
Modelos abiertos con compatibilidad con extremos globales
En la siguiente tabla, se enumeran los modelos abiertos para los que el rendimiento aprovisionado admite el extremo global:
| Modelo | Versión del modelo compatible más reciente |
|---|---|
| DeepSeek-OCR | deepseek-ocr-maas |
| Kimi, K2, Thinking | kimi-k2-thinking-maas |
| MiniMax M2 | minimax-m2-maas |
| OpenAI gpt-oss 120B | gpt-oss-120b-maas |
| Qwen3-Next-80B Instruct | qwen3-next-80b-a3b-instruct-maas |
| Qwen3-Next-80B Thinking | qwen3-next-80b-a3b-thinking-maas |
Compatibilidad con modelos ajustados de forma supervisada
Los siguientes elementos son compatibles con los modelos de Google que admiten la optimización supervisada:
La capacidad de procesamiento aprovisionada se puede aplicar tanto a los modelos base como a las versiones ajustadas de forma supervisada de esos modelos base.
Los extremos de modelos ajustados de forma supervisada y sus modelos base correspondientes se incluyen en la misma cuota de capacidad de procesamiento aprovisionada.
Por ejemplo, el rendimiento aprovisionado comprado para
gemini-2.0-flash-lite-001en un proyecto específico prioriza las solicitudes que se realizan desde versiones ajustadas con supervisión degemini-2.0-flash-lite-001creadas dentro de ese proyecto. Usa el encabezado adecuado para controlar el comportamiento del tráfico.