Cuotas y límites del sistema de la IA generativa en Vertex AI

En esta página se muestra una lista de cuotas por región y modelo, así como la forma de ver y editar las cuotas en la Google Cloud consola.

Cuotas de modelos ajustados

La inferencia del modelo ajustado comparte la misma cuota que el modelo base. No hay una cuota independiente para la inferencia de modelos ajustados.

Límites de inserción de texto

Cada solicitud puede tener hasta 250 textos de entrada (lo que genera una inserción por texto de entrada) y 20.000 tokens por solicitud. Solo se usan los primeros 2048 tokens de cada texto de entrada para calcular las inserciones. En el caso de gemini-embedding-001, la cuota se indica en el nombre gemini-embedding.

Tokens de entrada de contenido insertado por minuto y por modelo base

A diferencia de los modelos de inserciones anteriores, que estaban limitados principalmente por las cuotas de RPM, la cuota del modelo de inserciones de Gemini limita el número de tokens que se pueden enviar por minuto y por proyecto.

Cuota	Valor
Tokens de entrada de contenido insertado por minuto	5.000.000

Cuotas de Vertex AI Agent Engine

Las siguientes cuotas se aplican a Vertex AI Agent Engine de un proyecto concreto en cada región:

Descripción	Cuota	Métrica
Crear, eliminar o actualizar recursos de Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Crear, eliminar o actualizar sesiones de Vertex AI Agent Engine por minuto	100	`aiplatform.googleapis.com/session_write_requests`
`Query` o `StreamQuery` Vertex AI Agent Engine por minuto	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Añadir eventos a las sesiones de Vertex AI Agent Engine por minuto	300	`aiplatform.googleapis.com/session_event_append_requests`
Número máximo de recursos de Vertex AI Agent Engine	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Crear, eliminar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Obtener, enumerar o recuperar datos de Memory Bank de Vertex AI Agent Engine por minuto	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Solicitudes de ejecución por minuto del entorno de pruebas (ejecución de código)	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Entidades de entorno aislado (ejecución de código) por región	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Solicitudes POST de agente A2A, como `sendMessage` y `cancelTask`, por minuto	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
Solicitudes get de agente de A2A, como `getTask` y `getCard`, por minuto	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Conexiones bidireccionales simultáneas en directo mediante la API `BidiStreamQuery` por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Predicción por lotes

Las cuotas y los límites de los trabajos de inferencia por lotes son los mismos en todas las regiones.

Límites de tareas de inferencia por lotes simultáneas para modelos de Gemini

No hay límites de cuota predefinidos para la inferencia por lotes de los modelos de Gemini. En su lugar, el servicio por lotes proporciona acceso a un gran conjunto de recursos compartidos que se asignan dinámicamente en función de la disponibilidad en tiempo real del modelo y de la demanda de todos los clientes de ese modelo. Cuando haya más clientes activos y se sature la capacidad del modelo, es posible que tus solicitudes por lotes se pongan en cola por falta de capacidad.

Cuotas de tareas de inferencia por lotes simultáneas para modelos que no son de Gemini

En la siguiente tabla se indican las cuotas del número de tareas de inferencia por lotes simultáneas, que no se aplican a los modelos de Gemini:

Cuota	Valor
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

Si el número de tareas enviadas supera la cuota asignada, las tareas se colocan en una cola y se procesan cuando la capacidad de la cuota esté disponible.

Ver y editar las cuotas en la Google Cloud consola

Para ver y editar las cuotas en la consola de Google Cloud , sigue estos pasos:

Ve a la página Cuotas y límites del sistema.

Ir a Cuotas y límites del sistema

Para ajustar la cuota, copie y pegue la propiedad aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs en el filtro. Pulsa Intro.
Haz clic en los tres puntos que hay al final de la fila y selecciona Editar cuota.
Introduce un nuevo valor de cuota en el panel y haz clic en Enviar solicitud.

Motor de RAG de Vertex AI

Para que cada servicio realice la generación aumentada por recuperación (RAG) con RAG Engine, se aplican las siguientes cuotas, que se miden como solicitudes por minuto (RPM).

Servicio	Cuota	Métrica
APIs de gestión de datos de RAG Engine	60 RPM	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	600 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1500 RPM	`Online prediction requests per base model per minute per region per base_model` Otro filtro que puede especificar es `base_model: textembedding-gecko`

Se aplican los límites siguientes:

Servicio	Límite	Métrica
Solicitudes simultáneas de `ImportRagFiles`	3 RPM	`VertexRagService concurrent import requests per region`
Número máximo de archivos por solicitud `ImportRagFiles`	10.000	`VertexRagService import rag files requests per region`

Para obtener más información sobre los límites de frecuencia y las cuotas, consulta Límites de frecuencia de la IA generativa en Vertex AI.

Servicio de evaluación de la IA generativa

El servicio de evaluación de IA generativa usa Gemini 2.5 Flash como modelo de juez predeterminado para las métricas basadas en modelos. Una sola solicitud de evaluación de una métrica basada en modelos puede dar lugar a varias solicitudes subyacentes al servicio de evaluación de la IA generativa. El consumo de cada modelo se calcula a nivel de organización, lo que significa que cualquier solicitud dirigida al modelo de juez para la inferencia de modelos y la evaluación basada en modelos contribuye al consumo del modelo. En la siguiente tabla se muestran las cuotas del servicio de evaluación de IA generativa y del modelo de juez subyacente:

Solicitar cuota	Cuota predeterminada
Solicitudes del servicio de evaluación de la IA generativa por minuto	1000 solicitudes por proyecto y región
Rendimiento de Gemini	Depende del modelo y de la opción de consumo
Ejecuciones de evaluaciones simultáneas	20 ejecuciones de evaluación simultáneas por proyecto y región

Si recibes un error relacionado con las cuotas al usar el servicio de evaluación de IA generativa, es posible que tengas que enviar una solicitud de aumento de cuota. Para obtener más información, consulta Ver y gestionar cuotas.

Límite	Valor
Tiempo de espera de la solicitud del servicio de evaluación de la IA generativa	60 segundos

Cuando uses el servicio de evaluación de IA generativa por primera vez en un proyecto nuevo, es posible que experimentes un retraso inicial de hasta dos minutos. Si la primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en un plazo de 60 segundos.

El número máximo de tokens de entrada y salida de las métricas basadas en modelos depende del modelo que se utilice como modelo de juez. Consulta los modelos de Google para ver una lista de modelos.

Cuotas de Vertex AI Pipelines

Cada tarea de ajuste usa Vertex AI Pipelines. Para obtener más información, consulta las cuotas y los límites de Vertex AI Pipelines.

Siguientes pasos

Para obtener más información sobre Standard PayGo, consulta Standard PayGo.
Para obtener información sobre las cuotas y los límites de Vertex AI, consulta Cuotas y límites de Vertex AI.
Para obtener más información sobre las Google Cloud cuotas y los límites del sistema, consulta la documentación de cuotas de Cloud.