Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Cuotas y límites del sistema de la IA generativa en Gemini Enterprise Agent Platform

En esta página, se proporciona una lista de las cuotas por región y modelo, y se muestra cómo ver y editar tus cuotas en la consola de Google Cloud .

Cuotas de modelos ajustados

La inferencia del modelo ajustado comparte la misma cuota que el modelo base. No hay una cuota independiente para la inferencia del modelo ajustado.

Límites de embedding

Las solicitudes de gemini-embedding-001 están sujetas a cuotas regionales, mientras que las solicitudes de gemini-embedding-2 están sujetas a cuotas globales.

Modelo base	Cuota	Métrica
base_model: gemini-embedding	5,000,000	`aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	10,000,000	`aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	40,000	`aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model`

Las solicitudes de gemini-embedding-001 que usan la API de predict también están sujetas a las siguientes cuotas:

Modelo base	Cuota	Métrica
base_model: gemini-embedding	100,000	`aiplatform.googleapis.com/online_prediction_requests_per_base_model`
base_model: N/A	30,000	`aiplatform.googleapis.com/online_prediction_requests`

Cuotas de Vertex AI Agent Engine

Las siguientes cuotas se aplican a Vertex AI Agent Engine para un proyecto determinado en cada región:

Descripción	Cuota	Métrica
Crear, borrar o actualizar recursos de Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Crear, borrar o actualizar sesiones de Vertex AI Agent Engine por minuto	100	`aiplatform.googleapis.com/session_write_requests`
Obtén, enumera o recupera sesiones de Vertex AI Agent Engine por minuto	10000	`aiplatform.googleapis.com/session_read_requests`
`Query` o `StreamQuery` Vertex AI Agent Engine por minuto	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Eventos anexados a sesiones de Vertex AI Agent Engine por minuto	300	`aiplatform.googleapis.com/session_event_append_requests`
Cantidad máxima de recursos de Vertex AI Agent Engine	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Crear, borrar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Obtener, enumerar o recuperar información de Memory Bank de Vertex AI Agent Engine por minuto	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Solicitudes de ejecución por minuto en el entorno de zona de pruebas (ejecución de código)	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Entidades del entorno de zona de pruebas (ejecución de código) por región	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Solicitudes de escritura por minuto en el entorno de zona de pruebas (ejecución de código)	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
Solicitudes de publicación de agentes de A2A, como `sendMessage` y `cancelTask`, por minuto	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
Solicitudes GET de agentes de A2A, como `getTask` y `getCard`, por minuto	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Conexiones bidireccionales simultáneas en vivo que usan la API de `BidiStreamQuery` por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Predicción por lotes

Las cuotas y los límites de los trabajos de inferencia por lotes son los mismos en todas las regiones.

Límites de trabajos de inferencia por lotes simultáneos para los modelos de Gemini

No hay límites de cuota predefinidos para la inferencia por lotes de los modelos de Gemini. En cambio, el servicio por lotes proporciona acceso a un gran grupo compartido de recursos, asignados de forma dinámica según la disponibilidad y la demanda en tiempo real del modelo en todos los clientes que lo usan. Cuando más clientes estén activos y saturen la capacidad del modelo, es posible que tus solicitudes por lotes se pongan en cola por capacidad.

Cuotas de trabajos de inferencia por lotes simultáneos para modelos que no son de Gemini

En la siguiente tabla, se enumeran las cuotas para la cantidad de trabajos de inferencia por lotes simultáneos, que no se aplican a los modelos de Gemini:

Cuota	Valor
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

Si la cantidad de tareas enviadas excede la cuota asignada, las tareas se colocan en una cola y se procesan cuando la capacidad de la cuota está disponible.

Consulta y edita las cuotas en la consola de Google Cloud

Para ver y editar las cuotas en la consola de Google Cloud , haz lo siguiente:

Ve a la página Cuotas y límites del sistema.

Ir a Cuotas y límites del sistema

Para ajustar la cuota, copia y pega la propiedad aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs en el Filtro. Presiona Intro.
Haz clic en los tres puntos al final de la fila y selecciona Editar cuota.
Ingresa un valor de cuota nuevo en el panel y haz clic en Enviar solicitud.

Motor RAG en Gemini Enterprise Agent Platform

Para que cada servicio realice la generación mejorada por recuperación (RAG) con RAG Engine, se aplican las siguientes cuotas, que se miden como solicitudes por minuto (RPM).

Servicio	Cuota	Métrica
APIs de administración de datos de RAG Engine	60 RPM	`VertexRagDataService requests per minute per region`
API `RetrievalContexts`	600 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1,500 RPM	`Online prediction requests per base model per minute per region per base_model` Un filtro adicional que puedes especificar es `base_model: textembedding-gecko`

Se aplican los siguientes límites:

Servicio	Límite	Métrica
Solicitudes `ImportRagFiles` simultáneas	3 RPM	`VertexRagService concurrent import requests per region`
Cantidad máxima de archivos por solicitud de `ImportRagFiles`	10,000	`VertexRagService import rag files requests per region`

Para obtener más información sobre los límites de frecuencia y las cuotas, consulta los límites de frecuencia de la IA generativa en Gemini Enterprise Agent Platform.

Gen AI Evaluation Service

El Gen AI Evaluation Service usa Gemini 2.5 Flash como modelo de juez predeterminado para las métricas basadas en modelos. Una sola solicitud de evaluación para una métrica basada en modelos puede dar como resultado varias solicitudes subyacentes al Gen AI Evaluation Service. El consumo de cada modelo se calcula a nivel de la organización, lo que significa que cualquier solicitud dirigida al modelo de evaluación para la inferencia de modelo y la evaluación basada en modelos contribuyen al consumo del modelo. En la siguiente tabla, se muestran las cuotas del Gen AI Evaluation Service y del modelo de juez subyacente:

Cuota de solicitudes	Cuota predeterminada
Solicitudes de Gen AI Evaluation Service por minuto	1,000 solicitudes por proyecto y por región
Capacidad de procesamiento de Gemini	Depende del modelo y la opción de consumo
Ejecuciones de evaluación simultáneas	20 ejecuciones de evaluación simultáneas por proyecto y por región

Si recibes un error relacionado con las cuotas mientras usas el servicio de evaluación de IA generativa, es posible que debas presentar una solicitud de aumento de cuota. Consulta Visualiza y administra las cuotas para obtener más información.

Límite	Valor
Tiempo de espera de la solicitud de servicio de Gen AI Evaluation Service	60 segundos

Cuando usas el servicio de evaluación de IA generativa por primera vez en un proyecto nuevo, es posible que experimentes un retraso de configuración inicial de hasta dos minutos. Si tu primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en 60 segundos.

Los tokens de entrada y salida máximos para las métricas basadas en modelos dependen del modelo que se usa como modelo de juez. Consulta Modelos de Google para obtener una lista de modelos.

Cuotas de canalizaciones de Gemini Enterprise Agent Platform

Cada trabajo de ajuste usa canalizaciones de Gemini Enterprise Agent Platform. Para obtener más información, consulta Cuotas y límites de Agent Platform Pipelines.

¿Qué sigue?

Descripción general

Cuotas y límites del sistema de la IA generativa en Gemini Enterprise Agent Platform

Cuotas de modelos ajustados

Límites de embedding

Cuotas de Vertex AI Agent Engine

Predicción por lotes

Límites de trabajos de inferencia por lotes simultáneos para los modelos de Gemini

Cuotas de trabajos de inferencia por lotes simultáneos para modelos que no son de Gemini

Consulta y edita las cuotas en la consola de Google Cloud

Motor RAG en Gemini Enterprise Agent Platform

Gen AI Evaluation Service

Cuotas de canalizaciones de Gemini Enterprise Agent Platform

¿Qué sigue?

Standard PayGo

Cuotas y límites del sistema de Agent Platform

Cuotas de Google Cloud

Cuotas y límites del sistema de la IA generativa en Gemini Enterprise Agent Platform Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Cuotas de modelos ajustados

Límites de embedding

Cuotas de Vertex AI Agent Engine

Predicción por lotes

Límites de trabajos de inferencia por lotes simultáneos para los modelos de Gemini

Cuotas de trabajos de inferencia por lotes simultáneos para modelos que no son de Gemini

Consulta y edita las cuotas en la consola de Google Cloud

Motor RAG en Gemini Enterprise Agent Platform

Gen AI Evaluation Service

Cuotas de canalizaciones de Gemini Enterprise Agent Platform

¿Qué sigue?

Standard PayGo

Cuotas y límites del sistema de Agent Platform

Cuotas de Google Cloud

Cuotas y límites del sistema de la IA generativa en Gemini Enterprise Agent Platform