Cuotas y límites del sistema de la IA generativa en Agent Platform de Gemini Enterprise

En esta página, se proporciona una lista de cuotas por región y modelo, y se muestra cómo ver y editar tus cuotas en la Google Cloud consola de.

Cuotas de modelos ajustados

La inferencia de modelos ajustados comparte la misma cuota que el modelo base. No hay una cuota independiente para la inferencia de modelos ajustados.

Límites de embeddings

Las solicitudes de gemini-embedding-001 están sujetas a cuotas regionales, mientras que las solicitudes de gemini-embedding-2 están sujetas a cuotas globales.
Modelo base Quota Métrica
base_model: gemini-embedding 5,000,000 aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model
base_model: gemini-embedding-2 10,000,000 aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model
base_model: gemini-embedding-2 40,000 aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model

Las solicitudes de gemini-embedding-001 que usan la API de predict también están sujetas a las siguientes cuotas:

Modelo base Quota Métrica
base_model: gemini-embedding 100,000 aiplatform.googleapis.com/online_prediction_requests_per_base_model
base_model: N/A 30,000 aiplatform.googleapis.com/online_prediction_requests

Cuotas de Vertex AI Agent Engine

Las siguientes cuotas se aplican a Vertex AI Agent Engine para un proyecto determinado en cada región:
Descripción Quota Métrica
Crea, borra o actualiza recursos de Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Crea, borra o actualiza sesiones de Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/session_write_requests
Obtén, enumera o recupera sesiones de Vertex AI Agent Engine por minuto 10000 aiplatform.googleapis.com/session_read_requests
Query o StreamQuery Vertex AI Agent Engine por minuto 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Agrega un evento a las sesiones de Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/session_event_append_requests
Cantidad máxima de recursos de Vertex AI Agent Engine 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Crea, borra o actualiza recursos de memoria de Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/memory_bank_write_requests
Obtén, enumera o recupera de Memory Bank de Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/memory_bank_read_requests
Solicitudes de ejecución del entorno de zona de pruebas (ejecución de código) por minuto 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Entidades del entorno de zona de pruebas (ejecución de código) por región 1000 aiplatform.googleapis.com/sandbox_environment_entities
Solicitudes de escritura del entorno de zona de pruebas (ejecución de código) por minuto 500 aiplatform.googleapis.com/sandbox_environment_write_requests
Solicitudes de publicación de agentes A2A, como sendMessage y cancelTask por minuto 60 aiplatform.googleapis.com/a2a_agent_post_requests
Solicitudes de obtención de agentes A2A, como getTask y getCard por minuto 600 aiplatform.googleapis.com/a2a_agent_get_requests
Conexiones bidireccionales en vivo simultáneas con la BidiStreamQuery API por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Predicción por lotes

Las cuotas y los límites de los trabajos de inferencia por lotes son los mismos en todas las regiones.

Límites de trabajos de inferencia por lotes simultáneos para modelos de Gemini

No hay límites de cuota predefinidos en la inferencia por lotes para los modelos de Gemini. En cambio, el servicio por lotes proporciona acceso a un grupo grande y compartido de recursos, asignados de forma dinámica según la disponibilidad y la demanda en tiempo real del modelo en todos los clientes para ese modelo. Cuando más clientes están activos y saturan la capacidad del modelo, es posible que tus solicitudes por lotes se pongan en cola para obtener capacidad.

Cuotas de trabajos de inferencia por lotes simultáneos para modelos que no son de Gemini

En la siguiente tabla, se enumeran las cuotas de la cantidad de trabajos de inferencia por lotes simultáneos, que no se aplican a los modelos de Gemini:
Quota Valor
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
Si la cantidad de tareas enviadas excede la cuota asignada, las tareas se colocan en una cola y se procesan cuando la capacidad de la cuota está disponible.

Consulta y edita las cuotas en la Google Cloud consola de

Para ver y editar las cuotas en la Google Cloud consola, haz lo siguiente:
  1. Ve a la página Cuotas y límites del sistema.
  2. Ir a Cuotas y límites del sistema

  3. Para ajustar la cuota, copia y pega la propiedad aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs en el Filtro. Presiona Intro.
  4. Haz clic en los tres puntos al final de la fila y selecciona Editar cuota.
  5. Ingresa un valor de cuota nuevo en el panel y haz clic en Enviar solicitud.

Vertex AI RAG Engine

Para que cada servicio realice la generación mejorada por recuperación (RAG) con RAG Engine, se aplican las siguientes cuotas, con la cuota medida como solicitudes por minuto (RPM).
Servicio Quota Métrica
APIs de administración de datos de RAG Engine 60 RPM VertexRagDataService requests per minute per region
API de RetrievalContexts 600 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

Un filtro adicional que puedes especificar es base_model: textembedding-gecko
Se aplican los siguientes límites:
Servicio Límite Métrica
Solicitudes ImportRagFiles simultáneas 3 RPM VertexRagService concurrent import requests per region
Cantidad máxima de archivos por solicitud ImportRagFiles 10,000 VertexRagService import rag files requests per region

Para obtener más límites de frecuencia y cuotas, consulta IA generativa en los límites de frecuencia de Gemini Enterprise Agent Platform .

Gen AI Evaluation Service

Gen AI Evaluation Service usa Gemini 2.5 Flash como modelo de juez predeterminado para las métricas basadas en modelos. Una sola solicitud de evaluación para una métrica basada en modelos puede dar como resultado varias solicitudes subyacentes al Gen AI Evaluation Service. El consumo de cada modelo se calcula a nivel de la organización, lo que significa que cualquier solicitud dirigida al modelo de juez para la inferencia de modelos y la evaluación basada en modelos contribuye al consumo del modelo. Las cuotas de Gen AI Evaluation Service y el modelo de juez subyacente se muestran en la siguiente tabla:
Cuota de solicitudes Cuota predeterminada
Solicitudes de Gen AI Evaluation Service por minuto 1,000 solicitudes por proyecto y por región
Rendimiento de Gemini Depende del modelo y la opción de consumo
Ejecuciones de evaluación simultáneas 20 ejecuciones de evaluación simultáneas por proyecto y por región

Si recibes un error relacionado con las cuotas mientras usas Gen AI Evaluation Service, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información.

Límite Valor
Tiempo de espera de la solicitud de servicio de Gen AI Evaluation Service 60 segundos

Cuando usas Gen AI Evaluation Service por primera vez en un proyecto nuevo, es posible que experimentes un retraso de configuración inicial de hasta dos minutos. Si tu primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en 60 segundos.

Los tokens de entrada y salida máximos para las métricas basadas en modelos dependen del modelo que se usa como modelo de juez. Consulta Modelos de Google para obtener una lista de modelos.

Cuotas de Gemini Enterprise Agent Platform Pipelines

Cada trabajo de ajuste usa Gemini Enterprise Agent Platform Pipelines. Para obtener más información, consulta Cuotas y límites de Agent Platform Pipelines.

¿Qué sigue?

Descripción general

Obtén información sobre PayGo estándar, una opción de consumo de Agent Platform que te permite pagar solo por los recursos que consumes, sin necesidad de compromisos financieros iniciales.

Recurso

Cuotas y límites del sistema relacionados con Agent Platform, excluidas las cuotas y los límites del sistema específicos del producto.

Descripción general

Obtén información sobre cómo Google Cloud restringe la cantidad de un recurso que puede usar tu proyecto de Google Cloud y cómo se aplican las cuotas a una variedad de tipos de recursos, incluidos los componentes de hardware, software y red.