Cuotas y límites del sistema de la IA generativa en Gemini Enterprise Agent Platform

En esta página, se proporciona una lista de las cuotas por región y modelo, y se muestra cómo ver y editar tus cuotas en la consola de Google Cloud .

Cuotas de modelos ajustados

La inferencia del modelo ajustado comparte la misma cuota que el modelo base. No hay una cuota independiente para la inferencia del modelo ajustado.

Límites de embedding

Las solicitudes de gemini-embedding-001 están sujetas a cuotas regionales, mientras que las solicitudes de gemini-embedding-2 están sujetas a cuotas globales.
Modelo base Cuota Métrica
base_model: gemini-embedding 5,000,000 aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model
base_model: gemini-embedding-2 10,000,000 aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model
base_model: gemini-embedding-2 40,000 aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model

Las solicitudes de gemini-embedding-001 que usan la API de predict también están sujetas a las siguientes cuotas:

Modelo base Cuota Métrica
base_model: gemini-embedding 100,000 aiplatform.googleapis.com/online_prediction_requests_per_base_model
base_model: N/A 30,000 aiplatform.googleapis.com/online_prediction_requests

Cuotas de Vertex AI Agent Engine

Las siguientes cuotas se aplican a Vertex AI Agent Engine para un proyecto determinado en cada región:
Descripción Cuota Métrica
Crear, borrar o actualizar recursos de Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Crear, borrar o actualizar sesiones de Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/session_write_requests
Obtén, enumera o recupera sesiones de Vertex AI Agent Engine por minuto 10000 aiplatform.googleapis.com/session_read_requests
Query o StreamQuery Vertex AI Agent Engine por minuto 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Eventos anexados a sesiones de Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/session_event_append_requests
Cantidad máxima de recursos de Vertex AI Agent Engine 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Crear, borrar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/memory_bank_write_requests
Obtener, enumerar o recuperar información de Memory Bank de Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/memory_bank_read_requests
Solicitudes de ejecución por minuto en el entorno de zona de pruebas (ejecución de código) 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Entidades del entorno de zona de pruebas (ejecución de código) por región 1000 aiplatform.googleapis.com/sandbox_environment_entities
Solicitudes de escritura por minuto en el entorno de zona de pruebas (ejecución de código) 500 aiplatform.googleapis.com/sandbox_environment_write_requests
Solicitudes de publicación de agentes de A2A, como sendMessage y cancelTask, por minuto 60 aiplatform.googleapis.com/a2a_agent_post_requests
Solicitudes GET de agentes de A2A, como getTask y getCard, por minuto 600 aiplatform.googleapis.com/a2a_agent_get_requests
Conexiones bidireccionales simultáneas en vivo que usan la API de BidiStreamQuery por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Predicción por lotes

Las cuotas y los límites de los trabajos de inferencia por lotes son los mismos en todas las regiones.

Límites de trabajos de inferencia por lotes simultáneos para los modelos de Gemini

No hay límites de cuota predefinidos para la inferencia por lotes de los modelos de Gemini. En cambio, el servicio por lotes proporciona acceso a un gran grupo compartido de recursos, asignados de forma dinámica según la disponibilidad y la demanda en tiempo real del modelo en todos los clientes que lo usan. Cuando más clientes estén activos y saturen la capacidad del modelo, es posible que tus solicitudes por lotes se pongan en cola por capacidad.

Cuotas de trabajos de inferencia por lotes simultáneos para modelos que no son de Gemini

En la siguiente tabla, se enumeran las cuotas para la cantidad de trabajos de inferencia por lotes simultáneos, que no se aplican a los modelos de Gemini:
Cuota Valor
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
Si la cantidad de tareas enviadas excede la cuota asignada, las tareas se colocan en una cola y se procesan cuando la capacidad de la cuota está disponible.

Consulta y edita las cuotas en la consola de Google Cloud

Para ver y editar las cuotas en la consola de Google Cloud , haz lo siguiente:
  1. Ve a la página Cuotas y límites del sistema.
  2. Ir a Cuotas y límites del sistema

  3. Para ajustar la cuota, copia y pega la propiedad aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs en el Filtro. Presiona Intro.
  4. Haz clic en los tres puntos al final de la fila y selecciona Editar cuota.
  5. Ingresa un valor de cuota nuevo en el panel y haz clic en Enviar solicitud.

Motor RAG en Gemini Enterprise Agent Platform

Para que cada servicio realice la generación mejorada por recuperación (RAG) con RAG Engine, se aplican las siguientes cuotas, que se miden como solicitudes por minuto (RPM).
Servicio Cuota Métrica
APIs de administración de datos de RAG Engine 60 RPM VertexRagDataService requests per minute per region
API RetrievalContexts 600 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

Un filtro adicional que puedes especificar es base_model: textembedding-gecko
Se aplican los siguientes límites:
Servicio Límite Métrica
Solicitudes ImportRagFiles simultáneas 3 RPM VertexRagService concurrent import requests per region
Cantidad máxima de archivos por solicitud de ImportRagFiles 10,000 VertexRagService import rag files requests per region

Para obtener más información sobre los límites de frecuencia y las cuotas, consulta los límites de frecuencia de la IA generativa en Gemini Enterprise Agent Platform.

Gen AI Evaluation Service

El Gen AI Evaluation Service usa Gemini 2.5 Flash como modelo de juez predeterminado para las métricas basadas en modelos. Una sola solicitud de evaluación para una métrica basada en modelos puede dar como resultado varias solicitudes subyacentes al Gen AI Evaluation Service. El consumo de cada modelo se calcula a nivel de la organización, lo que significa que cualquier solicitud dirigida al modelo de evaluación para la inferencia de modelo y la evaluación basada en modelos contribuyen al consumo del modelo. En la siguiente tabla, se muestran las cuotas del Gen AI Evaluation Service y del modelo de juez subyacente:
Cuota de solicitudes Cuota predeterminada
Solicitudes de Gen AI Evaluation Service por minuto 1,000 solicitudes por proyecto y por región
Capacidad de procesamiento de Gemini Depende del modelo y la opción de consumo
Ejecuciones de evaluación simultáneas 20 ejecuciones de evaluación simultáneas por proyecto y por región

Si recibes un error relacionado con las cuotas mientras usas el servicio de evaluación de IA generativa, es posible que debas presentar una solicitud de aumento de cuota. Consulta Visualiza y administra las cuotas para obtener más información.

Límite Valor
Tiempo de espera de la solicitud de servicio de Gen AI Evaluation Service 60 segundos

Cuando usas el servicio de evaluación de IA generativa por primera vez en un proyecto nuevo, es posible que experimentes un retraso de configuración inicial de hasta dos minutos. Si tu primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en 60 segundos.

Los tokens de entrada y salida máximos para las métricas basadas en modelos dependen del modelo que se usa como modelo de juez. Consulta Modelos de Google para obtener una lista de modelos.

Cuotas de canalizaciones de Gemini Enterprise Agent Platform

Cada trabajo de ajuste usa canalizaciones de Gemini Enterprise Agent Platform. Para obtener más información, consulta Cuotas y límites de Agent Platform Pipelines.

¿Qué sigue?

Descripción general

Obtén más información sobre Standard PayGo, una opción de consumo de la Agent Platform que te permite pagar solo por los recursos que consumes, sin necesidad de compromisos financieros por adelantado.

Recurso

Son las cuotas y los límites del sistema relacionados con Agent Platform, sin incluir las cuotas y los límites del sistema específicos de cada producto.

Descripción general

Obtén información sobre cómo Google Cloud restringe la cantidad de recursos que puede usar tu proyecto de Google Cloud y cómo se aplican las cuotas a una variedad de tipos de recursos, incluidos los componentes de hardware, software y red.