Cuotas y límites del sistema

En este documento, se enumeran las cuotas y los límites del sistema que se aplican a Vertex AI Agent Builder.

  • Las cuotas tienen valores predeterminados, pero, por lo general, puedes solicitar ajustes.
  • Los límites del sistema son valores fijos que no se pueden cambiar.

Google Cloud usa cuotas para garantizar la equidad y reducir los aumentos repentinos en el uso y la disponibilidad de los recursos. Una cuota restringe la cantidad de un recurso deGoogle Cloud que puede usar tu proyecto de Google Cloud . Las cuotas se aplican a una variedad de tipos de recursos, incluidos los componentes de hardware, software y red. Por ejemplo, las cuotas pueden restringir la cantidad de llamadas a la API para un servicio, la cantidad de balanceadores de cargas que se usan en simultáneo en tu proyecto o la cantidad de proyectos que puedes crear. Las cuotas protegen a la comunidad de usuarios deGoogle Cloud evitando la sobrecarga de los servicios. También te ayudan a administrar tus propios recursos de Google Cloud .

El sistema de cuotas de Cloud lleva a cabo las siguientes acciones:

En la mayoría de los casos, cuando intentas consumir más de lo que permite la cuota de un recurso, el sistema bloquea el acceso al recurso y la tarea que intentas llevar a cabo falla.

Por lo general, las cuotas se aplican a nivel de proyecto de Google Cloud . El uso de un recurso en un proyecto no afecta tu cuota disponible en otro proyecto. Dentro de un proyecto de Google Cloud , las cuotas se comparten entre todas las aplicaciones y direcciones IP.

Para obtener más información, consulta la descripción general de cuotas de Cloud.

Cuotas de Vertex AI Agent Engine

Las siguientes cuotas se aplican a Vertex AI Agent Engine para un proyecto determinado en cada región:
Descripción Cuota Métrica
Crear, borrar o actualizar recursos de Agent Engine de Vertex AI por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Crear, borrar o actualizar sesiones de Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/session_write_requests
Query o StreamQuery Vertex AI Agent Engine por minuto 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Eventos de anexión a sesiones de Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/session_event_append_requests
Cantidad máxima de recursos de Vertex AI Agent Engine 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Crear, borrar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/memory_bank_write_requests
Obtener, enumerar o recuperar información de Memory Bank de Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/memory_bank_read_requests
Solicitudes de ejecución por minuto en el entorno de zona de pruebas (ejecución de código) 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Entidades de entorno de zona de pruebas (ejecución de código) por región 1000 aiplatform.googleapis.com/sandbox_environment_entities
Solicitudes de publicación de agentes de A2A, como sendMessage y cancelTask por minuto 60 aiplatform.googleapis.com/a2a_agent_post_requests
Solicitudes GET de agentes de A2A, como getTask y getCard, por minuto 600 aiplatform.googleapis.com/a2a_agent_get_requests
Conexiones bidireccionales en vivo simultáneas que usan la API de BidiStreamQuery por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Administración de cuotas para cargas de producción

A medida que se escale tu tráfico, es probable que debas solicitar aumentos para cuotas específicas de la API de Vertex AI y evitar errores de 429 Resource Exhausted. Puedes configurar tu entorno de ejecución y aumentar tus cuotas de forma proactiva para que tu entorno de ejecución de Vertex AI Agent Engine siga siendo responsivo, escalable y confiable bajo la carga de producción.

Para obtener información sobre cómo optimizar y escalar el rendimiento del motor de ejecución de Vertex AI Agent Engine, consulta Optimiza y escala el rendimiento del motor de ejecución de Vertex AI Agent Engine.

Sigue estos pasos para estimar tus requisitos de cuota máxima:

  1. Define tus variables:

    • U: Usuarios simultáneos máximos (por ejemplo, 250)

    • X: Promedio de solicitudes por usuario por minuto (por ejemplo, 2).

    • Y: Es el promedio de eventos de sesión generados por solicitud (por ejemplo, 12 para una cadena compleja que involucra varias llamadas a herramientas).

  2. Calcula tu carga máxima:

    • Calcula tus consultas máximas por minuto (QPM): U * X

    • Calcula tus eventos de sesión máximos por minuto: QPM máximo * Y

  3. Solicita una cuota con un búfer: Cuando solicites un aumento de cuota, agrega un búfer (por ejemplo, un 50%) además del pico calculado para controlar los aumentos inesperados.

En la siguiente tabla, se muestran los cálculos de las cuotas clave relacionadas con el rendimiento de Vertex AI Agent Engine, con las variables de ejemplo peak concurrent users=250, average requests per user per minute=2 y average session events generated per request=12:

Nombre de la cuota Descripción de la cuota Cálculo básico (pico) Valor recomendado (con un 50% de búfer)
Motor de agentes de consultas por minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) Es la cantidad total de llamadas de query o stream_query que tu agente puede recibir por minuto. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750
Agrega eventos de sesión por minuto (aiplatform.googleapis.com/session_event_append_requests)

Es la cantidad de turnos o eventos en todas las sesiones en curso. Una sola búsqueda puede generar varios eventos de sesión en una cadena, por ejemplo:

  1. Llama al LLM.
  2. Respuesta del LLM: Usa la herramienta.
  3. Ejecuta la herramienta.
  4. Llama al LLM con la respuesta de la herramienta.
  5. El LLM proporciona la respuesta final.
500 QPM * 12 events/req = 6,000 6,000 * 1.5 = 9,000
Operaciones de escritura de sesión por minuto (aiplatform.googleapis.com/session_write_requests) Es la tasa de creación o actualización de recursos de sesión. Por lo general, este valor es menor o igual que la tasa de consultas. Por lo general, es menor o igual al QPM máximo (500). Por lo general, es menor o igual que la cuota de búsquedas (750).

Solicita un ajuste de cuota

Para ajustar la mayoría de las cuotas, usa la consola de Google Cloud . Para obtener más información, consulta Solicita un ajuste de cuota.

Cuotas del modo Express de Vertex AI Agent Engine

Los usuarios del modo Exprés del nivel gratuito de Vertex AI tienen los siguientes límites de cuota para los servicios de Vertex AI Agent Engine sin costo. Consulta la descripción general de Vertex AI en modo Express para obtener más información sobre el nivel gratuito y el modo Express. Las siguientes cuotas se aplican a Vertex AI Agent Engine para un proyecto en modo exprés determinado en cada región:
Descripción Cuota Métrica
Cantidad máxima de recursos de Vertex AI Agent Engine 10 aiplatform.googleapis.com/reasoning_engine_service_entities
Crear, borrar o actualizar recursos de Agent Engine de Vertex AI por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Query o StreamQuery Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Conexiones bidireccionales en vivo simultáneas que usan la API de BidiStreamQuery por minuto 1 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
Crear, borrar o actualizar sesiones de Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/session_write_requests
Eventos de anexión a sesiones de Vertex AI Agent Engine por minuto 30 aiplatform.googleapis.com/session_event_append_requests
Crear, borrar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/memory_bank_write_requests
Obtener, enumerar o recuperar información de Memory Bank de Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/memory_bank_read_requests