Cuotas y límites del sistema

En este documento se indican las cuotas y los límites del sistema que se aplican a Vertex AI Agent Builder.

  • Las cuotas tienen valores predeterminados, pero normalmente puedes solicitar ajustes.
  • Los límites del sistema son valores fijos que no se pueden cambiar.

Google Cloud usa cuotas para garantizar la equidad y reducir los picos en el uso y la disponibilidad de los recursos. Una cuota restringe la cantidad de unGoogle Cloud recurso que puede usar tu Google Cloud proyecto. Las cuotas se aplican a una serie de tipos de recursos, incluidos componentes de hardware, software y red. Por ejemplo, las cuotas pueden restringir el número de llamadas a una API enviadas a un servicio, el número de balanceadores de carga que usa tu proyecto de forma simultánea o el número de proyectos que puedes crear. Las cuotas protegen a la comunidad de usuarios deGoogle Cloud al evitar que se sobrecarguen los servicios. Las cuotas también te ayudan a gestionar tus propios Google Cloud recursos.

El sistema de cuotas de Cloud hace lo siguiente:

En la mayoría de los casos, cuando intentas consumir más recursos de los que permite la cuota, el sistema bloquea el acceso al recurso y la tarea que intentas realizar falla.

Las cuotas se aplican generalmente a nivel de Google Cloud proyecto. El uso que hagas de un recurso en un proyecto no afectará a la cuota disponible en otro proyecto. En un Google Cloud proyecto, las cuotas se comparten entre todas las aplicaciones y direcciones IP.

Para obtener más información, consulta la descripción general de las cuotas de Cloud.

Cuotas de Vertex AI Agent Engine

Las siguientes cuotas se aplican a Vertex AI Agent Engine de un proyecto concreto en cada región:
Descripción Cuota Métrica
Crear, eliminar o actualizar recursos de Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Crear, eliminar o actualizar sesiones de Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/session_write_requests
Query o StreamQuery Vertex AI Agent Engine por minuto 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Añadir eventos a las sesiones de Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/session_event_append_requests
Número máximo de recursos de Vertex AI Agent Engine 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Crear, eliminar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/memory_bank_write_requests
Obtener, enumerar o recuperar datos de Memory Bank de Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/memory_bank_read_requests
Solicitudes de ejecución por minuto del entorno de pruebas (ejecución de código) 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Entidades de entorno aislado (ejecución de código) por región 1000 aiplatform.googleapis.com/sandbox_environment_entities
Solicitudes POST de agente A2A, como sendMessage y cancelTask, por minuto 60 aiplatform.googleapis.com/a2a_agent_post_requests
Solicitudes get de agente de A2A, como getTask y getCard, por minuto 600 aiplatform.googleapis.com/a2a_agent_get_requests
Conexiones bidireccionales simultáneas en directo mediante la API BidiStreamQuery por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Gestión de cuotas para cargas de producción

A medida que aumente el tráfico, es probable que tengas que solicitar aumentos de cuota para APIs de Vertex AI específicas si quieres evitar errores 429 Resource Exhausted. Puedes configurar tu tiempo de ejecución y aumentar tus cuotas de forma proactiva para que tu tiempo de ejecución de Vertex AI Agent Engine siga siendo adaptable, escalable y fiable en condiciones de carga de producción.

Para obtener información sobre cómo optimizar y escalar el rendimiento de Vertex AI Agent Engine, consulta Optimizar y escalar el rendimiento del tiempo de ejecución de Vertex AI Agent Engine.

Sigue estos pasos para estimar los requisitos de cuota máxima:

  1. Define las variables:

    • U: pico de usuarios simultáneos (por ejemplo, 250).

    • X: media de solicitudes por usuario y minuto (por ejemplo, 2).

    • Y: media de eventos de sesión generados por solicitud (por ejemplo, 12 en una cadena compleja que implica varias llamadas a herramientas).

  2. Calcula tu carga máxima:

    • Calcula el número máximo de consultas por minuto (QPM): U * X

    • Calcula los eventos de sesión máximos por minuto: pico de consultas por minuto × Y

  3. Solicita una cuota con un margen: cuando solicites un aumento de cuota, añade un margen (por ejemplo, un 50%) por encima del pico calculado para gestionar los picos inesperados.

En la siguiente tabla se muestran los cálculos de las cuotas clave relacionadas con el rendimiento de Vertex AI Agent Engine. Para ello, se usan las variables de ejemplo peak concurrent users=250, average requests per user per minute=2 y average session events generated per request=12:

Nombre de la cuota Descripción de la cuota Cálculo base (pico) Valor recomendado (con un margen del 50 %)
Consultar Agent Engine por minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) Número total de llamadas query o stream_query que puede recibir tu agente por minuto. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750
Añadir eventos de sesión por minuto (aiplatform.googleapis.com/session_event_append_requests)

Número de turnos o eventos de todas las sesiones en curso. Una sola consulta puede generar varios eventos de sesión en una cadena, como se muestra en el siguiente ejemplo:

  1. Llama a LLM.
  2. Respuesta del LLM: usa la herramienta.
  3. Ejecuta la herramienta.
  4. Llama al LLM con la respuesta de la herramienta.
  5. El LLM da la respuesta final.
500 QPM * 12 events/req = 6,000 6,000 * 1.5 = 9,000
Escrituras de sesión por minuto (aiplatform.googleapis.com/session_write_requests) La frecuencia de creación o actualización de recursos de sesión. Normalmente, es menor o igual que la tasa de consultas. Normalmente, es igual o inferior al QPM máximo (500). Normalmente, es igual o inferior a la cuota de consultas (750).

Solicitar un ajuste de cuota

Para ajustar la mayoría de las cuotas, usa la Google Cloud consola. Para obtener más información, consulta Solicitar un ajuste de cuota.

Cuotas del modo Express de Vertex AI Agent Engine

Los usuarios del modo Exprés del nivel gratuito de Vertex AI tienen las siguientes cuotas para los servicios de Vertex AI Agent Engine sin coste económico. Consulta la descripción general de Vertex AI en modo Express para obtener más información sobre el nivel gratuito y el modo Express. Las siguientes cuotas se aplican a Vertex AI Agent Engine de un proyecto en modo exprés concreto de cada región:
Descripción Cuota Métrica
Número máximo de recursos de Vertex AI Agent Engine 10 aiplatform.googleapis.com/reasoning_engine_service_entities
Crear, eliminar o actualizar recursos de Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Query o StreamQuery Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Conexiones bidireccionales simultáneas en directo mediante la API BidiStreamQuery por minuto 1 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
Crear, eliminar o actualizar sesiones de Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/session_write_requests
Añadir eventos a las sesiones de Vertex AI Agent Engine por minuto 30 aiplatform.googleapis.com/session_event_append_requests
Crear, eliminar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/memory_bank_write_requests
Obtener, enumerar o recuperar datos de Memory Bank de Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/memory_bank_read_requests