Cuotas y límites del sistema

En este documento, se enumeran las cuotas y los límites del sistema que se aplican a Vertex AI Agent Builder.

Las cuotas tienen valores predeterminados, pero, por lo general, puedes solicitar ajustes.
Los límites del sistema son valores fijos que no se pueden cambiar.

Google Cloud usa cuotas para garantizar la equidad y reducir los aumentos repentinos en el uso y la disponibilidad de los recursos. Una cuota restringe la cantidad de un recurso deGoogle Cloud que puede usar tu proyecto de Google Cloud . Las cuotas se aplican a una variedad de tipos de recursos, incluidos los componentes de hardware, software y red. Por ejemplo, las cuotas pueden restringir la cantidad de llamadas a la API para un servicio, la cantidad de balanceadores de cargas que se usan en simultáneo en tu proyecto o la cantidad de proyectos que puedes crear. Las cuotas protegen a la comunidad de usuarios deGoogle Cloud evitando la sobrecarga de los servicios. También te ayudan a administrar tus propios recursos de Google Cloud .

El sistema de cuotas de Cloud lleva a cabo las siguientes acciones:

Supervisa tu consumo de productos y servicios de Google Cloud
Restringe el consumo de esos recursos
Proporciona una forma de solicitar cambios en el valor de la cuota y automatizar los ajustes de la cuota

En la mayoría de los casos, cuando intentas consumir más de lo que permite la cuota de un recurso, el sistema bloquea el acceso al recurso y la tarea que intentas llevar a cabo falla.

Por lo general, las cuotas se aplican a nivel de proyecto de Google Cloud . El uso de un recurso en un proyecto no afecta tu cuota disponible en otro proyecto. En un proyecto de Google Cloud , las cuotas se comparten entre todas las aplicaciones y direcciones IP.

Para obtener más información, consulta la descripción general de cuotas de Cloud.

Cuotas de Vertex AI Agent Engine

Las siguientes cuotas se aplican a Vertex AI Agent Engine para un proyecto determinado en cada región:

Descripción	Cuota	Métrica
Crear, borrar o actualizar recursos de Agent Engine de Vertex AI por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Crear, borrar o actualizar sesiones de Vertex AI Agent Engine por minuto	100	`aiplatform.googleapis.com/session_write_requests`
`Query` o `StreamQuery` Vertex AI Agent Engine por minuto	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Eventos de anexión a sesiones de Vertex AI Agent Engine por minuto	300	`aiplatform.googleapis.com/session_event_append_requests`
Cantidad máxima de recursos de Vertex AI Agent Engine	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Crear, borrar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Obtener, enumerar o recuperar información de Memory Bank de Vertex AI Agent Engine por minuto	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Solicitudes de ejecución por minuto en el entorno de zona de pruebas (ejecución de código)	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Entidades de entorno de zona de pruebas (ejecución de código) por región	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Solicitudes de escritura por minuto en el entorno de zona de pruebas (ejecución de código)	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
Solicitudes de publicación de agentes de A2A, como `sendMessage` y `cancelTask` por minuto	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
Solicitudes GET de agentes de A2A, como `getTask` y `getCard`, por minuto	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Conexiones bidireccionales en vivo simultáneas que usan la API de `BidiStreamQuery` por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Administración de cuotas para cargas de producción

A medida que se escale tu tráfico, es probable que debas solicitar aumentos para cuotas específicas de la API de Vertex AI y evitar errores de 429 Resource Exhausted. Puedes configurar tu entorno de ejecución y aumentar tus cuotas de forma proactiva para que tu entorno de ejecución de Vertex AI Agent Engine siga siendo responsivo, escalable y confiable bajo la carga de producción.

Para obtener información sobre cómo optimizar y escalar el rendimiento del motor de ejecución de Vertex AI Agent Engine, consulta Optimiza y escala el rendimiento del motor de ejecución de Vertex AI Agent Engine.

Sigue estos pasos para estimar tus requisitos de cuota máxima:

Define tus variables:
- U: Usuarios simultáneos máximos (por ejemplo, 250)
- X: Promedio de solicitudes por usuario por minuto (por ejemplo, 2).
- Y: Es el promedio de eventos de sesión generados por solicitud (por ejemplo, 12 para una cadena compleja que involucra varias llamadas a herramientas).
Calcula tu carga máxima:
- Calcula tus consultas máximas por minuto (QPM): U * X
- Calcula tus eventos de sesión máxima por minuto: QPM máximo * Y
Solicita una cuota con un búfer: Cuando solicites un aumento de cuota, agrega un búfer (por ejemplo, un 50%) además del pico calculado para controlar los aumentos inesperados.

En la siguiente tabla, se muestran los cálculos de las cuotas clave relacionadas con el rendimiento de Vertex AI Agent Engine, con las variables de ejemplo peak concurrent users=250, average requests per user per minute=2 y average session events generated per request=12:

Nombre de la cuota Descripción de la cuota Cálculo básico (pico) Valor recomendado (con un 50% de búfer)

Motor del agente de consultas por minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) Es la cantidad total de llamadas a query o stream_query que tu agente puede recibir por minuto. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750

Nombre de la cuota	Descripción de la cuota	Cálculo básico (pico)	Valor recomendado (con un 50% de búfer)
Motor del agente de consultas por minuto (`aiplatform.googleapis.com/reasoning_engine_service_query_requests`)	Es la cantidad total de llamadas a `query` o `stream_query` que tu agente puede recibir por minuto.	`250 users * 2 req/min = 500 QPM`	`500 * 1.5 =` `750`
Agrega eventos de sesión por minuto (`aiplatform.googleapis.com/session_event_append_requests`)	Es la cantidad de turnos o eventos en todas las sesiones en curso. Una sola búsqueda puede generar varios eventos de sesión en una cadena, por ejemplo: Llama al LLM. Respuesta del LLM: Usa la herramienta. Ejecuta la herramienta. Llama al LLM con la respuesta de la herramienta. El LLM proporciona la respuesta final.	`500 QPM * 12 events/req = 6,000`	`6,000 * 1.5 =` `9,000`
Operaciones de escritura de sesión por minuto (`aiplatform.googleapis.com/session_write_requests`)	Es la tasa de creación o actualización de recursos de sesión. Por lo general, este valor es menor o igual que la tasa de consultas.	Por lo general, es menor o igual al QPM máximo (`500`).	Por lo general, es menor o igual que la cuota de búsquedas (`750`).

Agrega eventos de sesión por minuto (aiplatform.googleapis.com/session_event_append_requests)

Es la cantidad de turnos o eventos en todas las sesiones en curso. Una sola búsqueda puede generar varios eventos de sesión en una cadena, por ejemplo:

Llama al LLM.
Respuesta del LLM: Usa la herramienta.
Ejecuta la herramienta.
Llama al LLM con la respuesta de la herramienta.
El LLM proporciona la respuesta final.

500 QPM * 12 events/req = 6,000

6,000 * 1.5 = 9,000

Operaciones de escritura de sesión por minuto (aiplatform.googleapis.com/session_write_requests) Es la tasa de creación o actualización de recursos de sesión. Por lo general, este valor es menor o igual que la tasa de consultas. Por lo general, es menor o igual al QPM máximo (500). Por lo general, es menor o igual que la cuota de búsquedas (750).

Solicita un ajuste de cuota

Para ajustar la mayoría de las cuotas, usa la consola de Google Cloud . Para obtener más información, consulta Solicita un ajuste de cuota.

Cuotas del modo Express de Vertex AI Agent Engine

Los usuarios del modo Exprés del nivel gratuito de Vertex AI tienen los siguientes límites de cuota para los servicios de Vertex AI Agent Engine sin costo. Consulta la descripción general de Vertex AI en modo Express para obtener más información sobre el nivel gratuito y el modo Express. Las siguientes cuotas se aplican a Vertex AI Agent Engine para un proyecto en modo exprés determinado en cada región:

Descripción	Cuota	Métrica
Cantidad máxima de recursos de Vertex AI Agent Engine	10	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Crear, borrar o actualizar recursos de Agent Engine de Vertex AI por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
`Query` o `StreamQuery` Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Conexiones bidireccionales en vivo simultáneas que usan la API de `BidiStreamQuery` por minuto	1	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`
Crear, borrar o actualizar sesiones de Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/session_write_requests`
Eventos de anexión a sesiones de Vertex AI Agent Engine por minuto	30	`aiplatform.googleapis.com/session_event_append_requests`
Crear, borrar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/memory_bank_write_requests`
Obtener, enumerar o recuperar información de Memory Bank de Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/memory_bank_read_requests`