En este documento, se enumeran las cuotas y los límites del sistema que se aplican a Vertex AI Agent Builder.
- Las cuotas tienen valores predeterminados, pero, por lo general, puedes solicitar ajustes.
- Los límites del sistema son valores fijos que no se pueden cambiar.
Google Cloud usa cuotas para garantizar la equidad y reducir los aumentos repentinos en el uso y la disponibilidad de los recursos. Una cuota restringe la cantidad de un recurso deGoogle Cloud que puede usar tu proyecto de Google Cloud . Las cuotas se aplican a una variedad de tipos de recursos, incluidos los componentes de hardware, software y red. Por ejemplo, las cuotas pueden restringir la cantidad de llamadas a la API para un servicio, la cantidad de balanceadores de cargas que se usan en simultáneo en tu proyecto o la cantidad de proyectos que puedes crear. Las cuotas protegen a la comunidad de usuarios deGoogle Cloud evitando la sobrecarga de los servicios. También te ayudan a administrar tus propios recursos de Google Cloud .
El sistema de cuotas de Cloud lleva a cabo las siguientes acciones:
- Supervisa tu consumo de productos y servicios de Google Cloud
- Restringe el consumo de esos recursos
- Proporciona una forma de solicitar cambios en el valor de la cuota y automatizar los ajustes de la cuota
En la mayoría de los casos, cuando intentas consumir más de lo que permite la cuota de un recurso, el sistema bloquea el acceso al recurso y la tarea que intentas llevar a cabo falla.
Por lo general, las cuotas se aplican a nivel de proyecto de Google Cloud . El uso de un recurso en un proyecto no afecta tu cuota disponible en otro proyecto. Dentro de un proyecto de Google Cloud , las cuotas se comparten entre todas las aplicaciones y direcciones IP.
Para obtener más información, consulta la descripción general de cuotas de Cloud.
Cuotas de Vertex AI Agent Engine
Las siguientes cuotas se aplican a Vertex AI Agent Engine para un proyecto determinado en cada región:| Descripción | Cuota | Métrica |
|---|---|---|
| Crear, borrar o actualizar recursos de Agent Engine de Vertex AI por minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Crear, borrar o actualizar sesiones de Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/session_write_requests |
Query o StreamQuery Vertex AI Agent Engine por minuto |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Eventos de anexión a sesiones de Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Cantidad máxima de recursos de Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Crear, borrar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Obtener, enumerar o recuperar información de Memory Bank de Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Solicitudes de ejecución por minuto en el entorno de zona de pruebas (ejecución de código) | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entidades de entorno de zona de pruebas (ejecución de código) por región | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
Solicitudes de publicación de agentes de A2A, como sendMessage y cancelTask por minuto |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Solicitudes GET de agentes de A2A, como getTask y getCard, por minuto |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Conexiones bidireccionales en vivo simultáneas que usan la API de BidiStreamQuery por minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Administración de cuotas para cargas de producción
A medida que se escale tu tráfico, es probable que debas solicitar aumentos para cuotas específicas de la API de Vertex AI y evitar errores de 429 Resource Exhausted. Puedes configurar tu entorno de ejecución y aumentar tus cuotas de forma proactiva para que tu entorno de ejecución de Vertex AI Agent Engine siga siendo responsivo, escalable y confiable bajo la carga de producción.
Para obtener información sobre cómo optimizar y escalar el rendimiento del motor de ejecución de Vertex AI Agent Engine, consulta Optimiza y escala el rendimiento del motor de ejecución de Vertex AI Agent Engine.
Sigue estos pasos para estimar tus requisitos de cuota máxima:
Define tus variables:
U: Usuarios simultáneos máximos (por ejemplo, 250)X: Promedio de solicitudes por usuario por minuto (por ejemplo, 2).Y: Es el promedio de eventos de sesión generados por solicitud (por ejemplo, 12 para una cadena compleja que involucra varias llamadas a herramientas).
Calcula tu carga máxima:
Calcula tus consultas máximas por minuto (QPM): U * X
Calcula tus eventos de sesión máximos por minuto: QPM máximo * Y
Solicita una cuota con un búfer: Cuando solicites un aumento de cuota, agrega un búfer (por ejemplo, un 50%) además del pico calculado para controlar los aumentos inesperados.
En la siguiente tabla, se muestran los cálculos de las cuotas clave relacionadas con el rendimiento de Vertex AI Agent Engine, con las variables de ejemplo peak concurrent users=250, average requests per user per minute=2 y average session events generated
per request=12:
| Nombre de la cuota | Descripción de la cuota | Cálculo básico (pico) | Valor recomendado (con un 50% de búfer) |
|---|---|---|---|
Motor de agentes de consultas por minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) |
Es la cantidad total de llamadas de query o stream_query que tu agente puede recibir por minuto. |
250 users * 2 req/min = 500 QPM |
500 * 1.5 = 750 |
Agrega eventos de sesión por minuto (aiplatform.googleapis.com/session_event_append_requests) |
Es la cantidad de turnos o eventos en todas las sesiones en curso. Una sola búsqueda puede generar varios eventos de sesión en una cadena, por ejemplo:
|
500 QPM * 12 events/req = 6,000 |
6,000 * 1.5 = 9,000 |
Operaciones de escritura de sesión por minuto (aiplatform.googleapis.com/session_write_requests) |
Es la tasa de creación o actualización de recursos de sesión. Por lo general, este valor es menor o igual que la tasa de consultas. | Por lo general, es menor o igual al QPM máximo (500). |
Por lo general, es menor o igual que la cuota de búsquedas (750). |
Solicita un ajuste de cuota
Para ajustar la mayoría de las cuotas, usa la consola de Google Cloud . Para obtener más información, consulta Solicita un ajuste de cuota.
Cuotas del modo Express de Vertex AI Agent Engine
Los usuarios del modo Exprés del nivel gratuito de Vertex AI tienen los siguientes límites de cuota para los servicios de Vertex AI Agent Engine sin costo. Consulta la descripción general de Vertex AI en modo Express para obtener más información sobre el nivel gratuito y el modo Express. Las siguientes cuotas se aplican a Vertex AI Agent Engine para un proyecto en modo exprés determinado en cada región:| Descripción | Cuota | Métrica |
|---|---|---|
| Cantidad máxima de recursos de Vertex AI Agent Engine | 10 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Crear, borrar o actualizar recursos de Agent Engine de Vertex AI por minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
Query o StreamQuery Vertex AI Agent Engine por minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
Conexiones bidireccionales en vivo simultáneas que usan la API de BidiStreamQuery por minuto |
1 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
| Crear, borrar o actualizar sesiones de Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/session_write_requests |
| Eventos de anexión a sesiones de Vertex AI Agent Engine por minuto | 30 | aiplatform.googleapis.com/session_event_append_requests |
| Crear, borrar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/memory_bank_write_requests |
| Obtener, enumerar o recuperar información de Memory Bank de Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/memory_bank_read_requests |