En este documento se indican las cuotas y los límites del sistema que se aplican a Vertex AI Agent Builder.
- Las cuotas tienen valores predeterminados, pero normalmente puedes solicitar ajustes.
- Los límites del sistema son valores fijos que no se pueden cambiar.
Google Cloud usa cuotas para garantizar la equidad y reducir los picos en el uso y la disponibilidad de los recursos. Una cuota restringe la cantidad de unGoogle Cloud recurso que puede usar tu Google Cloud proyecto. Las cuotas se aplican a una serie de tipos de recursos, incluidos componentes de hardware, software y red. Por ejemplo, las cuotas pueden restringir el número de llamadas a una API enviadas a un servicio, el número de balanceadores de carga que usa tu proyecto de forma simultánea o el número de proyectos que puedes crear. Las cuotas protegen a la comunidad de usuarios deGoogle Cloud al evitar que se sobrecarguen los servicios. Las cuotas también te ayudan a gestionar tus propios Google Cloud recursos.
El sistema de cuotas de Cloud hace lo siguiente:
- Monitoriza tu consumo de Google Cloud productos y servicios
- Restringe el consumo de esos recursos
- Ofrece una forma de solicitar cambios en el valor de la cuota y automatizar los ajustes de la cuota.
En la mayoría de los casos, cuando intentas consumir más recursos de los que permite la cuota, el sistema bloquea el acceso al recurso y la tarea que intentas realizar falla.
Las cuotas se aplican generalmente a nivel de Google Cloud proyecto. El uso que hagas de un recurso en un proyecto no afectará a la cuota disponible en otro proyecto. En un Google Cloud proyecto, las cuotas se comparten entre todas las aplicaciones y direcciones IP.
Para obtener más información, consulta la descripción general de las cuotas de Cloud.
Cuotas de Vertex AI Agent Engine
Las siguientes cuotas se aplican a Vertex AI Agent Engine de un proyecto concreto en cada región:| Descripción | Cuota | Métrica |
|---|---|---|
| Crear, eliminar o actualizar recursos de Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Crear, eliminar o actualizar sesiones de Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/session_write_requests |
Query o StreamQuery Vertex AI Agent Engine por minuto |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Añadir eventos a las sesiones de Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Número máximo de recursos de Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Crear, eliminar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Obtener, enumerar o recuperar datos de Memory Bank de Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Solicitudes de ejecución por minuto del entorno de pruebas (ejecución de código) | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entidades de entorno aislado (ejecución de código) por región | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
Solicitudes POST de agente A2A, como sendMessage y cancelTask, por minuto |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Solicitudes get de agente de A2A, como getTask y getCard, por minuto |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Conexiones bidireccionales simultáneas en directo mediante la API BidiStreamQuery por minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Gestión de cuotas para cargas de producción
A medida que aumente el tráfico, es probable que tengas que solicitar aumentos de cuota para APIs de Vertex AI específicas si quieres evitar errores 429 Resource Exhausted. Puedes configurar tu tiempo de ejecución y aumentar tus cuotas de forma proactiva para que tu tiempo de ejecución de Vertex AI Agent Engine siga siendo adaptable, escalable y fiable en condiciones de carga de producción.
Para obtener información sobre cómo optimizar y escalar el rendimiento de Vertex AI Agent Engine, consulta Optimizar y escalar el rendimiento del tiempo de ejecución de Vertex AI Agent Engine.
Sigue estos pasos para estimar los requisitos de cuota máxima:
Define las variables:
U: pico de usuarios simultáneos (por ejemplo, 250).X: media de solicitudes por usuario y minuto (por ejemplo, 2).Y: media de eventos de sesión generados por solicitud (por ejemplo, 12 en una cadena compleja que implica varias llamadas a herramientas).
Calcula tu carga máxima:
Calcula el número máximo de consultas por minuto (QPM): U * X
Calcula los eventos de sesión máximos por minuto: pico de consultas por minuto × Y
Solicita una cuota con un margen: cuando solicites un aumento de cuota, añade un margen (por ejemplo, un 50%) por encima del pico calculado para gestionar los picos inesperados.
En la siguiente tabla se muestran los cálculos de las cuotas clave relacionadas con el rendimiento de Vertex AI Agent Engine. Para ello, se usan las variables de ejemplo peak concurrent users=250, average requests per user per minute=2 y average session events generated
per request=12:
| Nombre de la cuota | Descripción de la cuota | Cálculo base (pico) | Valor recomendado (con un margen del 50 %) |
|---|---|---|---|
Consultar Agent Engine por minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) |
Número total de llamadas query o stream_query que puede recibir tu agente por minuto. |
250 users * 2 req/min = 500 QPM |
500 * 1.5 = 750 |
Añadir eventos de sesión por minuto (aiplatform.googleapis.com/session_event_append_requests) |
Número de turnos o eventos de todas las sesiones en curso. Una sola consulta puede generar varios eventos de sesión en una cadena, como se muestra en el siguiente ejemplo:
|
500 QPM * 12 events/req = 6,000 |
6,000 * 1.5 = 9,000 |
Escrituras de sesión por minuto (aiplatform.googleapis.com/session_write_requests) |
La frecuencia de creación o actualización de recursos de sesión. Normalmente, es menor o igual que la tasa de consultas. | Normalmente, es igual o inferior al QPM máximo (500). |
Normalmente, es igual o inferior a la cuota de consultas (750). |
Solicitar un ajuste de cuota
Para ajustar la mayoría de las cuotas, usa la Google Cloud consola. Para obtener más información, consulta Solicitar un ajuste de cuota.
Cuotas del modo Express de Vertex AI Agent Engine
Los usuarios del modo Exprés del nivel gratuito de Vertex AI tienen las siguientes cuotas para los servicios de Vertex AI Agent Engine sin coste económico. Consulta la descripción general de Vertex AI en modo Express para obtener más información sobre el nivel gratuito y el modo Express. Las siguientes cuotas se aplican a Vertex AI Agent Engine de un proyecto en modo exprés concreto de cada región:| Descripción | Cuota | Métrica |
|---|---|---|
| Número máximo de recursos de Vertex AI Agent Engine | 10 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Crear, eliminar o actualizar recursos de Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
Query o StreamQuery Vertex AI Agent Engine por minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
Conexiones bidireccionales simultáneas en directo mediante la API BidiStreamQuery por minuto |
1 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
| Crear, eliminar o actualizar sesiones de Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/session_write_requests |
| Añadir eventos a las sesiones de Vertex AI Agent Engine por minuto | 30 | aiplatform.googleapis.com/session_event_append_requests |
| Crear, eliminar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/memory_bank_write_requests |
| Obtener, enumerar o recuperar datos de Memory Bank de Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/memory_bank_read_requests |