Este documento lista as quotas e os limites do sistema que se aplicam ao Vertex AI Agent Builder.
- As quotas têm valores predefinidos, mas normalmente pode pedir ajustes.
- Os limites do sistema são valores fixos que não podem ser alterados.
Google Cloud usa quotas para ajudar a garantir a equidade e reduzir os picos na utilização e disponibilidade de recursos. Uma quota restringe a quantidade de um Google Cloud recurso que o seu Google Cloud projeto pode usar. As quotas aplicam-se a uma variedade de tipos de recursos, incluindo componentes de hardware, software e rede. Por exemplo, as quotas podem restringir o número de chamadas API para um serviço, o número de balanceadores de carga usados em simultâneo pelo seu projeto ou o número de projetos que pode criar. As quotas protegem a comunidade de Google Cloud utilizadores, impedindo a sobrecarga dos serviços. As quotas também ajudam a gerir os seus próprios Google Cloud recursos.
O sistema Cloud Quotas faz o seguinte:
- Monitoriza o seu consumo de Google Cloud produtos e serviços
- Restringe o seu consumo desses recursos
- Oferece uma forma de pedir alterações ao valor da quota e automatizar os ajustes da quota
Na maioria dos casos, quando tenta consumir mais de um recurso do que a respetiva quota permite, o sistema bloqueia o acesso ao recurso e a tarefa que está a tentar realizar falha.
Geralmente, as quotas aplicam-se ao nível do Google Cloud projeto A sua utilização de um recurso num projeto não afeta a sua quota disponível noutro projeto. Num Google Cloud projeto, as quotas são partilhadas por todas as aplicações e endereços IP.
Para mais informações, consulte a vista geral das quotas da nuvem.
Quotas do Vertex AI Agent Engine
As seguintes quotas aplicam-se ao Vertex AI Agent Engine para um determinado projeto em cada região:| Descrição | Quota | Métrica |
|---|---|---|
| Criar, eliminar ou atualizar recursos do Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Criar, eliminar ou atualizar sessões do Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/session_write_requests |
Query ou StreamQuery Vertex AI Agent Engine por minuto |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Anexe o evento às sessões do Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Número máximo de recursos do Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Criar, eliminar ou atualizar recursos de memória do Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Obtenha, liste ou recupere do banco de memória do Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Ambiente de sandbox (execução de código) executa pedidos por minuto | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entidades do ambiente de sandbox (execução de código) por região | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
Pedidos de publicação de agentes A2A, como sendMessage e cancelTask por minuto |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
O agente A2A recebe pedidos como getTask e getCard por minuto |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Ligações bidirecionais em direto simultâneas com a API BidiStreamQuery por minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Gestão de quotas para carregamentos de produção
À medida que o seu tráfego aumenta, é provável que precise de pedir aumentos para quotas específicas da API Vertex AI para evitar erros 429 Resource Exhausted. Pode configurar proativamente o tempo de execução e aumentar as suas quotas para manter o tempo de execução do Vertex AI Agent Engine reativo, escalável e fiável sob carga de produção.
Para obter informações sobre como otimizar e dimensionar o desempenho do Vertex AI Agent Engine, consulte o artigo Otimize e dimensione o desempenho do tempo de execução do Vertex AI Agent Engine.
Siga estes passos para estimar os requisitos de quota de pico:
Defina as variáveis:
U: pico de utilizadores em simultâneo (por exemplo, 250).X: média de pedidos por utilizador por minuto (por exemplo, 2).Y: média de eventos de sessão gerados por pedido (por exemplo, 12 para uma cadeia complexa que envolve várias chamadas de ferramentas).
Calcule a sua carga máxima:
Calcule o pico de consultas por minuto (CPM): U * X
Calcule os eventos de sessão de pico por minuto: QPM de pico * Y
Peça uma quota com uma margem: quando pedir um aumento da quota, adicione uma margem (por exemplo, 50%) acima do pico calculado para processar picos inesperados.
A tabela seguinte mostra os cálculos das quotas principais relacionadas com o desempenho para o Vertex AI Agent Engine, usando as variáveis de exemplo de peak concurrent users=250, average requests per user per minute=2 e average session events generated
per request=12:
| Nome da quota | Descrição da quota | Cálculo base (pico) | Valor recomendado (com uma margem de 50%) |
|---|---|---|---|
Consultar o motor do agente por minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) |
O número total de chamadas query ou stream_query que o seu agente pode receber por minuto. |
250 users * 2 req/min = 500 QPM |
500 * 1.5 = 750 |
Anexe eventos de sessão por minuto (aiplatform.googleapis.com/session_event_append_requests) |
O número de interações ou eventos em todas as sessões em curso. Uma única consulta pode gerar vários eventos de sessão numa cadeia, por exemplo:
|
500 QPM * 12 events/req = 6,000 |
6,000 * 1.5 = 9,000 |
Gravações de sessões por minuto (aiplatform.googleapis.com/session_write_requests) |
A taxa de criação ou atualização de recursos de sessão. Normalmente, este valor é inferior ou igual à taxa de consulta. | Normalmente, <= QPM de pico (500) |
Normalmente, <= quota de consultas (750) |
Peça um ajuste de quota
Para ajustar a maioria das quotas, use a Google Cloud consola. Para mais informações, consulte o artigo Peça um ajuste da quota.
Quotas do modo expresso do Vertex AI Agent Engine
Os utilizadores do modo expresso do nível gratuito do Vertex AI têm as seguintes quotas para os serviços do Vertex AI Agent Engine sem custo financeiro. Consulte a Vista geral do Vertex AI no modo expresso para mais informações sobre o Nível gratuito e o modo expresso. As seguintes quotas aplicam-se ao Vertex AI Agent Engine para um determinado projeto de modo expresso em cada região:| Descrição | Quota | Métrica |
|---|---|---|
| Número máximo de recursos do Vertex AI Agent Engine | 10 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Criar, eliminar ou atualizar recursos do Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
Query ou StreamQuery Vertex AI Agent Engine por minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
Ligações bidirecionais em direto simultâneas com a API BidiStreamQuery por minuto |
1 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
| Criar, eliminar ou atualizar sessões do Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/session_write_requests |
| Anexe o evento às sessões do Vertex AI Agent Engine por minuto | 30 | aiplatform.googleapis.com/session_event_append_requests |
| Criar, eliminar ou atualizar recursos de memória do Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/memory_bank_write_requests |
| Obtenha, liste ou recupere do banco de memória do Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/memory_bank_read_requests |