Quotas e limites do sistema

Este documento lista as quotas e os limites do sistema que se aplicam ao Vertex AI Agent Builder.

As quotas têm valores predefinidos, mas normalmente pode pedir ajustes.
Os limites do sistema são valores fixos que não podem ser alterados.

Google Cloud usa quotas para ajudar a garantir a equidade e reduzir os picos na utilização e disponibilidade de recursos. Uma quota restringe a quantidade de um Google Cloud recurso que o seu Google Cloud projeto pode usar. As quotas aplicam-se a uma variedade de tipos de recursos, incluindo componentes de hardware, software e rede. Por exemplo, as quotas podem restringir o número de chamadas API para um serviço, o número de balanceadores de carga usados em simultâneo pelo seu projeto ou o número de projetos que pode criar. As quotas protegem a comunidade de Google Cloud utilizadores, impedindo a sobrecarga dos serviços. As quotas também ajudam a gerir os seus próprios Google Cloud recursos.

O sistema Cloud Quotas faz o seguinte:

Monitoriza o seu consumo de Google Cloud produtos e serviços
Restringe o seu consumo desses recursos
Oferece uma forma de pedir alterações ao valor da quota e automatizar os ajustes da quota

Na maioria dos casos, quando tenta consumir mais de um recurso do que a respetiva quota permite, o sistema bloqueia o acesso ao recurso e a tarefa que está a tentar realizar falha.

Geralmente, as quotas aplicam-se ao nível do Google Cloud projeto A sua utilização de um recurso num projeto não afeta a sua quota disponível noutro projeto. Num Google Cloud projeto, as quotas são partilhadas por todas as aplicações e endereços IP.

Para mais informações, consulte a vista geral das quotas da nuvem.

Quotas do Vertex AI Agent Engine

As seguintes quotas aplicam-se ao Vertex AI Agent Engine para um determinado projeto em cada região:

Descrição	Quota	Métrica
Criar, eliminar ou atualizar recursos do Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Criar, eliminar ou atualizar sessões do Vertex AI Agent Engine por minuto	100	`aiplatform.googleapis.com/session_write_requests`
`Query` ou `StreamQuery` Vertex AI Agent Engine por minuto	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Anexe o evento às sessões do Vertex AI Agent Engine por minuto	300	`aiplatform.googleapis.com/session_event_append_requests`
Número máximo de recursos do Vertex AI Agent Engine	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Criar, eliminar ou atualizar recursos de memória do Vertex AI Agent Engine por minuto	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Obtenha, liste ou recupere do banco de memória do Vertex AI Agent Engine por minuto	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Ambiente de sandbox (execução de código) executa pedidos por minuto	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Entidades do ambiente de sandbox (execução de código) por região	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Pedidos de publicação de agentes A2A, como `sendMessage` e `cancelTask` por minuto	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
O agente A2A recebe pedidos como `getTask` e `getCard` por minuto	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Ligações bidirecionais em direto simultâneas com a API `BidiStreamQuery` por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Gestão de quotas para carregamentos de produção

À medida que o seu tráfego aumenta, é provável que precise de pedir aumentos para quotas específicas da API Vertex AI para evitar erros 429 Resource Exhausted. Pode configurar proativamente o tempo de execução e aumentar as suas quotas para manter o tempo de execução do Vertex AI Agent Engine reativo, escalável e fiável sob carga de produção.

Para obter informações sobre como otimizar e dimensionar o desempenho do Vertex AI Agent Engine, consulte o artigo Otimize e dimensione o desempenho do tempo de execução do Vertex AI Agent Engine.

Siga estes passos para estimar os requisitos de quota de pico:

Defina as variáveis:
- U: pico de utilizadores em simultâneo (por exemplo, 250).
- X: média de pedidos por utilizador por minuto (por exemplo, 2).
- Y: média de eventos de sessão gerados por pedido (por exemplo, 12 para uma cadeia complexa que envolve várias chamadas de ferramentas).
Calcule a sua carga máxima:
- Calcule o pico de consultas por minuto (CPM): U * X
- Calcule os eventos de sessão de pico por minuto: QPM de pico * Y
Peça uma quota com uma margem: quando pedir um aumento da quota, adicione uma margem (por exemplo, 50%) acima do pico calculado para processar picos inesperados.

A tabela seguinte mostra os cálculos das quotas principais relacionadas com o desempenho para o Vertex AI Agent Engine, usando as variáveis de exemplo de peak concurrent users=250, average requests per user per minute=2 e average session events generated per request=12:

Nome da quota Descrição da quota Cálculo base (pico) Valor recomendado (com uma margem de 50%)

Consultar o motor do agente por minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) O número total de chamadas query ou stream_query que o seu agente pode receber por minuto. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750

Nome da quota	Descrição da quota	Cálculo base (pico)	Valor recomendado (com uma margem de 50%)
Consultar o motor do agente por minuto (`aiplatform.googleapis.com/reasoning_engine_service_query_requests`)	O número total de chamadas `query` ou `stream_query` que o seu agente pode receber por minuto.	`250 users * 2 req/min = 500 QPM`	`500 * 1.5 =` `750`
Anexe eventos de sessão por minuto (`aiplatform.googleapis.com/session_event_append_requests`)	O número de interações ou eventos em todas as sessões em curso. Uma única consulta pode gerar vários eventos de sessão numa cadeia, por exemplo: Chama o LLM. Resposta do MDG: usar ferramenta. Executar ferramenta. Chamar o LLM com a resposta da ferramenta. O MDI/CE dá a resposta final.	`500 QPM * 12 events/req = 6,000`	`6,000 * 1.5 =` `9,000`
Gravações de sessões por minuto (`aiplatform.googleapis.com/session_write_requests`)	A taxa de criação ou atualização de recursos de sessão. Normalmente, este valor é inferior ou igual à taxa de consulta.	Normalmente, <= QPM de pico (`500`)	Normalmente, <= quota de consultas (`750`)

Anexe eventos de sessão por minuto (aiplatform.googleapis.com/session_event_append_requests)

O número de interações ou eventos em todas as sessões em curso. Uma única consulta pode gerar vários eventos de sessão numa cadeia, por exemplo:

Chama o LLM.
Resposta do MDG: usar ferramenta.
Executar ferramenta.
Chamar o LLM com a resposta da ferramenta.
O MDI/CE dá a resposta final.

500 QPM * 12 events/req = 6,000

6,000 * 1.5 = 9,000

Gravações de sessões por minuto (aiplatform.googleapis.com/session_write_requests) A taxa de criação ou atualização de recursos de sessão. Normalmente, este valor é inferior ou igual à taxa de consulta. Normalmente, <= QPM de pico (500) Normalmente, <= quota de consultas (750)

Peça um ajuste de quota

Para ajustar a maioria das quotas, use a Google Cloud consola. Para mais informações, consulte o artigo Peça um ajuste da quota.

Quotas do modo expresso do Vertex AI Agent Engine

Os utilizadores do modo expresso do nível gratuito do Vertex AI têm as seguintes quotas para os serviços do Vertex AI Agent Engine sem custo financeiro. Consulte a Vista geral do Vertex AI no modo expresso para mais informações sobre o Nível gratuito e o modo expresso. As seguintes quotas aplicam-se ao Vertex AI Agent Engine para um determinado projeto de modo expresso em cada região:

Descrição	Quota	Métrica
Número máximo de recursos do Vertex AI Agent Engine	10	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Criar, eliminar ou atualizar recursos do Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
`Query` ou `StreamQuery` Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Ligações bidirecionais em direto simultâneas com a API `BidiStreamQuery` por minuto	1	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`
Criar, eliminar ou atualizar sessões do Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/session_write_requests`
Anexe o evento às sessões do Vertex AI Agent Engine por minuto	30	`aiplatform.googleapis.com/session_event_append_requests`
Criar, eliminar ou atualizar recursos de memória do Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/memory_bank_write_requests`
Obtenha, liste ou recupere do banco de memória do Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/memory_bank_read_requests`