Quotas e limites do sistema

Este documento lista as quotas e os limites do sistema que se aplicam ao Vertex AI Agent Builder.

  • As quotas têm valores predefinidos, mas normalmente pode pedir ajustes.
  • Os limites do sistema são valores fixos que não podem ser alterados.

Google Cloud usa quotas para ajudar a garantir a equidade e reduzir os picos na utilização e disponibilidade de recursos. Uma quota restringe a quantidade de um Google Cloud recurso que o seu Google Cloud projeto pode usar. As quotas aplicam-se a uma variedade de tipos de recursos, incluindo componentes de hardware, software e rede. Por exemplo, as quotas podem restringir o número de chamadas API para um serviço, o número de balanceadores de carga usados em simultâneo pelo seu projeto ou o número de projetos que pode criar. As quotas protegem a comunidade de Google Cloud utilizadores, impedindo a sobrecarga dos serviços. As quotas também ajudam a gerir os seus próprios Google Cloud recursos.

O sistema Cloud Quotas faz o seguinte:

Na maioria dos casos, quando tenta consumir mais de um recurso do que a respetiva quota permite, o sistema bloqueia o acesso ao recurso e a tarefa que está a tentar realizar falha.

Geralmente, as quotas aplicam-se ao nível do Google Cloud projeto A sua utilização de um recurso num projeto não afeta a sua quota disponível noutro projeto. Num Google Cloud projeto, as quotas são partilhadas por todas as aplicações e endereços IP.

Para mais informações, consulte a vista geral das quotas da nuvem.

Quotas do Vertex AI Agent Engine

As seguintes quotas aplicam-se ao Vertex AI Agent Engine para um determinado projeto em cada região:
Descrição Quota Métrica
Criar, eliminar ou atualizar recursos do Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Criar, eliminar ou atualizar sessões do Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/session_write_requests
Query ou StreamQuery Vertex AI Agent Engine por minuto 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Anexe o evento às sessões do Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/session_event_append_requests
Número máximo de recursos do Vertex AI Agent Engine 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Criar, eliminar ou atualizar recursos de memória do Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/memory_bank_write_requests
Obtenha, liste ou recupere do banco de memória do Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/memory_bank_read_requests
Ambiente de sandbox (execução de código) executa pedidos por minuto 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Entidades do ambiente de sandbox (execução de código) por região 1000 aiplatform.googleapis.com/sandbox_environment_entities
Pedidos de publicação de agentes A2A, como sendMessage e cancelTask por minuto 60 aiplatform.googleapis.com/a2a_agent_post_requests
O agente A2A recebe pedidos como getTask e getCard por minuto 600 aiplatform.googleapis.com/a2a_agent_get_requests
Ligações bidirecionais em direto simultâneas com a API BidiStreamQuery por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Gestão de quotas para carregamentos de produção

À medida que o seu tráfego aumenta, é provável que precise de pedir aumentos para quotas específicas da API Vertex AI para evitar erros 429 Resource Exhausted. Pode configurar proativamente o tempo de execução e aumentar as suas quotas para manter o tempo de execução do Vertex AI Agent Engine reativo, escalável e fiável sob carga de produção.

Para obter informações sobre como otimizar e dimensionar o desempenho do Vertex AI Agent Engine, consulte o artigo Otimize e dimensione o desempenho do tempo de execução do Vertex AI Agent Engine.

Siga estes passos para estimar os requisitos de quota de pico:

  1. Defina as variáveis:

    • U: pico de utilizadores em simultâneo (por exemplo, 250).

    • X: média de pedidos por utilizador por minuto (por exemplo, 2).

    • Y: média de eventos de sessão gerados por pedido (por exemplo, 12 para uma cadeia complexa que envolve várias chamadas de ferramentas).

  2. Calcule a sua carga máxima:

    • Calcule o pico de consultas por minuto (CPM): U * X

    • Calcule os eventos de sessão de pico por minuto: QPM de pico * Y

  3. Peça uma quota com uma margem: quando pedir um aumento da quota, adicione uma margem (por exemplo, 50%) acima do pico calculado para processar picos inesperados.

A tabela seguinte mostra os cálculos das quotas principais relacionadas com o desempenho para o Vertex AI Agent Engine, usando as variáveis de exemplo de peak concurrent users=250, average requests per user per minute=2 e average session events generated per request=12:

Nome da quota Descrição da quota Cálculo base (pico) Valor recomendado (com uma margem de 50%)
Consultar o motor do agente por minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) O número total de chamadas query ou stream_query que o seu agente pode receber por minuto. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750
Anexe eventos de sessão por minuto (aiplatform.googleapis.com/session_event_append_requests)

O número de interações ou eventos em todas as sessões em curso. Uma única consulta pode gerar vários eventos de sessão numa cadeia, por exemplo:

  1. Chama o LLM.
  2. Resposta do MDG: usar ferramenta.
  3. Executar ferramenta.
  4. Chamar o LLM com a resposta da ferramenta.
  5. O MDI/CE dá a resposta final.
500 QPM * 12 events/req = 6,000 6,000 * 1.5 = 9,000
Gravações de sessões por minuto (aiplatform.googleapis.com/session_write_requests) A taxa de criação ou atualização de recursos de sessão. Normalmente, este valor é inferior ou igual à taxa de consulta. Normalmente, <= QPM de pico (500) Normalmente, <= quota de consultas (750)

Peça um ajuste de quota

Para ajustar a maioria das quotas, use a Google Cloud consola. Para mais informações, consulte o artigo Peça um ajuste da quota.

Quotas do modo expresso do Vertex AI Agent Engine

Os utilizadores do modo expresso do nível gratuito do Vertex AI têm as seguintes quotas para os serviços do Vertex AI Agent Engine sem custo financeiro. Consulte a Vista geral do Vertex AI no modo expresso para mais informações sobre o Nível gratuito e o modo expresso. As seguintes quotas aplicam-se ao Vertex AI Agent Engine para um determinado projeto de modo expresso em cada região:
Descrição Quota Métrica
Número máximo de recursos do Vertex AI Agent Engine 10 aiplatform.googleapis.com/reasoning_engine_service_entities
Criar, eliminar ou atualizar recursos do Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Query ou StreamQuery Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Ligações bidirecionais em direto simultâneas com a API BidiStreamQuery por minuto 1 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
Criar, eliminar ou atualizar sessões do Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/session_write_requests
Anexe o evento às sessões do Vertex AI Agent Engine por minuto 30 aiplatform.googleapis.com/session_event_append_requests
Criar, eliminar ou atualizar recursos de memória do Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/memory_bank_write_requests
Obtenha, liste ou recupere do banco de memória do Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/memory_bank_read_requests