Cotas e limites do sistema

Neste documento, listamos as cotas e os limites de sistema que se aplicam ao Vertex AI Agent Builder.

  • As cotas têm valores definidos por padrão, mas geralmente é possível solicitar ajustes.
  • Os limites do sistema são valores fixos que não podem ser alterados.

OGoogle Cloud usa cotas para garantir a distribuição justa e reduzir sobrecargas no uso e na disponibilidade dos recursos. Uma cota restringe a alocação de um recurso doGoogle Cloud para uso do seu projeto do Google Cloud . As cotas se aplicam a vários tipos de recursos, incluindo hardware, software e componentes de rede. Por exemplo, elas podem restringir o número de chamadas de API para um serviço, o número de balanceadores de carga usados simultaneamente pelo projeto ou o número de projetos que podem ser criados. As cotas protegem a comunidade de usuários doGoogle Cloud , impedindo a sobrecarga de serviços. Elas também ajudam você a gerenciar seus próprios recursos do Google Cloud .

O sistema de cotas do Cloud faz o seguinte:

Na maioria dos casos, quando você tenta consumir mais de um recurso do que a cota permite, o sistema bloqueia o acesso ao recurso, e a tarefa que você está tentando executar falha.

As cotas geralmente se aplicam ao nível do projeto do Google Cloud . O uso de um recurso em um projeto não afeta a cota disponível em outro. Em um projeto do Google Cloud , as cotas são compartilhadas entre todos os aplicativos e endereços IP.

Saiba mais em Visão geral das cotas do Cloud.

Cotas do Vertex AI Agent Engine

As cotas a seguir se aplicam ao Vertex AI Agent Engine para um determinado projeto em cada região:
Descrição Cota Métrica
Criar, excluir ou atualizar recursos do Agent Engine da Vertex AI por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Criar, excluir ou atualizar sessões do Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/session_write_requests
Query ou StreamQuery Vertex AI Agent Engine por minuto 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Adicionar evento às sessões do Agent Engine da Vertex AI por minuto 300 aiplatform.googleapis.com/session_event_append_requests
Número máximo de recursos do Vertex AI Agent Engine 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Criar, excluir ou atualizar recursos de memória do Agent Engine da Vertex AI por minuto 100 aiplatform.googleapis.com/memory_bank_write_requests
Receber, listar ou extrair do Memory Bank do Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/memory_bank_read_requests
Solicitações de execução por minuto no ambiente de sandbox (execução de código) 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Entidades do ambiente de sandbox (execução de código) por região 1000 aiplatform.googleapis.com/sandbox_environment_entities
Solicitações de postagem do agente A2A, como sendMessage e cancelTask por minuto 60 aiplatform.googleapis.com/a2a_agent_post_requests
Solicitações GET do agente A2A, como getTask e getCard por minuto 600 aiplatform.googleapis.com/a2a_agent_get_requests
Conexões bidirecionais simultâneas em tempo real usando a API BidiStreamQuery por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Gerenciamento de cotas para cargas de produção

À medida que seu tráfego aumenta, é provável que você precise solicitar aumentos para cotas específicas da API Vertex AI e evitar erros 429 Resource Exhausted. É possível configurar o ambiente de execução e aumentar as cotas de maneira proativa para manter o ambiente de execução do Vertex AI Agent Engine responsivo, escalonável e confiável sob carga de produção.

Para informações sobre como otimizar e escalonar a performance do Vertex AI Agent Engine, consulte Otimizar e escalonar a performance do tempo de execução do Vertex AI Agent Engine.

Siga estas etapas para estimar seus requisitos de cota máxima:

  1. Defina as variáveis:

    • U: pico de usuários simultâneos (por exemplo, 250).

    • X: média de solicitações por usuário por minuto (por exemplo, 2).

    • Y: média de eventos de sessão gerados por solicitação (por exemplo, 12 para uma cadeia complexa que envolve várias chamadas de ferramentas).

  2. Calcule sua carga máxima:

    • Calcule o pico de consultas por minuto (QPM): U * X

    • Calcule seus eventos de pico de sessão por minuto: pico de QPM * Y

  3. Solicite uma cota com um buffer: ao pedir um aumento de cota, adicione um buffer (por exemplo, 50%) além do pico calculado para lidar com picos inesperados.

A tabela a seguir mostra os cálculos das principais cotas relacionadas à performance do Vertex AI Agent Engine, usando as variáveis de exemplo peak concurrent users=250, average requests per user per minute=2 e average session events generated per request=12:

Nome da cota Descrição da cota Cálculo da base (pico) Valor recomendado (com buffer de 50%)
Consultar o mecanismo do agente por minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) O número total de chamadas query ou stream_query que seu agente pode receber por minuto. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750
Adicionar eventos de sessão por minuto (aiplatform.googleapis.com/session_event_append_requests)

O número de turnos ou eventos em todas as sessões em andamento. Uma única consulta pode gerar vários eventos de sessão em uma cadeia, por exemplo:

  1. Chame o LLM.
  2. Resposta do LLM: use a ferramenta.
  3. Executar ferramenta.
  4. Chame o LLM com a resposta da ferramenta.
  5. O LLM dá a resposta final.
500 QPM * 12 events/req = 6,000 6,000 * 1.5 = 9,000
Gravações de sessão por minuto (aiplatform.googleapis.com/session_write_requests) A taxa de criação ou atualização de recursos de sessão. Normalmente, esse valor é menor ou igual à taxa de consultas. Normalmente <= QPM de pico (500) Normalmente <= cota de consulta (750)

Solicitar um ajuste de cota

Para ajustar a maioria das cotas, use o console do Google Cloud . Para mais informações, consulte Solicitar ajuste de cota.

Cotas do modo Express do Agent Engine da Vertex AI

Os usuários do modo expresso do nível gratuito da Vertex AI têm as seguintes cotas para os serviços do Vertex AI Agent Engine sem custo financeiro. Consulte a Visão geral do modo rápido da Vertex AI para mais informações sobre o nível gratuito e o modo rápido. As cotas a seguir se aplicam ao Vertex AI Agent Engine para um determinado projeto no modo rápido em cada região:
Descrição Cota Métrica
Número máximo de recursos do Vertex AI Agent Engine 10 aiplatform.googleapis.com/reasoning_engine_service_entities
Criar, excluir ou atualizar recursos do Agent Engine da Vertex AI por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Query ou StreamQuery Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Conexões bidirecionais simultâneas em tempo real usando a API BidiStreamQuery por minuto 1 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
Criar, excluir ou atualizar sessões do Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/session_write_requests
Adicionar evento às sessões do Agent Engine da Vertex AI por minuto 30 aiplatform.googleapis.com/session_event_append_requests
Criar, excluir ou atualizar recursos de memória do Agent Engine da Vertex AI por minuto 10 aiplatform.googleapis.com/memory_bank_write_requests
Receber, listar ou extrair do Memory Bank do Vertex AI Agent Engine por minuto 10 aiplatform.googleapis.com/memory_bank_read_requests