Neste documento, listamos as cotas e os limites de sistema que se aplicam ao Vertex AI Agent Builder.
- As cotas têm valores definidos por padrão, mas geralmente é possível solicitar ajustes.
- Os limites do sistema são valores fixos que não podem ser alterados.
OGoogle Cloud usa cotas para garantir a distribuição justa e reduzir sobrecargas no uso e na disponibilidade dos recursos. Uma cota restringe a alocação de um recurso doGoogle Cloud para uso do seu projeto do Google Cloud . As cotas se aplicam a vários tipos de recursos, incluindo hardware, software e componentes de rede. Por exemplo, elas podem restringir o número de chamadas de API para um serviço, o número de balanceadores de carga usados simultaneamente pelo projeto ou o número de projetos que podem ser criados. As cotas protegem a comunidade de usuários doGoogle Cloud , impedindo a sobrecarga de serviços. Elas também ajudam você a gerenciar seus próprios recursos do Google Cloud .
O sistema de cotas do Cloud faz o seguinte:
- Monitora o consumo de produtos e serviços do Google Cloud .
- Restringe o consumo desses recursos.
- Possibilita a solicitação de mudanças no valor das cotas e a automatização de ajustes de cotas.
Na maioria dos casos, quando você tenta consumir mais de um recurso do que a cota permite, o sistema bloqueia o acesso ao recurso, e a tarefa que você está tentando executar falha.
As cotas geralmente se aplicam ao nível do projeto do Google Cloud . O uso de um recurso em um projeto não afeta a cota disponível em outro. Em um projeto do Google Cloud , as cotas são compartilhadas entre todos os aplicativos e endereços IP.
Saiba mais em Visão geral das cotas do Cloud.
Cotas do Vertex AI Agent Engine
As cotas a seguir se aplicam ao Vertex AI Agent Engine para um determinado projeto em cada região:| Descrição | Cota | Métrica |
|---|---|---|
| Criar, excluir ou atualizar recursos do Agent Engine da Vertex AI por minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Criar, excluir ou atualizar sessões do Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/session_write_requests |
Query ou StreamQuery Vertex AI Agent Engine por minuto |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Adicionar evento às sessões do Agent Engine da Vertex AI por minuto | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Número máximo de recursos do Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Criar, excluir ou atualizar recursos de memória do Agent Engine da Vertex AI por minuto | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Receber, listar ou extrair do Memory Bank do Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Solicitações de execução por minuto no ambiente de sandbox (execução de código) | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entidades do ambiente de sandbox (execução de código) por região | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
Solicitações de postagem do agente A2A, como sendMessage e cancelTask por minuto |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Solicitações GET do agente A2A, como getTask e getCard por minuto |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Conexões bidirecionais simultâneas em tempo real usando a API BidiStreamQuery por minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Gerenciamento de cotas para cargas de produção
À medida que seu tráfego aumenta, é provável que você precise solicitar aumentos para cotas específicas da API Vertex AI e evitar erros 429 Resource Exhausted. É possível configurar o ambiente de execução e aumentar as cotas de maneira proativa para manter o ambiente de execução do Vertex AI Agent Engine responsivo, escalonável e confiável sob carga de produção.
Para informações sobre como otimizar e escalonar a performance do Vertex AI Agent Engine, consulte Otimizar e escalonar a performance do tempo de execução do Vertex AI Agent Engine.
Siga estas etapas para estimar seus requisitos de cota máxima:
Defina as variáveis:
U: pico de usuários simultâneos (por exemplo, 250).X: média de solicitações por usuário por minuto (por exemplo, 2).Y: média de eventos de sessão gerados por solicitação (por exemplo, 12 para uma cadeia complexa que envolve várias chamadas de ferramentas).
Calcule sua carga máxima:
Calcule o pico de consultas por minuto (QPM): U * X
Calcule seus eventos de pico de sessão por minuto: pico de QPM * Y
Solicite uma cota com um buffer: ao pedir um aumento de cota, adicione um buffer (por exemplo, 50%) além do pico calculado para lidar com picos inesperados.
A tabela a seguir mostra os cálculos das principais cotas relacionadas à performance do
Vertex AI Agent Engine, usando as variáveis de exemplo peak concurrent users=250,
average requests per user per minute=2 e average session events generated
per request=12:
| Nome da cota | Descrição da cota | Cálculo da base (pico) | Valor recomendado (com buffer de 50%) |
|---|---|---|---|
Consultar o mecanismo do agente por minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) |
O número total de chamadas query ou stream_query que seu agente pode receber por minuto. |
250 users * 2 req/min = 500 QPM |
500 * 1.5 = 750 |
Adicionar eventos de sessão por minuto (aiplatform.googleapis.com/session_event_append_requests) |
O número de turnos ou eventos em todas as sessões em andamento. Uma única consulta pode gerar vários eventos de sessão em uma cadeia, por exemplo:
|
500 QPM * 12 events/req = 6,000 |
6,000 * 1.5 = 9,000 |
Gravações de sessão por minuto (aiplatform.googleapis.com/session_write_requests) |
A taxa de criação ou atualização de recursos de sessão. Normalmente, esse valor é menor ou igual à taxa de consultas. | Normalmente <= QPM de pico (500) |
Normalmente <= cota de consulta (750) |
Solicitar um ajuste de cota
Para ajustar a maioria das cotas, use o console do Google Cloud . Para mais informações, consulte Solicitar ajuste de cota.
Cotas do modo Express do Agent Engine da Vertex AI
Os usuários do modo expresso do nível gratuito da Vertex AI têm as seguintes cotas para os serviços do Vertex AI Agent Engine sem custo financeiro. Consulte a Visão geral do modo rápido da Vertex AI para mais informações sobre o nível gratuito e o modo rápido. As cotas a seguir se aplicam ao Vertex AI Agent Engine para um determinado projeto no modo rápido em cada região:| Descrição | Cota | Métrica |
|---|---|---|
| Número máximo de recursos do Vertex AI Agent Engine | 10 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Criar, excluir ou atualizar recursos do Agent Engine da Vertex AI por minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
Query ou StreamQuery Vertex AI Agent Engine por minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
Conexões bidirecionais simultâneas em tempo real usando a API BidiStreamQuery por minuto |
1 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
| Criar, excluir ou atualizar sessões do Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/session_write_requests |
| Adicionar evento às sessões do Agent Engine da Vertex AI por minuto | 30 | aiplatform.googleapis.com/session_event_append_requests |
| Criar, excluir ou atualizar recursos de memória do Agent Engine da Vertex AI por minuto | 10 | aiplatform.googleapis.com/memory_bank_write_requests |
| Receber, listar ou extrair do Memory Bank do Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/memory_bank_read_requests |