Otimizar e escalonar a performance do Agent Runtime

O Agent Runtime oferece parâmetros de implantação que permitem otimizar e escalonar a performance dos seus agentes. Ao configurar esses parâmetros, você pode lidar com padrões de tráfego imprevisíveis ou com picos de maneira eficaz.

Esta página descreve as práticas recomendadas para otimizar e escalonar a performance do Agent Runtime, abrangendo os seguintes cenários:

Problema de inicialização a frio
Workers assíncronos subutilizados

Os cenários mostram como usar parâmetros de implantação para resolver gargalos comuns de performance , especialmente para padrões de tráfego imprevisíveis e com picos em aplicativos reais.

Problema de inicialização a frio

Uma inicialização a frio ocorre quando uma solicitação chega e não há instâncias ou contêineres inativos para atendê-la, forçando o Agent Runtime a iniciar um novo. Isso adiciona uma latência significativa à solicitação.

Por exemplo, o envio de 300 solicitações simultâneas a um agente com o min_instances=1 padrão pode mostrar os seguintes resultados:

Inicialização a frio (primeira execução): latência média de aproximadamente 4,7 segundos.
Inicialização com estado salvo (segunda execução imediata): latência média de aproximadamente 0,4 segundos.

A sobrecarga de mais de quatro segundos é quase inteiramente devido a novas instâncias que estão sendo iniciadas para lidar com a carga.

Tente os seguintes métodos para atenuar o problema de inicialização a frio:

Defina um valor min_instances alto o suficiente para lidar com o tráfego de referência. Por exemplo, definir min_instances=10 para o agente de exemplo pode reduzir a latência média de uma inicialização a frio para aproximadamente 1,4 segundos. Para aplicativos com tráfego alto ou com picos, defina min_instances como um valor que possa lidar com a carga típica sem precisar ser escalonado de 1. O valor máximo é 10.
Envie uma carga estável, contínua e previsível para o Agent Runtime usando uma fila. Por exemplo, executar um teste de carga sustentado de 1.500 consultas por minuto (25 consultas por segundo) durante 60 segundos em um agente baseado no Kit de Desenvolvimento de Agente (ADK) com min_instances=10 e a concurrency padrão (9) pode gerar o seguinte resultado:
- A latência média é consistentemente baixa, de aproximadamente 1,6 segundos.

Uma carga estável e contínua mantém o serviço aquecido e resulta em performance ideal.

Workers assíncronos subutilizados

Por padrão, container_concurrency é configurado para código síncrono, em que cada instância da plataforma de agentes processa apenas uma solicitação por vez. Agentes assíncronos, como aqueles baseados no Kit de Desenvolvimento de Agente (ADK), podem processar várias solicitações vinculadas a E/S (como chamadas de LLM ou de ferramentas) simultaneamente.

Por exemplo, o envio de 300 solicitações simultâneas a um agente baseado no ADK com min_instances=10 e o container_concurrency=9 padrão pode gerar o seguinte resultado:

Embora a latência mediana seja de aproximadamente 4 segundos, a latência máxima aumenta para 60 segundos. Isso indica que as solicitações estão muito enfileiradas enquanto o serviço é escalonado lentamente.

Para atenuar os workers assíncronos subutilizados, aumente container_concurrency para permitir que cada instância da plataforma de agentes processe várias solicitações. O número de solicitações simultâneas que cada processo de agente pode processar é container_concurrency / 9. O valor 9 representa o número de processos de agente em execução paralela em cada contêiner.

Por exemplo, o envio de 300 solicitações simultâneas ao mesmo agente baseado no ADK com min_instances=10 e container_concurrency=36 pode gerar o seguinte resultado:

A latência máxima cai de 60 segundos para aproximadamente 7 segundos. Isso mostra que as instâncias atuais podem absorver o pico de tráfego com mais eficácia.

Para agentes assíncronos (como agentes baseados no ADK), defina container_concurrency como um múltiplo de 9 (por exemplo, 36) como ponto de partida. Isso melhora a capacidade de resposta a picos de tráfego e reduz a latência do escalonamento.

Definir o valor container_concurrency muito alto pode causar erros de falta de memória (OOM, na sigla em inglês).

A seguir

Guia

Otimizar e escalonar a performance do Agent Runtime

Problema de inicialização a frio

Workers assíncronos subutilizados

A seguir

Gerenciar agentes implantados

Usar um agente

Cotas

Otimizar e escalonar a performance do Agent Runtime Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Problema de inicialização a frio

Workers assíncronos subutilizados

A seguir

Gerenciar agentes implantados

Usar um agente

Cotas

Otimizar e escalonar a performance do Agent Runtime