Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Práticas recomendadas para escalonamento e alto tráfego

À medida que você escalona seus aplicativos de IA e encontra altos volumes de tráfego, é crucial projetar para resiliência e desempenho. Esta seção descreve as práticas recomendadas para usar o Model Armor de maneira eficaz em ambientes exigentes.

Cotas e limites do sistema

O Model Armor inclui cotas e limites do sistema para garantir o uso justo e a estabilidade do sistema.

Solicite aumentos de cota: se você prevê um tráfego maior, entre em contato com o Cloud Customer Care para pedir um ajuste na cota da API Model Armor.
Entenda os limites do sistema: crie seu aplicativo para lidar com esses limites de maneira adequada, possivelmente dividindo entradas maiores, se necessário. Para valores específicos, consulte Cotas e limites do sistema.

Projetar para alto tráfego e resiliência

Novas tentativas do lado do cliente com espera exponencial: implemente um tratamento de erros robusto nos seus clientes. Para erros que podem ser repetidos, como limites de taxa ou erros de servidor, use uma estratégia de espera exponencial. Isso evita sobrecarregar o serviço durante problemas temporários. Para mais informações, consulte Estratégia de novas tentativas.
Estratégias de armazenamento em cache: se aplicável, armazene em cache as respostas do Model Armor para comandos idênticos, especialmente para interações comuns ou menos sensíveis. Tenha atenção à atualização de dados e às implicações de segurança ao armazenar em cache.
Processamento assíncrono: para cargas de trabalho não interativas, considere processar solicitações de forma assíncrona. Enfileire e processe as solicitações em uma taxa que respeite os limites da API e suavize os picos de tráfego.
Degradação gradual: projete seu aplicativo para lidar com possíveis indisponibilidades ou erros do Model Armor. Considere implementar um mecanismo de fallback ou ignorar temporariamente determinadas verificações ao registrar a falha.

Otimizar o desempenho

Minimizar o tamanho da carga útil: envie apenas os dados necessários para o Model Armor para análise. Evite comandos ou arquivos desnecessariamente grandes.
Otimize a configuração do modelo: configure seus modelos do Model Armor para incluir apenas os filtros e as configurações essenciais para seu caso de uso. Ativar detectores desnecessários pode aumentar a latência.
Mantenha o aplicativo, os dados e as solicitações na mesma região: implante o aplicativo e use endpoints do Model Armor na mesma região para minimizar a latência da rede. Para mais informações, consulte Locais do Model Armor.

Monitoramento e alertas

Configure alertas: configure alertas no Cloud Monitoring para receber notificações quando você estiver se aproximando dos limites de cota ou tiver altas taxas de erro na API Model Armor.
Analisar registros: use o Cloud Logging para analisar padrões de uso, erros e métricas de desempenho do Model Armor. A análise de registros pode ajudar a identificar gargalos ou áreas de otimização. Para mais informações, consulte Filtrar registros.

Práticas recomendadas para escalonamento e alto tráfego Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Cotas e limites do sistema

Projetar para alto tráfego e resiliência

Otimizar o desempenho

Monitoramento e alertas

Práticas recomendadas para escalonamento e alto tráfego