Use o gráfico de comparação abaixo para ajudar a decidir que política usar
para o seu exemplo de utilização de limitação de taxa:
Quota
SpikeArrest
LLMTokenQuota
PromptTokenLimit
Use-a para:
Limitar o número de chamadas de proxy de API que uma app de programador ou um programador pode fazer durante um período específico. É mais adequado para limitar a taxa em intervalos de tempo mais longos, como dias, semanas ou meses, especialmente quando a contagem precisa é um requisito.
Limitar o número de chamadas API que podem ser feitas a um proxy de API
em todos os consumidores durante um curto período, como segundos ou
minutos.
Faça a gestão e limite o consumo total de tokens para chamadas da API LLM durante um período especificado (minuto, hora, dia, semana ou mês). Isto permite-lhe
controlar os gastos com o MDG e aplicar uma gestão detalhada de quotas com base
nos produtos de API.
Proteja o back-end de destino do proxy de API contra o abuso de tokens, os comandos massivos e as potenciais tentativas de negação de serviço limitando a taxa de tokens enviados na entrada através da restrição de pedidos com base no número de tokens na mensagem de comando do utilizador. É um paradigma comparativo ao Spike Arrest para o tráfego da API, mas para tokens.
Não a use para:
Proteja o back-end de destino do proxy de API contra picos de tráfego. Use
SpikeArrest ou PromptTokenLimit para isso.
Contar e limitar o número de ligações que as apps podem fazer ao back-end de destino do proxy da API durante um período específico, especialmente quando é necessária uma contagem precisa.
Proteja o back-end de destino do proxy de API contra o abuso de tokens.
Use PromptTokenLimit para isso.
Contar e limitar com precisão o número total de tokens consumidos para a faturação ou a gestão de quotas a longo prazo. Use a política LLMTokenQuota para isso.
Armazena uma contagem?
Sim
Não
Sim, mantém contadores que monitorizam o número de tokens consumidos pelas respostas do GML.
Conta os tokens para aplicar um limite de taxa, mas não armazena uma contagem persistente a longo prazo, como a política LLMTokenQuota.
Práticas recomendadas para anexar a política:
Anexe-o ao ProxyEndpoint Request PreFlow,
geralmente após a autenticação do utilizador.
Isto permite que a política verifique o contador de quotas no ponto de entrada do proxy de API.
Anexe-o ao ProxyEndpoint Request PreFlow,
geralmente no início do fluxo.
Isto oferece proteção contra picos no ponto de entrada do proxy de API.
Aplique a política de aplicação (EnforceOnly) no
fluxo de pedidos e a política de contabilização
(CountOnly) no fluxo de respostas. Para
respostas de streaming, anexe a política de contagem a um
EventFlow.
Anexe-o ao ProxyEndpoint Request PreFlow, no
início do fluxo, para proteger o seu back-end de comandos demasiado grandes.
Código de estado HTTP quando o limite foi atingido:
429 (Serviço indisponível)
429 (Serviço indisponível)
429 (Serviço indisponível)
429 (Serviço indisponível)
É bom saber:
O contador de quota é armazenado no Cassandra.
Pode configurar a política para sincronizar o contador de forma assíncrona para poupar recursos, mas isto pode permitir chamadas ligeiramente superiores ao limite.
Permite-lhe escolher entre um algoritmo de suavização ou um algoritmo de contagem eficaz. O primeiro suaviza o número de pedidos que podem ocorrer num período especificado, e o segundo limita o número total de pedidos que podem ocorrer num período especificado, independentemente da rapidez com que são enviados sucessivamente.
A suavização não é coordenada entre os processadores de mensagens.
Pode ser configurado como CountOnly para acompanhar a utilização de tokens ou EnforceOnly para rejeitar pedidos que excedam a quota.
Funciona com produtos de API para permitir configurações de quotas detalhadas com base na app, no programador, no modelo ou num conjunto de operações de LLM específico.
Usa <LLMTokenUsageSource> para extrair a contagem de tokens
da resposta do MDI/CE e <LLMModelSource> para
identificar o modelo usado.
O cálculo de tokens pode diferir ligeiramente do utilizado pelo MDG.
O elemento <UserPromptSource> especifica a localização do comando do utilizador na mensagem de pedido.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2026-01-05 UTC."],[],[]]