Esta página se aplica à Apigee e à Apigee híbrida.
Confira a documentação da
Apigee Edge.
Use a tabela de comparação abaixo para ajudar a decidir qual política usar para seu caso de uso de limitação de taxa:
| Cota | SpikeArrest | LLMTokenQuota | PromptTokenLimit | |
|---|---|---|---|---|
| Use para: | Limitar o número de chamadas de proxy de API que um app ou desenvolvedor pode fazer durante um período específico. É melhor para limitação de taxa em intervalos de tempo mais longos, como dias, semanas ou meses, especialmente quando a contagem precisa é um requisito. | Limitar o número de chamadas de API que podem ser feitas em um proxy de API em todos os consumidores durante um curto período, como segundos ou minutos. | Gerenciar e limitar o consumo total de tokens para chamadas de API de LLM durante um período especificado (minuto, hora, dia, semana ou mês). Isso permite controlar os gastos com LLMs e aplicar um gerenciamento granular de cotas com base em produtos de API. | Proteja o back-end de destino do proxy de API contra abuso de tokens, comandos em massa e possíveis tentativas de negação de serviço limitando a taxa de tokens enviados na entrada ao limitar as solicitações com base no número de tokens na mensagem de comando do usuário. É um paradigma comparativo à detenção de pico para tráfego de API, mas para tokens. |
| Não use para: | Protege o back-end de destino do proxy de API contra picos de tráfego. Use SpikeArrest ou PromptTokenLimit para isso. | Contar e limitar o número de conexões que os apps podem fazer ao back-end de destino do proxy da API durante um período específico, principalmente quando a contagem precisa é necessária. | Protege o back-end de destino do proxy de API contra abuso de token. Use PromptTokenLimit para isso. | Contar e limitar com precisão o número total de tokens consumidos para faturamento ou gerenciamento de cotas de longo prazo. Use a política LLMTokenQuota para isso. |
| Armazena uma contagem? | Sim | Não | Sim, ele mantém contadores que rastreiam o número de tokens consumidos pelas respostas do LLM. | Ele conta tokens para aplicar um limite de taxa, mas não armazena uma contagem persistente de longo prazo, como a política LLMTokenQuota. |
| Práticas recomendadas para anexar a política: |
Anexe-a ao PreFlow de solicitação do ProxyEndpoint, geralmente após a autenticação do usuário. Assim, a política pode verificar o contador de cotas no ponto de entrada do proxy de API. |
Anexe-a ao PreFlow de solicitação do ProxyEndpoint, geralmente no início do fluxo. Isso fornece proteção contra picos no ponto de entrada do proxy da API. Se você usar as políticas de SpikeArrest e Quota no mesmo proxy, a política de SpikeArrest sempre será anexada antes da política de Quota no pré-fluxo de solicitação do ProxyEndpoint. A SpikeArrest atua como uma primeira linha de defesa contra picos repentinos de tráfego, suavizando o tráfego antes que as solicitações sejam avaliadas em relação aos limites de cota de longo prazo. Isso evita que picos esgotem a cota prematuramente. |
Aplique a política de aplicação ( |
Anexe-a ao PreFlow de solicitação do ProxyEndpoint, no início do fluxo, para proteger seu back-end contra solicitações grandes demais. Se você usar as políticas PromptTokenLimit e LLMTokenQuota no mesmo proxy, a PromptTokenLimit sempre precisará ser anexada antes da política LLMTokenQuota no pré-fluxo de solicitação do ProxyEndpoint. O PromptTokenLimit atua como uma primeira linha de defesa contra comandos grandes, rejeitando-os antes que as solicitações sejam avaliadas em relação aos limites de LLMTokenQuota de longo prazo. Isso evita que solicitações muito grandes esgotem prematuramente a cota de tokens. |
| Código de status HTTP quando o limite é atingido: | 429 (Há muitas solicitações) |
429 (Há muitas solicitações) |
429 (Há muitas solicitações) |
429 (Há muitas solicitações) |
| É bom saber: |
|
|
|
|
| Saiba mais: | Política de cotas | Política SpikeArrest | Política LLMTokenQuota | Política PromptTokenLimit |