Esta página se aplica a Apigee y Apigee Hybrid.
Consulta la documentación de
Apigee Edge.
Usa el siguiente cuadro comparativo para decidir qué política usar para tu caso de uso de límite de frecuencia:
| Cuota | SpikeArrest | LLMTokenQuota | PromptTokenLimit | |
|---|---|---|---|---|
| Úsala para lo siguiente: | Limita la cantidad de llamadas al proxy de API que una app o desarrollador puede realizar durante un período específico. Es mejor para el límite de frecuencia en intervalos de tiempo más largos, como días, semanas o meses, especialmente cuando se requiere un recuento preciso. | Limita la cantidad de llamadas a la API que se pueden realizar en un proxy de API en todos los consumidores durante un período breve, como segundos o minutos. | Administra y limita el consumo total de tokens para las llamadas a la API de LLM durante un período especificado (minuto, hora, día, semana o mes). Esto te permite controlar los gastos en LLM y aplicar una administración detallada de las cuotas en función de los productos de API. | Protege el backend de destino del proxy de API contra el abuso de tokens, las instrucciones masivas y los posibles intentos de denegación de servicio limitando la tasa de tokens enviados en la entrada a través de la regulación de las solicitudes según la cantidad de tokens en el mensaje de instrucción del usuario. Es un paradigma comparativo de Spike Arrest para el tráfico de API, pero para los tokens. |
| No lo uses para lo siguiente: | Proteger el backend de destino del proxy de API contra los aumentos de tráfico Para ello, usa SpikeArrest o PromptTokenLimit. | Contar y limitar la cantidad de conexiones que las apps pueden realizar en el backend de destino del proxy de API durante un período específico, en especial cuando se requiere un recuento preciso | Protege el backend de destino del proxy de API contra el abuso de tokens. Para ello, usa PromptTokenLimit. | Contar y limitar con precisión la cantidad total de tokens consumidos para la facturación o la administración de cuotas a largo plazo Para ello, usa la política LLMTokenQuota. |
| ¿Almacena un recuento? | Sí | No | Sí, mantiene contadores que registran la cantidad de tokens que consumen las respuestas del LLM. | Cuenta los tokens para aplicar un límite de frecuencia, pero no almacena un recuento persistente a largo plazo como la política de LLMTokenQuota. |
| Prácticas recomendadas para adjuntar la política: |
Adjúntala al flujo previo de solicitudes de ProxyEndpoint, por lo general, después de la autenticación del usuario. Esto permite que la política verifique el contador de cuotas en el punto de entrada del proxy de API. |
Adjúntala al flujo previo de solicitudes de ProxyEndpoint, por lo general, al principio del flujo. Esto proporciona protección contra los aumentos de tráfico en el punto de entrada del proxy de API. Si usas políticas de SpikeArrest y de cuota en el mismo proxy, SpikeArrest siempre debe adjuntarse antes de la política de cuota en el flujo previo de solicitud de ProxyEndpoint. SpikeArrest actúa como primera línea de defensa contra los aumentos repentinos de tráfico, ya que suaviza el tráfico antes de que las solicitudes se evalúen en función de los límites de cuota a largo plazo. Esto evita que los picos agoten la cuota de forma prematura. |
Aplica la política de aplicación ( |
Adjúntala al flujo previo de solicitudes de ProxyEndpoint, al comienzo del flujo, para proteger tu backend de mensajes demasiado grandes. Si usas las políticas PromptTokenLimit y LLMTokenQuota en el mismo proxy, PromptTokenLimit siempre debe adjuntarse antes que la política LLMTokenQuota en el ProxyEndpoint Request PreFlow. PromptTokenLimit actúa como una primera línea de defensa contra las instrucciones demasiado grandes, ya que las rechaza antes de que las solicitudes se evalúen en función de los límites de LLMTokenQuota a largo plazo. Esto evita que las instrucciones demasiado grandes agoten prematuramente la cuota de tokens. |
| Código de estado HTTP cuando se alcanza el límite: | 429 (Demasiadas solicitudes) |
429 (Demasiadas solicitudes) |
429 (Demasiadas solicitudes) |
429 (Demasiadas solicitudes) |
| Información útil: |
|
|
|
|
| Obtén más detalles: | Política de cuotas | Política de SpikeArrest | Política LLMTokenQuota | Política PromptTokenLimit |