Cette page s'applique à Apigee et à Apigee hybrid.
Consultez la documentation d'
Apigee Edge.
Le tableau comparatif ci-dessous vous aidera à déterminer la règle à utiliser pour votre cas d'utilisation de limitation du débit :
| Quota | SpikeArrest | LLMTokenQuota | PromptTokenLimit | |
|---|---|---|---|---|
| Utilisez-le pour : | Limiter le nombre d'appels de proxy d'API qu'un développeur ou une application peut effectuer sur une période spécifique. Elle est idéale pour limitation du débit sur des intervalles de temps plus longs (jours, semaines ou mois, par exemple), en particulier lorsque le comptage précis est requis. | Limiter le nombre d'appels d'API pouvant être effectués sur un même proxy d'API par l'ensemble des clients sur une courte période, par exemple en secondes ou en minutes. | Gérez et limitez la consommation totale de jetons pour les appels d'API LLM sur une période spécifiée (minute, heure, jour, semaine ou mois). Cela vous permet de contrôler les dépenses liées aux LLM et d'appliquer une gestion précise des quotas en fonction des produits d'API. | Protégez le backend cible de votre proxy d'API contre l'utilisation abusive de jetons, les requêtes massives et les tentatives potentielles de déni de service en limitant le nombre de jetons envoyés dans l'entrée. Pour ce faire, limitez les requêtes en fonction du nombre de jetons dans le message de requête de l'utilisateur. Il s'agit d'un paradigme comparatif à SpikeArrest pour le trafic d'API, mais pour les jetons. |
| Ne l'utilisez pas pour : | Protégez le backend cible de votre proxy d'API contre les pics de trafic. Utilisez SpikeArrest ou PromptTokenLimit pour cela. | Compter et limiter le nombre de connexions que les applications peuvent établir avec le backend cible de votre proxy d'API sur une période donnée, en particulier lorsque le comptage précis est requis. | Protégez le backend cible de votre proxy d'API contre l'utilisation abusive de jetons. Pour cela, utilisez PromptTokenLimit. | Comptez et limitez précisément le nombre total de jetons consommés pour la facturation ou la gestion des quotas à long terme. Pour cela, utilisez la règle LLMTokenQuota. |
| Stocke un décompte ? | Oui | Non | Oui, il gère des compteurs qui suivent le nombre de jetons consommés par les réponses du LLM. | Il comptabilise les jetons pour appliquer une limite de fréquence, mais ne stocke pas de nombre persistant à long terme comme la règle LLMTokenQuota. |
| Bonnes pratiques pour associer la règle : |
Associez-la au PreFlow de requête ProxyEndpoint, généralement après l'authentification de l'utilisateur. Cela permet à la règle de vérifier le compteur de quotas au niveau du point d'entrée du proxy d'API. |
Associez-la au PreFlow de requête ProxyEndpoint, généralement au tout début du flux. Cela offre une protection contre les pics au niveau du point d'entrée du proxy d'API. Si vous utilisez à la fois des règles SpikeArrest et de quota dans le même proxy, SpikeArrest doit toujours être associé avant la règle de quota dans le PreFlow de la requête ProxyEndpoint. SpikeArrest sert de première ligne de défense contre les pics de trafic soudains. Il permet de lisser le trafic avant que les requêtes ne soient évaluées par rapport aux limites de quota à long terme. Cela empêche les pics d'épuiser prématurément le quota. |
Appliquez la règle d'application ( |
Associez-la au PreFlow de requête ProxyEndpoint, au début du flux, pour protéger votre backend contre les requêtes surdimensionnées. Si vous utilisez les règles PromptTokenLimit et LLMTokenQuota dans le même proxy, PromptTokenLimit doit toujours être associé avant la règle LLMTokenQuota dans le préflux de la requête ProxyEndpoint. PromptTokenLimit sert de première ligne de défense contre les requêtes trop volumineuses, en les refusant avant que les requêtes ne soient évaluées par rapport aux limites de quota LLMTokenQuota à long terme. Cela empêche les requêtes surdimensionnées d'épuiser prématurément le quota de jetons. |
| Code d'état HTTP une fois la limite atteinte : | 429 (Trop de demandes) |
429 (Trop de demandes) |
429 (Trop de demandes) |
429 (Trop de demandes) |
| Bon à savoir : |
|
|
|
|
| En savoir plus : | Règles relatives aux quotas | Règle SpikeArrest | Règle LLMTokenQuota | Règle PromptTokenLimit |