Diese Seite gilt für Apigee und Apigee Hybrid.
Apigee Edge-Dokumentation aufrufen
Verwenden Sie die Vergleichstabelle unten, um zu entscheiden, welche Richtlinie für Ihren Ratenbegrenzungs-Anwendungsfall verwendet werden soll:
| Kontingent | SpikeArrest | LLMTokenQuota | PromptTokenLimit | |
|---|---|---|---|---|
| Anwendungsbeispiele: | Begrenzen Sie die Anzahl der API-Proxy-Aufrufe, die eine Entwickler-App oder ein Entwickler in einem bestimmten Zeitraum durchführen kann. Sie eignet sich am besten für die Ratenbegrenzung über längere Zeitintervalle wie Tage, Wochen oder Monate, insbesondere wenn eine genaue Zählung erforderlich ist. | Die Anzahl der API-Aufrufe begrenzen, die über einen kurzen Zeitraum (z. B. Sekunden oder Minuten) für alle Nutzer ausgeführt werden können. | Gesamt-Tokenverbrauch für LLM-API-Aufrufe über einen bestimmten Zeitraum (Minute, Stunde, Tag, Woche oder Monat) verwalten und begrenzen. So können Sie die Ausgaben für LLMs kontrollieren und eine detaillierte Kontingentverwaltung basierend auf API-Produkten anwenden. | Das Ziel-Back-End Ihres API-Proxy vor Tokenmissbrauch, massiven Prompts und potenziellen Denial-of-Service-Angriffen schützen, indem Sie die Rate der im Input gesendeten Tokens begrenzen. Dazu drosseln Sie Anfragen basierend auf der Anzahl der Tokens in der Prompt-Nachricht des Nutzers. Es ist ein vergleichbares Paradigma zu Spike Arrest für API-Traffic, aber für Tokens. |
| Nicht geeignete Einsatzzwecke: | Das Ziel-Back-End Ihres API-Proxy vor Trafficspitzen schützen. Verwenden Sie dazu SpikeArrest oder PromptTokenLimit. | Die Anzahl der Verbindungen erfassen und beschränken, die Anwendungen über einen bestimmten Zeitraum zum Ziel-Back-End Ihres API-Proxys herstellen können, insbesondere wenn eine genaue Zählung erforderlich ist. | Das Ziel-Back-End Ihres API-Proxy vor Tokenmissbrauch schützen. Verwenden Sie dazu PromptTokenLimit. | Die Gesamtzahl der für die Abrechnung oder langfristige Kontingentverwaltung verbrauchten Tokens muss genau gezählt und begrenzt werden. Verwenden Sie dazu die LLMTokenQuota-Richtlinie. |
| Wird eine Anzahl gespeichert? | Ja | Nein | Ja, es werden Zähler geführt, die die Anzahl der von LLM-Antworten verbrauchten Tokens erfassen. | Es werden Tokens gezählt, um ein Ratenlimit zu erzwingen, aber es wird keine dauerhafte, langfristige Anzahl wie bei der LLMTokenQuota-Richtlinie gespeichert. |
| Best Practices zum Anhängen der Richtlinie: |
Hängen Sie sie an den ProxyEndpoint Request PreFlow an, normalerweise nach der Authentifizierung des Nutzers. Dadurch kann die Richtlinie den Kontingentzähler am Einstiegspunkt Ihres API-Proxy prüfen. |
Hängen Sie sie an den ProxyEndpoint Request PreFlow an, normalerweise ganz am Anfang des Ablaufs. Dies ermöglicht einen Schutz vor Spitzen am Einstiegspunkt Ihres API-Proxys. Wenn Sie sowohl SpikeArrest- als auch Kontingentrichtlinien im selben Proxy verwenden, sollte SpikeArrest immer vor der Kontingentrichtlinie im ProxyEndpoint-Request-PreFlow angehängt werden. SpikeArrest dient als erste Verteidigungslinie gegen plötzliche Trafficspitzen. Der Traffic wird geglättet, bevor Anfragen anhand von langfristigen Kontingentlimits ausgewertet werden. So wird verhindert, dass das Kontingent durch Spitzen vorzeitig erschöpft wird. |
Wenden Sie die Erzwingungsrichtlinie ( |
Hängen Sie sie an den ProxyEndpoint Request PreFlow an, am Anfang des Ablaufs, um Ihr Backend vor zu großen Prompts zu schützen. Wenn Sie sowohl die PromptTokenLimit- als auch die LLMTokenQuota-Richtlinie im selben Proxy verwenden, sollte PromptTokenLimit immer vor der LLMTokenQuota-Richtlinie im ProxyEndpoint Request PreFlow angehängt werden. „PromptTokenLimit“ dient als erste Verteidigungslinie gegen zu große Prompts. Sie werden abgelehnt, bevor Anfragen anhand der langfristigen „LLMTokenQuota“-Grenzwerte ausgewertet werden. So wird verhindert, dass das Tokenkontingent durch zu große Prompts vorzeitig aufgebraucht wird. |
| HTTP-Statuscode bei Erreichen des Limits: | 429 (Zu viele Anfragen) |
429 (Zu viele Anfragen) |
429 (Zu viele Anfragen) |
429 (Zu viele Anfragen) |
| Gut zu wissen: |
|
|
|
|
| Weitere Informationen | Kontingentrichtlinie | SpikeArrest-Richtlinie | LLMTokenQuota-Richtlinie | PromptTokenLimit-Richtlinie |