Diese Seite gilt für Apigee und Apigee Hybrid.
Apigee Edge-Dokumentation aufrufen
Verwenden Sie die Vergleichstabelle unten, um zu entscheiden, welche Richtlinie für Ihren Ratenbegrenzungs-Anwendungsfall verwendet werden soll:
| Kontingent | SpikeArrest | LLMTokenQuota | PromptTokenLimit | |
|---|---|---|---|---|
| Anwendungsbeispiele: | Begrenzen Sie die Anzahl der API-Proxy-Aufrufe, die eine Entwickler-App oder ein Entwickler in einem bestimmten Zeitraum durchführen kann. Sie eignet sich am besten für die Ratenbegrenzung über längere Zeitintervalle wie Tage, Wochen oder Monate, insbesondere wenn eine genaue Zählung erforderlich ist. | Die Anzahl der API-Aufrufe begrenzen, die über einen kurzen Zeitraum (z. B. Sekunden oder Minuten) für alle Nutzer ausgeführt werden können. | Gesamt-Tokenverbrauch für LLM-API-Aufrufe über einen bestimmten Zeitraum (Minute, Stunde, Tag, Woche oder Monat) verwalten und begrenzen. So können Sie die Ausgaben für LLMs kontrollieren und eine detaillierte Kontingentverwaltung basierend auf API-Produkten anwenden. | Das Ziel-Back-End Ihres API-Proxy vor Tokenmissbrauch, massiven Prompts und potenziellen Denial-of-Service-Angriffen schützen, indem Sie die Rate der im Input gesendeten Tokens begrenzen. Dazu drosseln Sie Anfragen basierend auf der Anzahl der Tokens in der Prompt-Nachricht des Nutzers. Es ist ein vergleichbares Paradigma zu Spike Arrest für API-Traffic, aber für Tokens. |
| Nicht verwenden für: | Das Ziel-Back-End Ihres API-Proxy vor Trafficspitzen schützen. Verwenden Sie dazu SpikeArrest oder PromptTokenLimit. | Die Anzahl der Verbindungen erfassen und beschränken, die Anwendungen über einen bestimmten Zeitraum zum Ziel-Back-End Ihres API-Proxys herstellen können, insbesondere wenn eine genaue Zählung erforderlich ist. | Das Ziel-Back-End Ihres API-Proxy vor Tokenmissbrauch schützen. Verwenden Sie dazu PromptTokenLimit. | Die Gesamtzahl der für die Abrechnung oder langfristige Kontingentverwaltung verbrauchten Tokens muss genau gezählt und begrenzt werden. Verwenden Sie dazu die Richtlinie „LLMTokenQuota“. |
| Wird eine Anzahl gespeichert? | Ja | Nein | Ja, es werden Zähler geführt, die die Anzahl der von LLM-Antworten verbrauchten Tokens erfassen. | Es werden Tokens gezählt, um ein Ratenlimit zu erzwingen, aber es wird keine dauerhafte, langfristige Anzahl wie bei der LLMTokenQuota-Richtlinie gespeichert. |
| Best Practices zum Anhängen der Richtlinie: |
Hängen Sie sie an den ProxyEndpoint Request PreFlow an, normalerweise nach der Authentifizierung des Nutzers. Dadurch kann die Richtlinie den Kontingentzähler am Einstiegspunkt Ihres API-Proxy prüfen. |
Hängen Sie sie an den ProxyEndpoint Request PreFlow an, normalerweise ganz am Anfang des Ablaufs. Dies ermöglicht einen Schutz vor Spitzen am Einstiegspunkt Ihres API-Proxys. |
Wenden Sie die Erzwingungsrichtlinie (EnforceOnly) im Anfrageablauf und die Zählrichtlinie (CountOnly) im Antwortablauf an. Bei Streamingantworten hängen Sie die Zählrichtlinie an einen EventFlow an.
|
Hängen Sie sie an den ProxyEndpoint Request PreFlow an, am Anfang des Ablaufs, um Ihr Backend vor zu großen Prompts zu schützen. |
| HTTP-Statuscode bei Erreichen des Limits: | 429 (Dienst nicht verfügbar) |
429 (Dienst nicht verfügbar) |
429 (Dienst nicht verfügbar) |
429 (Dienst nicht verfügbar) |
| Gut zu wissen: |
|
|
|
|
| Weitere Informationen | Kontingentrichtlinie | SpikeArrest-Richtlinie | LLMTokenQuota-Richtlinie | PromptTokenLimit-Richtlinie |