Richtlinien zur Ratenbegrenzung im Vergleich

Diese Seite gilt für Apigee und Apigee Hybrid.

Apigee Edge-Dokumentation aufrufen

Verwenden Sie die Vergleichstabelle unten, um zu entscheiden, welche Richtlinie für Ihren Ratenbegrenzungs-Anwendungsfall verwendet werden soll:

Kontingent SpikeArrest LLMTokenQuota PromptTokenLimit
Anwendungsbeispiele: Begrenzen Sie die Anzahl der API-Proxy-Aufrufe, die eine Entwickler-App oder ein Entwickler in einem bestimmten Zeitraum durchführen kann. Sie eignet sich am besten für die Ratenbegrenzung über längere Zeitintervalle wie Tage, Wochen oder Monate, insbesondere wenn eine genaue Zählung erforderlich ist. Die Anzahl der API-Aufrufe begrenzen, die über einen kurzen Zeitraum (z. B. Sekunden oder Minuten) für alle Nutzer ausgeführt werden können. Gesamt-Tokenverbrauch für LLM-API-Aufrufe über einen bestimmten Zeitraum (Minute, Stunde, Tag, Woche oder Monat) verwalten und begrenzen. So können Sie die Ausgaben für LLMs kontrollieren und eine detaillierte Kontingentverwaltung basierend auf API-Produkten anwenden. Das Ziel-Back-End Ihres API-Proxy vor Tokenmissbrauch, massiven Prompts und potenziellen Denial-of-Service-Angriffen schützen, indem Sie die Rate der im Input gesendeten Tokens begrenzen. Dazu drosseln Sie Anfragen basierend auf der Anzahl der Tokens in der Prompt-Nachricht des Nutzers. Es ist ein vergleichbares Paradigma zu Spike Arrest für API-Traffic, aber für Tokens.
Nicht verwenden für: Das Ziel-Back-End Ihres API-Proxy vor Trafficspitzen schützen. Verwenden Sie dazu SpikeArrest oder PromptTokenLimit. Die Anzahl der Verbindungen erfassen und beschränken, die Anwendungen über einen bestimmten Zeitraum zum Ziel-Back-End Ihres API-Proxys herstellen können, insbesondere wenn eine genaue Zählung erforderlich ist. Das Ziel-Back-End Ihres API-Proxy vor Tokenmissbrauch schützen. Verwenden Sie dazu PromptTokenLimit. Die Gesamtzahl der für die Abrechnung oder langfristige Kontingentverwaltung verbrauchten Tokens muss genau gezählt und begrenzt werden. Verwenden Sie dazu die Richtlinie „LLMTokenQuota“.
Wird eine Anzahl gespeichert? Ja Nein Ja, es werden Zähler geführt, die die Anzahl der von LLM-Antworten verbrauchten Tokens erfassen. Es werden Tokens gezählt, um ein Ratenlimit zu erzwingen, aber es wird keine dauerhafte, langfristige Anzahl wie bei der LLMTokenQuota-Richtlinie gespeichert.
Best Practices zum Anhängen der Richtlinie:

Hängen Sie sie an den ProxyEndpoint Request PreFlow an, normalerweise nach der Authentifizierung des Nutzers.

Dadurch kann die Richtlinie den Kontingentzähler am Einstiegspunkt Ihres API-Proxy prüfen.

Hängen Sie sie an den ProxyEndpoint Request PreFlow an, normalerweise ganz am Anfang des Ablaufs.

Dies ermöglicht einen Schutz vor Spitzen am Einstiegspunkt Ihres API-Proxys.

Wenden Sie die Erzwingungsrichtlinie (EnforceOnly) im Anfrageablauf und die Zählrichtlinie (CountOnly) im Antwortablauf an. Bei Streamingantworten hängen Sie die Zählrichtlinie an einen EventFlow an. Hängen Sie sie an den ProxyEndpoint Request PreFlow an, am Anfang des Ablaufs, um Ihr Backend vor zu großen Prompts zu schützen.
HTTP-Statuscode bei Erreichen des Limits: 429 (Dienst nicht verfügbar) 429 (Dienst nicht verfügbar) 429 (Dienst nicht verfügbar) 429 (Dienst nicht verfügbar)
Gut zu wissen:
  • Der Kontingentzähler wird in Cassandra gespeichert.
  • Sie können die Richtlinie so konfigurieren, dass der Zähler asynchron synchronisiert wird, um Ressourcen zu sparen. Dadurch werden eventuell etwas mehr Aufrufe als das festgelegte Limit zugelassen.
  • Hier können Sie zwischen einem Glättungs-Algorithmus und einem Maximalwert-Algorithmus wählen. Der erstere glättet die Anzahl der Anfragen, die in einem bestimmten Zeitraum auftreten können, und beim letzteren wird die Gesamtzahl der Anfragen begrenzt, die in einem bestimmten Zeitraum auftreten können, unabhängig davon, wie schnell sie nacheinander gesendet werden.
  • Die Glättung wird nicht über die Message Processors koordiniert.
  • Kann als CountOnly konfiguriert werden, um die Tokennutzung zu erfassen, oder als EnforceOnly, um Anfragen abzulehnen, die das Kontingent überschreiten.
  • Sie funktioniert mit API-Produkten und ermöglicht detaillierte Kontingentkonfigurationen basierend auf der App, dem Entwickler, dem Modell oder einer bestimmten LLM-Vorgangsmenge.
  • Verwendet <LLMTokenUsageSource>, um die Anzahl der Tokens aus der LLM-Antwort zu extrahieren, und <LLMModelSource>, um das verwendete Modell zu identifizieren.
  • Die Tokenberechnung kann sich geringfügig von der des LLM unterscheiden.
  • Das <UserPromptSource>-Element gibt die Position des Nutzer-Prompts in der Anfragenachricht an.
Weitere Informationen Kontingentrichtlinie SpikeArrest-Richtlinie LLMTokenQuota-Richtlinie PromptTokenLimit-Richtlinie