Diese Seite gilt für Apigee, aber nicht für Apigee Hybrid.
Apigee Edge-Dokumentation aufrufen
Übersicht
Die Richtlinie „PromptTokenLimit“ schützt LLM-Backends (Large Language Model) vor Trafficspitzen, indem die Anzahl der Tokens in Nutzer-Prompts begrenzt wird.
Die PromptTokenLimit-Richtlinie ähnelt der SpikeArrest-Richtlinie. Die SpikeArrest-Richtlinie begrenzt jedoch die Anzahl der Anfragen, während die PromptTokenLimit-Richtlinie die Anzahl der Tokens in diesen Anfragen begrenzt. Diese Richtlinie ist speziell auf LLM-Anwendungen zugeschnitten, bei denen Kosten und Leistung direkt mit der Anzahl der verarbeiteten Tokens zusammenhängen.
Diese Richtlinie ist eine erweiterbare Richtlinie, deren Verwendung je nach Apigee-Lizenz Auswirkungen auf die Kosten oder die Nutzung haben kann. Informationen zu Richtlinientypen und Auswirkungen auf die Nutzung finden Sie unter Richtlinientypen.
Unterschied zwischen „PromptTokenLimit“ und „LLMTokenQuota“
Die PromptTokenLimit-Richtlinie wird für die operative Trafficverwaltung verwendet, um plötzliche Spitzen bei der Tokennutzung zu verhindern. Im Gegensatz dazu wird die LLMTokenQuota-Richtlinie verwendet, um Nutzungsbeschränkungen für Clientanwendungen über längere Zeiträume (z. B. Stunden, Tage oder Monate) durchzusetzen, um Kosten zu verwalten und Geschäftsvereinbarungen durchzusetzen.
Element PromptTokenLimit
Definiert die PromptTokenLimit-Richtlinie.
| Standardwert | Siehe Tab Standardrichtlinie unten. |
| Erforderlich? | Optional |
| Typ | Komplexes Objekt |
| Übergeordnetes Element | – |
| Untergeordnete Elemente |
<Identifier><Rate> (Erforderlich)<UseEffectiveCount><UserPromptSource><IgnoreUnresolvedVariables> |
Syntax
Das PromptTokenLimit-Element verwendet die folgende Syntax:
<PromptTokenLimit continueOnError="false" enabled="true" name="POLICY_NAME">
<DisplayName></DisplayName>
<Properties/>
<UserPromptSource>{jsonPath('$.contents[-1].parts[-1].text',request.content,true)}</UserPromptSource>
<Identifier ref=""/>
<Rate ref="">[pm|ps]</Rate>
<UseEffectiveCount>[false|true]</UseEffectiveCount>
<IgnoreUnresolvedVariables>[false|true]</IgnoreUnresolvedVariables>
</PromptTokenLimit>
Standardrichtlinie
Das folgende Beispiel zeigt die Standardeinstellungen, wenn Sie Ihrem Ablauf in der Benutzeroberfläche eine PromptTokenLimit-Richtlinie hinzufügen:
<PromptTokenLimit continueOnError="false" enabled="true" name="PTL-limitTokens-1">
<DisplayName></DisplayName>
<Properties/>
<UserPromptSource>{jsonPath('$.contents[-1].parts[-1].text',request.content,true)}</UserPromptSource>
<Identifier ref=""/>
<Rate ref="">[pm|ps]</Rate>
<UseEffectiveCount>[false|true]</UseEffectiveCount>
<IgnoreUnresolvedVariables>[false|true]</IgnoreUnresolvedVariables>
</PromptTokenLimit>
Dieses Element hat folgende Attribute, die allen Richtlinien gemeinsam sind:
| Attribut | Standard | Erforderlich? | Beschreibung |
|---|---|---|---|
name |
- | Erforderlich |
Der interne Name der Richtlinie. Der Wert des Attributs Optional können Sie das Element |
continueOnError |
false | Optional | Legen Sie false fest, um einen Fehler zurückzugeben, wenn eine Richtlinie fehlschlägt. Dies ist für die meisten Richtlinien das erwartete Verhalten. Legen Sie true fest, damit die Ablaufausführung auch nach dem Fehlschlagen einer Richtlinie fortgesetzt wird. Weitere Informationen:
|
enabled |
wahr | Optional | Setzen Sie den Wert auf true, um die Richtlinie zu erzwingen. Legen Sie false fest, um die Richtlinie zu deaktivieren. Die Richtlinie wird nicht durchgesetzt, selbst wenn sie mit einem Ablauf verknüpft ist. |
async |
false | Verworfen | Dieses Attribut wurde verworfen. |
Beispiele
Die folgenden Beispiele zeigen einige Möglichkeiten, wie Sie die PromptTokenLimit-Richtlinie verwenden können:
Beispiel 1
Beschränkung von Prompt-Tokens innerhalb eines einzelnen Replikats.
In diesem Beispiel erfolgt die Begrenzung der Prompt-Tokens innerhalb eines einzelnen Replikats und wird nicht auf mehrere Message Processors in einer Region verteilt.
<PromptTokenLimit continueOnError="false" enabled="true" name="PTL-limitTokens-1">
<DisplayName></DisplayName>
<Properties/>
<UserPromptSource>{jsonPath('$.contents[-1].parts[-1].text',request.content,true)}</UserPromptSource>
<Identifier ref="request.url"/>
<Rate>1pm</Rate>
<UseEffectiveCount>false</UseEffectiveCount>
</PromptTokenLimit>Beispiel 2
Begrenzung verteilter Tokens.
In diesem Beispiel wird die Begrenzung von Prompt-Tokens auf mehrere Replikate in einer Region verteilt und ein Ratenbegrenzungsalgorithmus des Typs „Gleitendes Fenster“ verwendet.
<PromptTokenLimit continueOnError="false" enabled="true" name="PTL-limitTokens-1">
<DisplayName></DisplayName>
<Properties/>
<UserPromptSource>{jsonPath('$.contents[-1].parts[-1].text',request.content,true)}</UserPromptSource>
<Identifier ref="request.url"/>
<Rate>1pm</Rate>
<UseEffectiveCount>true</UseEffectiveCount>
</PromptTokenLimit>Beispiel 3
Tokenbegrenzung für die Größe des Kontextfensters pro Anfrage.
In diesem Beispiel erfolgt die Begrenzung der Prompt-Tokens innerhalb eines einzelnen Replikats und wird nicht auf mehrere Message Processors in einer Region verteilt. Diese spezielle Konfiguration wird für die Tokenbegrenzung der Kontextfenstergröße pro Anfrage verwendet.
<PromptTokenLimit continueOnError="false" enabled="true" name="PTL-limitTokens-1">
<DisplayName></DisplayName>
<Properties/>
<UserPromptSource>{jsonPath('$.messages',request.content,true)}</UserPromptSource>
<Identifier ref="messageid"/>
<Rate>1pm</Rate>
<UseEffectiveCount>false</UseEffectiveCount>
</PromptTokenLimit>Beispiel 4
Verteiltes Token-Limit mit Standardwerten.
In diesem Beispiel erfolgt die Begrenzung der Prompt-Tokens innerhalb eines einzelnen Replikats und wird nicht auf mehrere Message Processors in einer Region verteilt. Der Standardwert für die Quelle des Nutzer-Prompts wird verwendet:
{jsonPath('$.messages',request.content,true)}
<PromptTokenLimit continueOnError="false" enabled="true" name="PTL-limitTokens-1"> <DisplayName></DisplayName> <Properties/> <Identifier ref="messageid"/> <Rate>1pm</Rate> <UseEffectiveCount>false</UseEffectiveCount> </PromptTokenLimit>
Verweis auf untergeordnetes Element
In diesem Abschnitt werden die untergeordneten Elemente von <PromptTokenLimit> beschrieben.
<DisplayName>
Wird zusätzlich zum Attribut name verwendet, um die Richtlinie im Proxy-Editor der Verwaltungs-UI mit einem anderen, natürlicher klingenden Namen zu versehen.
Das Element <DisplayName> ist für alle Richtlinien gleich.
| Standardwert | – |
| Erforderlich? | Optional. Wenn Sie <DisplayName> weglassen, wird der Wert des Attributs name der Richtlinie verwendet. |
| Typ | String |
| Übergeordnetes Element | <PolicyElement> |
| Untergeordnete Elemente | Keine |
Das <DisplayName>-Element verwendet die folgende Syntax:
Syntax
<PolicyElement> <DisplayName>POLICY_DISPLAY_NAME</DisplayName> ... </PolicyElement>
Beispiel
<PolicyElement> <DisplayName>My Validation Policy</DisplayName> </PolicyElement>
Das <DisplayName>-Element hat keine Attribute oder untergeordneten Elemente.
<Identifier>
Hier können Sie auswählen, wie die Anfragen gruppiert werden, sodass die PromptTokenLimit-Richtlinie basierend auf dem Client angewendet werden kann. Sie können beispielsweise Anfragen nach Entwickler-ID gruppieren. In diesem Fall werden die Anfragen jedes Entwicklers auf die eigene PromptTokenLimit-Rate und nicht auf alle Anfragen an den Proxy angerechnet.
Wenn Sie das Element <Identifier> leer lassen, wird für alle Anfragen an diesen API-Proxy eine Ratenbegrenzung erzwungen.
| Standardwert | – |
| Erforderlich? | Optional |
| Typ | String |
| Übergeordnetes Element |
<PromptTokenLimit>
|
| Untergeordnete Elemente | Keine |
Syntax
<PromptTokenLimit continueOnError="[false|true]" enabled="[true|false]" name="POLICY_NAME" > <Identifier ref="FLOW_VARIABLE"/> </PromptTokenLimit>
Beispiel 1
Im folgenden Beispiel wird die PromptTokenLimit-Richtlinie pro Entwickler-ID angewendet:
<PromptTokenLimit name="PTL-limitTokens-1">
<Identifier ref="developer.id"/>
<Rate>42pm</Rate/>
<UseEffectiveCount>true</UseEffectiveCount>
</PromptTokenLimit>
In der folgenden Tabelle werden die Attribute von <Identifier> beschrieben:
| Attribut | Beschreibung | Standard | Präsenz |
|---|---|---|---|
ref |
Gibt die Variable an, über die PromptTokenLimit eingehende Anfragen gruppiert. Sie können jede beliebige Ablaufvariable verwenden, um einen eindeutigen Client anzugeben, wie diejenigen, die mit der VerifyAPIKey-Richtlinie verfügbar sind. Sie können auch benutzerdefinierte Variablen mithilfe der JavaScript-Richtlinie oder der AssignMessage-Richtlinie festlegen. | – | Erforderlich |
<Rate>
Gibt die Rate an, mit der die Token-Spitzen (oder Bursts) durch Begrenzung der Anzahl der Tokens pro Minute oder pro Sekunde eingeschränkt werden.
Sie können dieses Element zusammen mit <Identifier> verwenden, um den Traffic während der Laufzeit reibungslos zu drosseln, indem Sie Werte vom Client akzeptieren.
Verwenden Sie das Element <UseEffectiveCount>, um den von der Richtlinie verwendeten Algorithmus für die Ratenbegrenzung festzulegen.
| Standardwert | – |
| Erforderlich? | Erforderlich |
| Typ | Ganzzahl |
| Übergeordnetes Element |
<PromptTokenLimit>
|
| Untergeordnete Elemente | Keine |
Syntax
Sie können Raten auf eine der folgenden Arten angeben:
- Eine statische Rate, die Sie als Text des Elements
<Rate>angeben. - Ein variabler Wert, der vom Client übergeben werden kann; Ermitteln Sie den Namen der Ablaufvariablen mithilfe des Attributs
ref.
<PromptTokenLimit
continueOnError="[false|true]"
enabled="[true|false]"
name="POLICY_NAME"
>
<Rate ref="FLOW_VARIABLE">RATE[pm|ps]</Rate>
</PromptTokenLimit>Gültige Ratenwerte, die entweder als Variablenwert oder im Textkörper des Elements definiert sind, müssen dem folgenden Format entsprechen:
intps(Anzahl der Tokens pro Sekunde, in Millisekundenintervalle geglättet)intpm(Anzahl der Tokens pro Minute, in Sekundenintervalle geglättet)
Der Wert von int muss eine positive Ganzzahl ungleich Null sein.
Beispiel 1
Im folgenden Beispiel wird die Rate auf fünf Tokens pro Sekunde festgelegt:
<PromptTokenLimit name="PTL-Static-5ps">
<Rate>5ps</Rate>
<UseEffectiveCount>false</UseEffectiveCount>
</PromptTokenLimit>
Die Richtlinie glättet die Rate auf ein Token alle 200 Millisekunden (1.000/5).
Beispiel 2
Im folgenden Beispiel wird die Rate auf 12 Tokens pro Minute festgelegt:
<PromptTokenLimit name="PTL-Static-12pm"> <Rate>12pm</Rate> <UseEffectiveCount>false</UseEffectiveCount> </PromptTokenLimit>
Diese Beispielrichtlinie glättet die Rate auf ein Token alle fünf Sekunden (60/12).
In der folgenden Tabelle werden die Attribute von <Rate> beschrieben:
| Attribut | Beschreibung | Präsenz | Standard |
|---|---|---|---|
ref |
Kennzeichnet eine Ablaufvariable, die die Rate angibt. Dies kann eine beliebige Ablaufvariable sein, z. B. ein HTTP-Abfrageparameter, Header oder Nachrichtentextinhalt oder ein Wert wie eine KVM. Weitere Informationen finden Sie unter Referenz zu Ablaufvariablen.
Sie können auch benutzerdefinierte Variablen mithilfe der JavaScript-Richtlinie oder der AssignMessage-Richtlinie verwenden. Wenn Sie sowohl Beispiel: <Rate ref="request.header.custom_rate">1pm</Rate> Wenn der Client in diesem Beispiel keinen Mit Wenn Sie einen Wert für |
Optional | – |
Rate beschrieben, die das Verhalten der Traffic-Drosselung definieren:
| Attribut | Beschreibung |
|---|---|
messagesPerPeriod |
Gibt die Anzahl der Tokens an, die innerhalb eines definierten Zeitraums zulässig sind. Wenn eine Richtlinie beispielsweise für „10ps“ (10 Tokens pro Sekunde) konfiguriert ist, wäre der Wert von messagesPerPeriod 10. |
periodInMicroseconds |
Definiert den Zeitraum in Mikrosekunden, über den messagesPerPeriod berechnet wird. Bei einer Konfiguration mit „10 ps“ wäre dieser Wert 1.000.000, was einer Sekunde entspricht. |
maxBurstMessageCount |
Stellt die maximale Anzahl von Tokens dar, die sofort oder in einem kurzen Burst zu Beginn eines neuen Intervalls zulässig sein können. |
<UseEffectiveCount>
Mit diesem Element können Sie zwischen verschiedenen PromptTokenLimit-Algorithmen wählen, indem Sie den Wert auf true oder false setzen, wie unten erläutert:
wahr
Wenn true festgelegt ist, wird PromptTokenLimit in einer Region verteilt. Das bedeutet, dass die Anzahl der Anfragen zwischen den Message Processors (MPs) in einer Region synchronisiert wird. Außerdem wird ein Ratenbegrenzungsalgorithmus des Typs "Gleitendes Fenster" verwendet. Dieser Algorithmus bietet ein konsistentes Ratenbegrenzungsverhalten und "glättet" nicht die Anzahl der eingehenden Anfragen, die an das Back-End gesendet werden können. Wenn eine Vielzahl von Anfragen in einem kurzen Zeitintervall gesendet wird, sind sie zulässig, solange sie die im Element <Rate> festgelegte Ratenbegrenzung nicht überschreiten. Beispiel:
<PromptTokenLimit name="Prompt-Token-Limit-1"> <Rate>12pm</Rate> <Identifier ref="client_id" /> <UseEffectiveCount>true</UseEffectiveCount> </PromptTokenLimit>
false (Standardeinstellung)
Wenn der Wert auf false (Standardeinstellung) gesetzt ist, verwendet die PromptTokenLimit-Richtlinie einen Algorithmus des Typs Token-Bucket, der die Token-Spitzen glättet, indem die von Ihnen angegebene Ratenbegrenzung in kleinere Intervalle aufgeteilt wird. Ein Nachteil dieses Ansatzes ist, dass mehrere legitime Tokens, die über einen kurzen Zeitraum eingehen, potenziell abgelehnt werden können.
Angenommen, Sie geben eine Rate von 30pm (30 Tokens pro Minute) ein. Beim Testen können Sie 30 Tokens innerhalb einer Sekunde senden, sofern sie innerhalb einer Minute gesendet wurden. Aber das wird nicht durch die Richtlinie erzwungen. Wenn Sie darüber nachdenken, können 30 Tokens innerhalb eines Zeitraums von 1 Sekunde in einigen Umgebungen als kleiner Anstieg angesehen werden.
-
Minutenraten werden in vollständige Anfragen geglättet, die in Intervallen von Sekunden zulässig sind.
Zum Beispiel wird 30pm so geglättet:
60 Sekunden (1 Minute) / 30pm = 2-Sekunden-Intervalle oder alle 2 Sekunden ist 1 Token zulässig. Ein zweites Token innerhalb von 2 Sekunden schlägt fehl. Außerdem schlägt das 31. Token innerhalb einer Minute fehl. -
Sekundenraten werden in vollständige Anfragen geglättet, die in Intervallen von Millisekunden zulässig sind.
10ps werden z. B. so geglättet:
1.000 Millisekunden (1 Sekunde) / 10ps = 100-Millisekunden-Intervalle bzw. 1 Token alle 100 Millisekunden. Ein zweites Token innerhalb von 100 ms schlägt fehl. Außerdem schlägt ein elftes Token innerhalb einer Sekunde fehl.
| Standardwert | False |
| Erforderlich? | Optional |
| Typ | Boolescher Wert |
| Übergeordnetes Element |
<PromptTokenLimit>
|
| Untergeordnete Elemente | Keine |
In der folgenden Tabelle werden die Attribute des <UseEffectiveCount> -Elements beschrieben:
| Attribut | Beschreibung | Standard | Präsenz |
|---|---|---|---|
ref |
Gibt die Variable an, die den Wert von <UseEffectiveCount> enthält. Dies kann eine beliebige Ablaufvariable sein, z. B. der HTTP-Abfrageparameter, der Header oder der Nachrichteninhalt. Weitere Informationen finden Sie unter Referenz zu Ablaufvariablen. Sie können auch benutzerdefinierte Variablen mithilfe der JavaScript-Richtlinie oder der AssignMessage-Richtlinie festlegen. |
– | Optional |
<UserPromptSource>
Gibt die Quelle für den Text des Nutzer-Prompts an. Nachrichtenvorlage verwenden
Die Nachrichtenvorlage sollte einen einzelnen Wert für den Text des Nutzer-Prompts enthalten.
Beispiel: {jsonPath('$.contents[-1].parts[-1].text',request.content,true)}.
| Standardwert | – |
| Erforderlich? | Optional |
| Typ | String |
| Übergeordnetes Element |
<PromptTokenLimit>
|
| Untergeordnete Elemente | Keine |
Syntax
<PromptTokenLimit
continueOnError="[false|true]"
enabled="[true|false]"
name="POLICY_NAME">
<UserPromptSource>{jsonPath('$.contents[-1].parts[-1].text',request.content,true)}</UserPromptSource>
</PromptTokenLimit>Beispiel 1
<PromptTokenLimit name="Prompt-Token-Limit-1">
<UserPromptSource>{jsonPath('$.contents[-1].parts[-1].text',request.content,true)}</UserPromptSource>
</PromptTokenLimit><IgnoreUnresolvedVariables>
Bestimmt, ob die Verarbeitung beendet wird, wenn eine nicht aufgelöste Variable erkannt wird.
Auf true festlegen, um nicht aufgelöste Variablen zu ignorieren und die Verarbeitung fortzusetzen. Andernfalls false. Der Standardwert ist false.
| Standardwert | False |
| Erforderlich? | Optional |
| Typ | Boolescher Wert |
| Übergeordnetes Element |
<PromptTokenLimit>
|
| Untergeordnete Elemente | Keine |
Syntax
<PromptTokenLimit
continueOnError="[false|true]"
enabled="[true|false]"
name="POLICY_NAME">
<IgnoreUnresolvedVariables>[true|false]</IgnoreUnresolvedVariables>
</PromptTokenLimit>Beispiel
<PromptTokenLimit name="Prompt-Token-Limit-1"> <Rate>10ps</Rate> <IgnoreUnresolvedVariables>true</IgnoreUnresolvedVariables> </PromptTokenLimit>
Ablaufvariablen
Wenn eine PromptTokenLimit-Richtlinie ausgeführt wird, werden die folgenden Ablaufvariablen ausgefüllt:
| Variable | Typ | Berechtigung | Beschreibung |
|---|---|---|---|
ratelimit.POLICY_NAME.failed |
Boolesch | Schreibgeschützt: | Gibt an, ob die Richtlinie fehlgeschlagen ist (true oder false). |
ratelimit.POLICY_NAME.resolvedUserPrompt |
String | Schreibgeschützt: | Gibt den extrahierten Nutzer-Prompt zurück. |
ratelimit.POLICY_NAME.userPromptSource |
String | Schreibgeschützt: | Gibt die Nachrichtenvorlage für den in der Richtlinie angegebenen Nutzer-Prompt zurück. |
ratelimit.POLICY_NAME.userPromptTokenCount |
String | Schreibgeschützt: | Gibt die Anzahl der Tokens der extrahierten Nutzeranfrage zurück. |
Weitere Informationen finden Sie unter Referenz zu Ablaufvariablen.
Fehlerreferenz
In diesem Abschnitt werden die zurückgegebenen Fehlercodes und Fehlermeldungen beschrieben, die von Apigee festgelegt werden, wenn die Richtlinie einen Fehler auslöst. Möglicherweise werden auch Fehler bei der SpikeArrest-Richtlinie angezeigt. Diese Informationen sind wichtig, wenn Sie Fehlerregeln zur Verarbeitung von Fehlern entwickeln. Weitere Informationen finden Sie unter Was Sie über Richtlinienfehler wissen müssen und Fehler beheben.
Laufzeitfehler
Diese Fehler können bei Ausführung der Richtlinie auftreten.
| Fehlercode | HTTP-Status | Apigee-Fehler | Ursache | Korrigieren |
|---|---|---|---|---|
policies.prompttokenlimit.FailedToExtractUserPrompt |
400 |
FALSE | Der Nutzer-Prompt konnte nicht aus der API-Anfrage extrahiert werden. | |
policies.prompttokenlimit.PromptTokenLimitViolation |
429 |
FALSE | Verstoß gegen das Prompt-Tokenlimit. | |
policies.prompttokenlimit.FailedToCalculateUserPromptTokens |
500 |
TRUE | Für den Nutzer-Prompt können keine Tokens berechnet werden. |
Bereitstellungsfehler
Diese Fehler können auftreten, wenn Sie einen Proxy mit dieser Richtlinie bereitstellen.
| Fehlercode | HTTP-Status | Apigee-Fehler | Ursache | Beheben |
|---|---|---|---|---|
policies.prompttokenlimit.MessageWeightNotSupported |
500 | FALSE | „MessageWeight“ wird für die Richtlinie „PromptTokenLimit“ nicht unterstützt. |
Fehlervariablen
Diese Variablen werden bei Laufzeitfehlern festgelegt. Weitere Informationen finden Sie unter Was Sie über Richtlinienfehler wissen müssen.
| Variablen | Definition | Beispiel |
|---|---|---|
ratelimit.policy_name.fault.name |
fault_name ist der Name des Fehlers, der in der obigen Tabelle Laufzeitfehler aufgeführt ist. Der Fehlername ist der letzte Teil des Fehlercodes. | fault.name Matches "PromptTokenLimitViolation" |
ratelimit.policy_name.failed |
policy_name ist der benutzerdefinierte Name der Richtlinie, die den Fehler ausgegeben hat. | ratelimit.PTL-PromptTokenLimitPolicy.failed = true |
Beispiel für eine Fehlerantwort
Im Folgenden sehen Sie ein Beispiel für eine Fehlerantwort:
{ "fault":{ "detail":{ "errorcode":"policies.prompttokenlimit.PromptTokenLimitViolation" }, "faultstring":"Prompt Token Limit Violation. Allowed rate : MessageRate{capacity=10, period=Minutes}" } }
Beispiel für eine Fehlerregel
Unten sehen Sie ein Beispiel für eine Fehlerregel zum Verarbeiten eines PromptTokenLimitViolation-Fehlers:
<FaultRules>
<FaultRule name="Prompt Token Limit Errors">
<Step>
<Name>JavaScript-1</Name>
<Condition>(fault.name Matches "PromptTokenLimitViolation") </Condition>
</Step>
<Condition>ratelimit.PTL-1.failed=true</Condition>
</FaultRule>
</FaultRules>Der aktuelle HTTP-Statuscode zum Überschreiten einer Ratenbegrenzung, die von einer LLMTokenQuota- oder PromptTokenLimit-Richtlinie festgelegt wurde, lautet 429 (Zu viele Anfragen).
Schemas
Jeder Richtlinientyp wird durch ein XML-Schema (.xsd) definiert. Zu Referenzzwecken sind Richtlinienschemas auf GitHub verfügbar.
Weitere Informationen
- LLMTokenQuota-Richtlinie: LLMTokenQuota-Richtlinie zum Beschränken der Nutzung des Antworttokenkontingents.
- Ratenbegrenzung für eine Übersicht über Ratenbegrenzungen
- Richtlinien zur Ratenbegrenzung im Vergleich