PromptTokenLimit-Richtlinie

Diese Seite gilt für Apigee, aber nicht für Apigee Hybrid.

Übersicht

Die Richtlinie „PromptTokenLimit“ schützt LLM-Backends (Large Language Model) vor Trafficspitzen, indem die Anzahl der Tokens in Nutzer-Prompts begrenzt wird.

Die PromptTokenLimit-Richtlinie ähnelt der SpikeArrest-Richtlinie. Die SpikeArrest-Richtlinie begrenzt jedoch die Anzahl der Anfragen, während die PromptTokenLimit-Richtlinie die Anzahl der Tokens in diesen Anfragen begrenzt. Diese Richtlinie ist speziell auf LLM-Anwendungen zugeschnitten, bei denen Kosten und Leistung direkt mit der Anzahl der verarbeiteten Tokens zusammenhängen.

Diese Richtlinie ist eine erweiterbare Richtlinie, deren Verwendung je nach Apigee-Lizenz Auswirkungen auf die Kosten oder die Nutzung haben kann. Informationen zu Richtlinientypen und Auswirkungen auf die Nutzung finden Sie unter Richtlinientypen.

Unterschied zwischen „PromptTokenLimit“ und „LLMTokenQuota“

Die PromptTokenLimit-Richtlinie wird für die operative Trafficverwaltung verwendet, um plötzliche Spitzen bei der Tokennutzung zu verhindern. Im Gegensatz dazu wird die LLMTokenQuota-Richtlinie verwendet, um Nutzungsbeschränkungen für Clientanwendungen über längere Zeiträume (z. B. Stunden, Tage oder Monate) durchzusetzen, um Kosten zu verwalten und Geschäftsvereinbarungen durchzusetzen.

Element `PromptTokenLimit`

Definiert die PromptTokenLimit-Richtlinie.

Standardwert	Siehe Tab Standardrichtlinie unten.
Erforderlich?	Optional
Typ	Komplexes Objekt
Übergeordnetes Element	–
Untergeordnete Elemente	`<Identifier>` `<Rate>` (Erforderlich) `<UseEffectiveCount>` `<UserPromptSource>` `<IgnoreUnresolvedVariables>`

Syntax

Das PromptTokenLimit-Element verwendet die folgende Syntax:

<PromptTokenLimit continueOnError="false" enabled="true" name="POLICY_NAME">
  <DisplayName></DisplayName>
  <Properties/>
  <UserPromptSource>{jsonPath('$.contents[-1].parts[-1].text',request.content,true)}</UserPromptSource>
  <Identifier ref=""/>
  <Rate ref="">[pm|ps]</Rate>
  <UseEffectiveCount>[false|true]</UseEffectiveCount>
  <IgnoreUnresolvedVariables>[false|true]</IgnoreUnresolvedVariables>
</PromptTokenLimit>

Standardrichtlinie

Das folgende Beispiel zeigt die Standardeinstellungen, wenn Sie Ihrem Ablauf in der Benutzeroberfläche eine PromptTokenLimit-Richtlinie hinzufügen:

<PromptTokenLimit continueOnError="false" enabled="true" name="PTL-limitTokens-1">
  <DisplayName></DisplayName>
  <Properties/>
  <UserPromptSource>{jsonPath('$.contents[-1].parts[-1].text',request.content,true)}</UserPromptSource>
  <Identifier ref=""/>
  <Rate ref="">[pm|ps]</Rate>
  <UseEffectiveCount>[false|true]</UseEffectiveCount>
  <IgnoreUnresolvedVariables>[false|true]</IgnoreUnresolvedVariables>
</PromptTokenLimit>

Dieses Element hat folgende Attribute, die allen Richtlinien gemeinsam sind:

Attribut	Standard	Erforderlich?	Beschreibung
`name`	-	Erforderlich	Der interne Name der Richtlinie. Der Wert des Attributs `name` kann Buchstaben, Ziffern, Leerzeichen, Bindestriche, Unterstriche und Punkte enthalten. Dieser Wert darf 255 Zeichen nicht überschreiten. Optional können Sie das Element `<DisplayName>` verwenden, um die Richtlinie im Proxy-Editor der Verwaltungs-UI mit einem anderen Namen in einer natürlichen Sprache zu versehen.
`continueOnError`	false	Optional	Legen Sie `false` fest, um einen Fehler zurückzugeben, wenn eine Richtlinie fehlschlägt. Dies ist für die meisten Richtlinien das erwartete Verhalten. Legen Sie `true` fest, damit die Ablaufausführung auch nach dem Fehlschlagen einer Richtlinie fortgesetzt wird. Weitere Informationen: Fehlerregeln werden NUR im Fehlerzustand ausgelöst (über continueOnError) Umgang mit Fehlern im aktuellen Ablauf
`enabled`	wahr	Optional	Setzen Sie den Wert auf `true`, um die Richtlinie zu erzwingen. Legen Sie `false` fest, um die Richtlinie zu deaktivieren. Die Richtlinie wird nicht durchgesetzt, selbst wenn sie mit einem Ablauf verknüpft ist.
`async`	false	Verworfen	Dieses Attribut wurde verworfen.

Beispiele

Die folgenden Beispiele zeigen einige Möglichkeiten, wie Sie die PromptTokenLimit-Richtlinie verwenden können:

Beispiel 1

Beschränkung von Prompt-Tokens innerhalb eines einzelnen Replikats.

In diesem Beispiel erfolgt die Begrenzung der Prompt-Tokens innerhalb eines einzelnen Replikats und wird nicht auf mehrere Message Processors in einer Region verteilt.

<PromptTokenLimit continueOnError="false" enabled="true" name="PTL-limitTokens-1">
  <DisplayName></DisplayName>
  <Properties/>
  <UserPromptSource>{jsonPath('$.contents[-1].parts[-1].text',request.content,true)}</UserPromptSource>
  <Identifier ref="request.url"/>
  <Rate>1pm</Rate>
  <UseEffectiveCount>false</UseEffectiveCount>
</PromptTokenLimit>

Beispiel 2

Begrenzung verteilter Tokens.

In diesem Beispiel wird die Begrenzung von Prompt-Tokens auf mehrere Replikate in einer Region verteilt und ein Ratenbegrenzungsalgorithmus des Typs „Gleitendes Fenster“ verwendet.

<PromptTokenLimit continueOnError="false" enabled="true" name="PTL-limitTokens-1">
  <DisplayName></DisplayName>
  <Properties/>
  <UserPromptSource>{jsonPath('$.contents[-1].parts[-1].text',request.content,true)}</UserPromptSource>
  <Identifier ref="request.url"/>
  <Rate>1pm</Rate>
  <UseEffectiveCount>true</UseEffectiveCount>
</PromptTokenLimit>

Beispiel 3

Tokenbegrenzung für die Größe des Kontextfensters pro Anfrage.

In diesem Beispiel erfolgt die Begrenzung der Prompt-Tokens innerhalb eines einzelnen Replikats und wird nicht auf mehrere Message Processors in einer Region verteilt. Diese spezielle Konfiguration wird für die Tokenbegrenzung der Kontextfenstergröße pro Anfrage verwendet.

<PromptTokenLimit continueOnError="false" enabled="true" name="PTL-limitTokens-1">
  <DisplayName></DisplayName>
  <Properties/>
  <UserPromptSource>{jsonPath('$.messages',request.content,true)}</UserPromptSource>
  <Identifier ref="messageid"/>
  <Rate>1pm</Rate>
  <UseEffectiveCount>false</UseEffectiveCount>
</PromptTokenLimit>

Beispiel 4

Verteiltes Token-Limit mit Standardwerten.

In diesem Beispiel erfolgt die Begrenzung der Prompt-Tokens innerhalb eines einzelnen Replikats und wird nicht auf mehrere Message Processors in einer Region verteilt. Der Standardwert für die Quelle des Nutzer-Prompts wird verwendet: {jsonPath('$.messages',request.content,true)}

<PromptTokenLimit continueOnError="false" enabled="true" name="PTL-limitTokens-1">
  <DisplayName></DisplayName>
  <Properties/>
  <Identifier ref="messageid"/>
  <Rate>1pm</Rate>
  <UseEffectiveCount>false</UseEffectiveCount>
</PromptTokenLimit>

Verweis auf untergeordnetes Element

In diesem Abschnitt werden die untergeordneten Elemente von <PromptTokenLimit> beschrieben.

`<DisplayName>`

Wird zusätzlich zum Attribut name verwendet, um die Richtlinie im Proxy-Editor der Verwaltungs-UI mit einem anderen, natürlicher klingenden Namen zu versehen.

Das Element <DisplayName> ist für alle Richtlinien gleich.

Standardwert	–
Erforderlich?	Optional. Wenn Sie `<DisplayName>` weglassen, wird der Wert des Attributs `name` der Richtlinie verwendet.
Typ	String
Übergeordnetes Element	<`PolicyElement`>
Untergeordnete Elemente	Keine

Das <DisplayName>-Element verwendet die folgende Syntax:

Syntax

<PolicyElement>
  <DisplayName>POLICY_DISPLAY_NAME</DisplayName>
  ...
</PolicyElement>

Beispiel

<PolicyElement>
  <DisplayName>My Validation Policy</DisplayName>
</PolicyElement>

Das <DisplayName>-Element hat keine Attribute oder untergeordneten Elemente.

`<Identifier>`

Hier können Sie auswählen, wie die Anfragen gruppiert werden, sodass die PromptTokenLimit-Richtlinie basierend auf dem Client angewendet werden kann. Sie können beispielsweise Anfragen nach Entwickler-ID gruppieren. In diesem Fall werden die Anfragen jedes Entwicklers auf die eigene PromptTokenLimit-Rate und nicht auf alle Anfragen an den Proxy angerechnet.

Wenn Sie das Element <Identifier> leer lassen, wird für alle Anfragen an diesen API-Proxy eine Ratenbegrenzung erzwungen.

Standardwert	–
Erforderlich?	Optional
Typ	String
Übergeordnetes Element	`<PromptTokenLimit>`
Untergeordnete Elemente	Keine

Syntax

<PromptTokenLimit
  continueOnError="[false|true]"
  enabled="[true|false]"
  name="POLICY_NAME"
>
  <Identifier ref="FLOW_VARIABLE"/>
</PromptTokenLimit>

Beispiel 1

Im folgenden Beispiel wird die PromptTokenLimit-Richtlinie pro Entwickler-ID angewendet:

<PromptTokenLimit name="PTL-limitTokens-1">
  <Identifier ref="developer.id"/>
  <Rate>42pm</Rate/>
  <UseEffectiveCount>true</UseEffectiveCount>
</PromptTokenLimit>

In der folgenden Tabelle werden die Attribute von <Identifier> beschrieben:

Attribut	Beschreibung	Standard	Präsenz
`ref`	Gibt die Variable an, über die PromptTokenLimit eingehende Anfragen gruppiert. Sie können jede beliebige Ablaufvariable verwenden, um einen eindeutigen Client anzugeben, wie diejenigen, die mit der VerifyAPIKey-Richtlinie verfügbar sind. Sie können auch benutzerdefinierte Variablen mithilfe der JavaScript-Richtlinie oder der AssignMessage-Richtlinie festlegen.	–	Erforderlich

`<Rate>`

Gibt die Rate an, mit der die Token-Spitzen (oder Bursts) durch Begrenzung der Anzahl der Tokens pro Minute oder pro Sekunde eingeschränkt werden. Sie können dieses Element zusammen mit <Identifier> verwenden, um den Traffic während der Laufzeit reibungslos zu drosseln, indem Sie Werte vom Client akzeptieren. Verwenden Sie das Element <UseEffectiveCount>, um den von der Richtlinie verwendeten Algorithmus für die Ratenbegrenzung festzulegen.

Hinweis:Die Verwendung von <UseEffectiveCount> mit einem Wert oder false wird für keine Apigee-Organisationen oder für Apigee Hybrid-Organisationen, in denen Produktionsarbeitslasten ausgeführt werden, unterstützt. Weitere Informationen finden Sie unter <UseEffectiveCount>.

Standardwert	–
Erforderlich?	Erforderlich
Typ	Ganzzahl
Übergeordnetes Element	`<PromptTokenLimit>`
Untergeordnete Elemente	Keine

Syntax

Sie können Raten auf eine der folgenden Arten angeben:

Eine statische Rate, die Sie als Text des Elements <Rate> angeben.
Ein variabler Wert, der vom Client übergeben werden kann; Ermitteln Sie den Namen der Ablaufvariablen mithilfe des Attributs ref.

<PromptTokenLimit
    continueOnError="[false|true]"
    enabled="[true|false]"
    name="POLICY_NAME"
>
  <Rate ref="FLOW_VARIABLE">RATE[pm|ps]</Rate>
</PromptTokenLimit>

Gültige Ratenwerte, die entweder als Variablenwert oder im Textkörper des Elements definiert sind, müssen dem folgenden Format entsprechen:

intps (Anzahl der Tokens pro Sekunde, in Millisekundenintervalle geglättet)
intpm (Anzahl der Tokens pro Minute, in Sekundenintervalle geglättet)

Der Wert von int muss eine positive Ganzzahl ungleich Null sein.

Beispiel 1

Im folgenden Beispiel wird die Rate auf fünf Tokens pro Sekunde festgelegt:

<PromptTokenLimit name="PTL-Static-5ps">
  <Rate>5ps</Rate>
  <UseEffectiveCount>false</UseEffectiveCount>
</PromptTokenLimit>

Die Richtlinie glättet die Rate auf ein Token alle 200 Millisekunden (1.000/5).

Beispiel 2

Im folgenden Beispiel wird die Rate auf 12 Tokens pro Minute festgelegt:

<PromptTokenLimit name="PTL-Static-12pm">
  <Rate>12pm</Rate>
  <UseEffectiveCount>false</UseEffectiveCount>
</PromptTokenLimit>

Diese Beispielrichtlinie glättet die Rate auf ein Token alle fünf Sekunden (60/12).

In der folgenden Tabelle werden die Attribute von <Rate> beschrieben:

Attribut Beschreibung Präsenz Standard

Attribut	Beschreibung	Präsenz	Standard
`ref`	Kennzeichnet eine Ablaufvariable, die die Rate angibt. Dies kann eine beliebige Ablaufvariable sein, z. B. ein HTTP-Abfrageparameter, Header oder Nachrichtentextinhalt oder ein Wert wie eine KVM. Weitere Informationen finden Sie unter Referenz zu Ablaufvariablen. Sie können auch benutzerdefinierte Variablen mithilfe der JavaScript-Richtlinie oder der AssignMessage-Richtlinie verwenden. Wenn Sie sowohl `ref` als auch den Text dieses Elements definieren, wird der Wert von `ref` angewendet und hat Vorrang, wenn die Ablaufvariable in der Anfrage festgelegt wird. Das gilt auch umgekehrt, wenn die in `ref` angegebene Variable nicht in der Anfrage festgelegt ist. Beispiel: <Rate ref="request.header.custom_rate">1pm</Rate> Wenn der Client in diesem Beispiel keinen `custom_rate`-Header übergibt, beträgt die Rate für den API-Proxy 1 Token pro Minute für alle Clients. Wenn der Client einen `custom_rate`-Header mit dem Wert „10ps“ übergibt, beträgt die Ratenbegrenzung 10 Anfragen pro Sekunde für alle Clients auf dem Proxy, bis eine Anfrage ohne den `custom_rate`-Header gesendet wird. Mit `<Identifier>` können Sie Anfragen gruppieren, um benutzerdefinierte Raten für verschiedene Clienttypen zu erzwingen. Wenn Sie einen Wert für `ref` angeben, aber nicht die Rate im Text des Elements `<Rate>` festlegen und der Client keinen Wert übergibt, gibt die PromptTokenLimit-Richtlinie einen Fehler aus.	Optional	–

ref

Kennzeichnet eine Ablaufvariable, die die Rate angibt. Dies kann eine beliebige Ablaufvariable sein, z. B. ein HTTP-Abfrageparameter, Header oder Nachrichtentextinhalt oder ein Wert wie eine KVM. Weitere Informationen finden Sie unter Referenz zu Ablaufvariablen.

Sie können auch benutzerdefinierte Variablen mithilfe der JavaScript-Richtlinie oder der AssignMessage-Richtlinie verwenden.

Wenn Sie sowohl ref als auch den Text dieses Elements definieren, wird der Wert von ref angewendet und hat Vorrang, wenn die Ablaufvariable in der Anfrage festgelegt wird. Das gilt auch umgekehrt, wenn die in ref angegebene Variable nicht in der Anfrage festgelegt ist.

Beispiel:

<Rate ref="request.header.custom_rate">1pm</Rate>

Wenn der Client in diesem Beispiel keinen custom_rate-Header übergibt, beträgt die Rate für den API-Proxy 1 Token pro Minute für alle Clients. Wenn der Client einen custom_rate-Header mit dem Wert „10ps“ übergibt, beträgt die Ratenbegrenzung 10 Anfragen pro Sekunde für alle Clients auf dem Proxy, bis eine Anfrage ohne den custom_rate-Header gesendet wird.

Mit <Identifier> können Sie Anfragen gruppieren, um benutzerdefinierte Raten für verschiedene Clienttypen zu erzwingen.

Wenn Sie einen Wert für ref angeben, aber nicht die Rate im Text des Elements <Rate> festlegen und der Client keinen Wert übergibt, gibt die PromptTokenLimit-Richtlinie einen Fehler aus.

Optional

–

In der folgenden Tabelle werden die Attribute von Rate beschrieben, die das Verhalten der Traffic-Drosselung definieren:

Attribut	Beschreibung
`messagesPerPeriod`	Gibt die Anzahl der Tokens an, die innerhalb eines definierten Zeitraums zulässig sind. Wenn eine Richtlinie beispielsweise für „10ps“ (10 Tokens pro Sekunde) konfiguriert ist, wäre der Wert von `messagesPerPeriod` 10.
`periodInMicroseconds`	Definiert den Zeitraum in Mikrosekunden, über den `messagesPerPeriod` berechnet wird. Bei einer Konfiguration mit „10 ps“ wäre dieser Wert 1.000.000, was einer Sekunde entspricht.
`maxBurstMessageCount`	Stellt die maximale Anzahl von Tokens dar, die sofort oder in einem kurzen Burst zu Beginn eines neuen Intervalls zulässig sein können.

Hinweis:Die Werte und Berechnungen für diese Attribute können durch die Anzahl der MPs und die Einstellung UseEffectiveCount beeinflusst werden. Wenn Sie beispielsweise eine Rate von „10ps“ mit 10 MPs festlegen und UseEffectiveCount aktiviert ist, beträgt die effektive Rate für jeden MP 1ps. Die internen Attribute des einzelnen MP werden entsprechend angepasst. Das Attribut messagesPerPeriod könnte beispielsweise auf 1 und periodInMicroseconds auf 1.000.000 festgelegt werden.

`<UseEffectiveCount>`

Mit diesem Element können Sie zwischen verschiedenen PromptTokenLimit-Algorithmen wählen, indem Sie den Wert auf true oder false setzen, wie unten erläutert:

wahr

Wenn true festgelegt ist, wird PromptTokenLimit in einer Region verteilt. Das bedeutet, dass die Anzahl der Anfragen zwischen den Message Processors (MPs) in einer Region synchronisiert wird. Außerdem wird ein Ratenbegrenzungsalgorithmus des Typs "Gleitendes Fenster" verwendet. Dieser Algorithmus bietet ein konsistentes Ratenbegrenzungsverhalten und "glättet" nicht die Anzahl der eingehenden Anfragen, die an das Back-End gesendet werden können. Wenn eine Vielzahl von Anfragen in einem kurzen Zeitintervall gesendet wird, sind sie zulässig, solange sie die im Element <Rate> festgelegte Ratenbegrenzung nicht überschreiten. Beispiel:

<PromptTokenLimit name="Prompt-Token-Limit-1">
  <Rate>12pm</Rate>
  <Identifier ref="client_id" />
  <UseEffectiveCount>true</UseEffectiveCount>
</PromptTokenLimit>

false (Standardeinstellung)

Hinweis:Obwohl der Standardwert false ist, sollten Apigee-Organisationen dieses Element auf true setzen.

Die Ratenanpassung wird für Apigee-Organisationen nicht unterstützt.

Wenn der Wert auf false (Standardeinstellung) gesetzt ist, verwendet die PromptTokenLimit-Richtlinie einen Algorithmus des Typs Token-Bucket, der die Token-Spitzen glättet, indem die von Ihnen angegebene Ratenbegrenzung in kleinere Intervalle aufgeteilt wird. Ein Nachteil dieses Ansatzes ist, dass mehrere legitime Tokens, die über einen kurzen Zeitraum eingehen, potenziell abgelehnt werden können.

Angenommen, Sie geben eine Rate von 30pm (30 Tokens pro Minute) ein. Beim Testen können Sie 30 Tokens innerhalb einer Sekunde senden, sofern sie innerhalb einer Minute gesendet wurden. Aber das wird nicht durch die Richtlinie erzwungen. Wenn Sie darüber nachdenken, können 30 Tokens innerhalb eines Zeitraums von 1 Sekunde in einigen Umgebungen als kleiner Anstieg angesehen werden.

Minutenraten werden in vollständige Anfragen geglättet, die in Intervallen von Sekunden zulässig sind.

Zum Beispiel wird 30pm so geglättet:
60 Sekunden (1 Minute) / 30pm = 2-Sekunden-Intervalle oder alle 2 Sekunden ist 1 Token zulässig. Ein zweites Token innerhalb von 2 Sekunden schlägt fehl. Außerdem schlägt das 31. Token innerhalb einer Minute fehl.
Sekundenraten werden in vollständige Anfragen geglättet, die in Intervallen von Millisekunden zulässig sind.

10ps werden z. B. so geglättet:
1.000 Millisekunden (1 Sekunde) / 10ps = 100-Millisekunden-Intervalle bzw. 1 Token alle 100 Millisekunden. Ein zweites Token innerhalb von 100 ms schlägt fehl. Außerdem schlägt ein elftes Token innerhalb einer Sekunde fehl.

Standardwert	False
Erforderlich?	Optional
Typ	Boolescher Wert
Übergeordnetes Element	`<PromptTokenLimit>`
Untergeordnete Elemente	Keine

In der folgenden Tabelle werden die Attribute des <UseEffectiveCount> -Elements beschrieben:

Attribut	Beschreibung	Standard	Präsenz
`ref`	Gibt die Variable an, die den Wert von `<UseEffectiveCount>` enthält. Dies kann eine beliebige Ablaufvariable sein, z. B. der HTTP-Abfrageparameter, der Header oder der Nachrichteninhalt. Weitere Informationen finden Sie unter Referenz zu Ablaufvariablen. Sie können auch benutzerdefinierte Variablen mithilfe der JavaScript-Richtlinie oder der AssignMessage-Richtlinie festlegen.	–	Optional

`<UserPromptSource>`

Gibt die Quelle für den Text des Nutzer-Prompts an. Nachrichtenvorlage verwenden

Die Nachrichtenvorlage sollte einen einzelnen Wert für den Text des Nutzer-Prompts enthalten.

Beispiel: {jsonPath('$.contents[-1].parts[-1].text',request.content,true)}.

Standardwert	–
Erforderlich?	Optional
Typ	String
Übergeordnetes Element	`<PromptTokenLimit>`
Untergeordnete Elemente	Keine

Syntax

<PromptTokenLimit
    continueOnError="[false|true]"
    enabled="[true|false]"
    name="POLICY_NAME">
  <UserPromptSource>{jsonPath('$.contents[-1].parts[-1].text',request.content,true)}</UserPromptSource>
</PromptTokenLimit>

Beispiel 1

<PromptTokenLimit name="Prompt-Token-Limit-1">
  <UserPromptSource>{jsonPath('$.contents[-1].parts[-1].text',request.content,true)}</UserPromptSource>
</PromptTokenLimit>

`<IgnoreUnresolvedVariables>`

Bestimmt, ob die Verarbeitung beendet wird, wenn eine nicht aufgelöste Variable erkannt wird.

Auf true festlegen, um nicht aufgelöste Variablen zu ignorieren und die Verarbeitung fortzusetzen. Andernfalls false. Der Standardwert ist false.

Standardwert	False
Erforderlich?	Optional
Typ	Boolescher Wert
Übergeordnetes Element	`<PromptTokenLimit>`
Untergeordnete Elemente	Keine

Syntax

<PromptTokenLimit
    continueOnError="[false|true]"
    enabled="[true|false]"
    name="POLICY_NAME">
  <IgnoreUnresolvedVariables>[true|false]</IgnoreUnresolvedVariables>
</PromptTokenLimit>

Beispiel

<PromptTokenLimit name="Prompt-Token-Limit-1">
  <Rate>10ps</Rate>
  <IgnoreUnresolvedVariables>true</IgnoreUnresolvedVariables>
</PromptTokenLimit>

Ablaufvariablen

Wenn eine PromptTokenLimit-Richtlinie ausgeführt wird, werden die folgenden Ablaufvariablen ausgefüllt:

Variable	Typ	Berechtigung	Beschreibung
`ratelimit.POLICY_NAME.failed`	Boolesch	Schreibgeschützt:	Gibt an, ob die Richtlinie fehlgeschlagen ist (`true` oder `false`).
`ratelimit.POLICY_NAME.resolvedUserPrompt`	String	Schreibgeschützt:	Gibt den extrahierten Nutzer-Prompt zurück.
`ratelimit.POLICY_NAME.userPromptSource`	String	Schreibgeschützt:	Gibt die Nachrichtenvorlage für den in der Richtlinie angegebenen Nutzer-Prompt zurück.
`ratelimit.POLICY_NAME.userPromptTokenCount`	String	Schreibgeschützt:	Gibt die Anzahl der Tokens der extrahierten Nutzeranfrage zurück.

Weitere Informationen finden Sie unter Referenz zu Ablaufvariablen.

Fehlerreferenz

In diesem Abschnitt werden die zurückgegebenen Fehlercodes und Fehlermeldungen beschrieben, die von Apigee festgelegt werden, wenn die Richtlinie einen Fehler auslöst. Möglicherweise werden auch Fehler bei der SpikeArrest-Richtlinie angezeigt. Diese Informationen sind wichtig, wenn Sie Fehlerregeln zur Verarbeitung von Fehlern entwickeln. Weitere Informationen finden Sie unter Was Sie über Richtlinienfehler wissen müssen und Fehler beheben.

Laufzeitfehler

Diese Fehler können bei Ausführung der Richtlinie auftreten.

Fehlercode	HTTP-Status	Apigee-Fehler	Ursache
`policies.prompttokenlimit.FailedToExtractUserPrompt`	`400`	FALSE	Der Nutzer-Prompt konnte nicht aus der API-Anfrage extrahiert werden.
`policies.prompttokenlimit.PromptTokenLimitViolation`	`429`	FALSE	Verstoß gegen das Prompt-Tokenlimit.
`policies.prompttokenlimit.FailedToCalculateUserPromptTokens`	`500`	TRUE	Für den Nutzer-Prompt können keine Tokens berechnet werden.

Bereitstellungsfehler

Diese Fehler können auftreten, wenn Sie einen Proxy mit dieser Richtlinie bereitstellen.

Fehlercode	HTTP-Status	Apigee-Fehler	Ursache	Beheben
`policies.prompttokenlimit.MessageWeightNotSupported`	500	FALSE	„MessageWeight“ wird für die Richtlinie „PromptTokenLimit“ nicht unterstützt.

Fehlervariablen

Diese Variablen werden bei Laufzeitfehlern festgelegt. Weitere Informationen finden Sie unter Was Sie über Richtlinienfehler wissen müssen.

Variablen	Definition	Beispiel
`ratelimit.policy_name.fault.name`	`fault_name` ist der Name des Fehlers, der in der obigen Tabelle Laufzeitfehler aufgeführt ist. Der Fehlername ist der letzte Teil des Fehlercodes.	`fault.name Matches "PromptTokenLimitViolation"`
`ratelimit.policy_name.failed`	`policy_name` ist der benutzerdefinierte Name der Richtlinie, die den Fehler ausgegeben hat.	`ratelimit.PTL-PromptTokenLimitPolicy.failed = true`

Beispiel für eine Fehlerantwort

Im Folgenden sehen Sie ein Beispiel für eine Fehlerantwort:

Hinweis:Bei der Fehlerbehandlung besteht die Best Practice darin, den Teil errorcode der Fehlerantwort zu beachten. Verlassen Sie sich nicht auf den Text in faultstring. Er kann sich ändern.

{  
   "fault":{  
      "detail":{  
         "errorcode":"policies.prompttokenlimit.PromptTokenLimitViolation"
      },
      "faultstring":"Prompt Token Limit Violation. Allowed rate : MessageRate{capacity=10, period=Minutes}"
   }
}

Beispiel für eine Fehlerregel

Unten sehen Sie ein Beispiel für eine Fehlerregel zum Verarbeiten eines PromptTokenLimitViolation-Fehlers:

<FaultRules>
    <FaultRule name="Prompt Token Limit Errors">
        <Step>
            <Name>JavaScript-1</Name>
            <Condition>(fault.name Matches "PromptTokenLimitViolation") </Condition>
        </Step>
        <Condition>ratelimit.PTL-1.failed=true</Condition>
    </FaultRule>
</FaultRules>

Der aktuelle HTTP-Statuscode zum Überschreiten einer Ratenbegrenzung, die von einer LLMTokenQuota- oder PromptTokenLimit-Richtlinie festgelegt wurde, lautet 429 (Zu viele Anfragen).

Schemas

Jeder Richtlinientyp wird durch ein XML-Schema (.xsd) definiert. Zu Referenzzwecken sind Richtlinienschemas auf GitHub verfügbar.

Weitere Informationen

LLMTokenQuota-Richtlinie: LLMTokenQuota-Richtlinie zum Beschränken der Nutzung des Antworttokenkontingents.
Ratenbegrenzung für eine Übersicht über Ratenbegrenzungen
Richtlinien zur Ratenbegrenzung im Vergleich

PromptTokenLimit-Richtlinie Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Übersicht

Unterschied zwischen „PromptTokenLimit“ und „LLMTokenQuota“

Element PromptTokenLimit

Syntax

Standardrichtlinie

Beispiele

Beispiel 1

Beispiel 2

Beispiel 3

Beispiel 4

Verweis auf untergeordnetes Element

<DisplayName>

Syntax

Beispiel

<Identifier>

Syntax

Beispiel 1

<Rate>

Syntax

Beispiel 1

Beispiel 2

<UseEffectiveCount>

wahr

false (Standardeinstellung)

<UserPromptSource>

Syntax

Beispiel 1

<IgnoreUnresolvedVariables>

Syntax

Beispiel

Ablaufvariablen

Fehlerreferenz

Laufzeitfehler

Bereitstellungsfehler

Fehlervariablen

Beispiel für eine Fehlerantwort

Beispiel für eine Fehlerregel

Schemas

Weitere Informationen

PromptTokenLimit-Richtlinie

Element `PromptTokenLimit`

`<DisplayName>`

`<Identifier>`

`<Rate>`

`<UseEffectiveCount>`

`<UserPromptSource>`

`<IgnoreUnresolvedVariables>`