Questa pagina si applica ad Apigee e Apigee hybrid.
Visualizza la documentazione di
Apigee Edge.
Utilizza il grafico di confronto riportato di seguito per decidere quale policy utilizzare per il tuo caso d'uso di limitazione della frequenza:
| Quota | SpikeArrest | LLMTokenQuota | PromptTokenLimit | |
|---|---|---|---|---|
| Utilizzalo per: | Limita il numero di chiamate proxy API che un'app per sviluppatori o uno sviluppatore può effettuare in un determinato periodo di tempo. È ideale per limitazione di frequenza su intervalli di tempo più lunghi, come giorni, settimane o mesi, soprattutto quando è necessario un conteggio accurato. | Limita il numero di chiamate API che possono essere effettuate a un proxy API in tutti i consumer in un breve periodo di tempo, ad esempio secondi o minuti. | Gestisci e limita il consumo totale di token per le chiamate API LLM in un periodo di tempo specificato (minuto, ora, giorno, settimana o mese). In questo modo puoi controllare le spese per i modelli linguistici di grandi dimensioni e applicare una gestione granulare delle quote in base ai prodotti API. | Proteggi il backend di destinazione del proxy API da abusi di token, prompt massicci e potenziali tentativi di attacchi DoS limitando la velocità dei token inviati nell'input limitando le richieste in base al numero di token nel messaggio del prompt dell'utente. È un paradigma comparativo per l'arresto dei picchi per il traffico API, ma per i token. |
| Non utilizzarlo per: | Proteggi il backend di destinazione del proxy API dai picchi di traffico. Utilizza SpikeArrest o PromptTokenLimit per questo scopo. | Conta e limita il numero di connessioni che le app possono effettuare al backend di destinazione del proxy API in un periodo di tempo specifico, soprattutto quando è necessario un conteggio accurato. | Proteggi il backend di destinazione del proxy API dall'utilizzo fraudolento dei token. Utilizza PromptTokenLimit per questo scopo. | Conteggia e limita con precisione il numero totale di token consumati per la fatturazione o la gestione delle quote a lungo termine. Utilizza la policy LLMTokenQuota per questo scopo. |
| Memorizza un conteggio? | Sì | No | Sì, mantiene i contatori che monitorano il numero di token consumati dalle risposte LLM. | Conta i token per applicare un limite di frequenza, ma non memorizza un conteggio persistente a lungo termine come la policy LLMTokenQuota. |
| Best practice per l'allegato della norma: |
Allegalo a ProxyEndpoint Request PreFlow, in genere dopo l'autenticazione dell'utente. In questo modo, la policy può controllare il contatore delle quote nel punto di ingresso del proxy API. |
Collegalo al pre-flusso della richiesta ProxyEndpoint, in genere all'inizio del flusso. In questo modo, la protezione dai picchi viene fornita nel punto di ingresso del proxy API. Se utilizzi sia SpikeArrest che i criteri per le quote nello stesso proxy, SpikeArrest deve sempre essere collegato prima dei criteri per le quote nel pre-flusso della richiesta ProxyEndpoint. SpikeArrest funge da prima linea di difesa contro i picchi improvvisi di traffico, uniformando il traffico prima che le richieste vengano valutate in base ai limiti di quota a lungo termine. In questo modo si evita che i picchi esauriscano prematuramente la quota. |
Applica le norme di applicazione ( |
Allegalo a ProxyEndpoint Request PreFlow, all'inizio del flusso, per proteggere il backend da prompt di dimensioni eccessive. Se utilizzi le policy PromptTokenLimit e LLMTokenQuota nello stesso proxy, PromptTokenLimit deve sempre essere collegata prima della policy LLMTokenQuota nel pre-flusso della richiesta ProxyEndpoint. PromptTokenLimit funge da prima linea di difesa contro i prompt di dimensioni eccessive, rifiutandoli prima che le richieste vengano valutate in base ai limiti di LLMTokenQuota a lungo termine. In questo modo, le richieste di dimensioni eccessive non esauriscono prematuramente la quota di token. |
| Codice di stato HTTP quando è stato raggiunto il limite: | 429 (Troppe richieste) |
429 (Troppe richieste) |
429 (Troppe richieste) |
429 (Troppe richieste) |
| Informazioni utili: |
|
|
|
|
| Maggiori dettagli: | Criteri per le quote | Norme SpikeArrest | Policy LLMTokenQuota | PromptTokenLimit policy |