Se il numero di richieste supera la capacità allocata per l'elaborazione delle richieste, viene restituito il codice di errore 429. La tabella seguente mostra il
messaggio di errore generato da ogni tipo di framework di quota:
| Framework per le quote | Messaggio |
|---|---|
| Pagamento a consumo | Resource exhausted, please try again later. |
| Throughput riservato | Too many requests. Exceeded the Provisioned Throughput. |
Con un abbonamento a Throughput riservato (PT), puoi riservare una quantità di throughput per modelli di AI generativa specifici. Se non hai un abbonamento a
PT e le risorse non sono disponibili
per la tua applicazione, viene restituito un codice di errore 429. Anche se non hai
capacità riservata, puoi riprovare a inviare la richiesta. Tuttavia, la richiesta
non viene conteggiata ai fini della percentuale di errore, come descritto nell'accordo sul livello di
servizio (SLA).
Per i progetti che hanno acquistato PT, Gemini Enterprise Agent Platform misura il throughput di un progetto e riserva la quantità di throughput acquistata per l'utilizzo effettivo del progetto.
Per il PT standard, quando utilizzi un importo inferiore a quello acquistato, gli errori che altrimenti potrebbero essere 429 vengono restituiti come 5XX e vengono conteggiati ai fini del tasso di errore SLA. Per il PT a zona singola, quando utilizzi un importo inferiore a quello acquistato, gli errori 429 correlati alla capacità vengono trattati come 5XX, ma non vengono conteggiati ai fini del tasso di errore SLA. Quando superi l'importo acquistato, le richieste aggiuntive vengono elaborate on demand con pagamento a consumo.
Pagamento a consumo
Nel framework delle quote con pagamento a consumo, hai le seguenti opzioni per
risolvere gli errori 429:
- Utilizza l'endpoint globale anziché un endpoint regionale, se possibile.
- Implementa una strategia di nuovi tentativi utilizzando il backoff esponenziale troncato.
- Se il tuo modello utilizza quote, puoi inviare una richiesta di aumento della quota (QIR). Se il tuo modello utilizza il pagamento a consumo standard, può essere utile uniformare il traffico e ridurre i picchi elevati.
- Abbonati a PT per un livello di servizio più coerente. Per saperne di più, vedi PT.
PT
Per correggere l'errore 429 generato da PT:
- Utilizza l'esempio di comportamento predefinito, che non imposta un'intestazione nelle richieste di previsione. Gli eventuali superamenti vengono elaborati on demand e fatturati in base al pagamento a consumo.
- Aumentare il numero di GSU nell'abbonamento a PT.
Passaggi successivi
- Per scoprire di più sul pagamento a consumo standard, consulta Pagamento a consumo standard.
- Per saperne di più sul throughput riservato, consulta Throughput riservato.
- Per scoprire di più su quote e limiti per Agent Platform, consulta la pagina Quote e limiti di Agent Platform.
- Per saperne di più su quote e limiti di sistema, consulta la documentazione di Cloud Quotas. Google Cloud