Se o número de solicitações exceder a capacidade alocada para processar
solicitações, o código de erro 429 será retornado. A tabela a seguir mostra a mensagem de erro gerada por cada tipo de framework de cota:
| Framework de cotas | Mensagem |
|---|---|
| Pagamento por utilização | Resource exhausted, please try again later. |
| Capacidade de processamento provisionada | Too many requests. Exceeded the Provisioned Throughput. |
Com uma assinatura de capacidade de processamento provisionada, é possível reservar uma quantidade de capacidade de processamento para modelos específicos de IA generativa. Se você não tiver uma assinatura de taxa de transferência provisionada e os recursos não estiverem disponíveis para seu aplicativo, um código de erro 429 será retornado. Mesmo que você não tenha capacidade reservada, tente fazer a solicitação de novo. No entanto, a solicitação não é contabilizada na taxa de erros, conforme descrito no contrato de nível de serviço (SLA).
Para projetos que compraram a taxa de transferência provisionada, a Vertex AI mede a taxa de transferência de um projeto e reserva a quantidade comprada para o uso real do projeto.
Para a capacidade de processamento provisionada padrão, quando você usa menos do que o valor comprado, erros que poderiam ser 429 são retornados como 5XX e contam para a taxa de erro do SLA. Para o throughput provisionado de zona única, quando você usa menos do que a quantidade comprada, os erros 429 relacionados à capacidade são tratados como 5XX, mas não contam para a taxa de erros do SLA. Quando você excede a quantidade comprada, as solicitações adicionais são processadas sob demanda como pagamento por uso.
Pagamento por utilização
No framework de cotas de pagamento conforme o uso, você tem as seguintes opções para resolver erros de 429:
- Use o endpoint global em vez de um regional sempre que possível.
- Implemente uma estratégia de repetição usando espera exponencial truncada.
- Se o modelo usar cotas, envie uma Solicitação de Aumento de Cota (QIR). Se o modelo usar o pagamento por uso padrão, suavizar o tráfego e reduzir picos grandes pode ajudar.
- Inscreva-se na capacidade de processamento provisionada para ter um nível de serviço mais consistente. Para mais informações, consulte Capacidade de processamento provisionada.
Capacidade de processamento provisionada
Para corrigir o erro 429 gerado pela capacidade de processamento provisionada, faça o seguinte:
- Use o exemplo de comportamento padrão, que não define um cabeçalho em solicitações de previsão. Os excedentes são processados sob demanda e faturados como pagamento por uso.
- Aumente o número de GSUs na sua assinatura de capacidade de processamento provisionada.
A seguir
- Para saber mais sobre o pagamento por uso padrão, consulte Pagamento por uso padrão.
- Para saber mais sobre a capacidade de processamento provisionada, consulte Capacidade de processamento provisionada.
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre cotas e limites do sistema, consulte a documentação sobre as cotas do Cloud. Google Cloud
- Para saber mais sobre erros de API, consulte Erros de API.