Se o número de solicitações exceder a capacidade alocada para processar solicitações, o código de erro 429 será retornado. A tabela a seguir mostra a mensagem de erro gerada por cada tipo de framework de cota:
| Framework de cota | Mensagem |
|---|---|
| Pay-as-you-go | Resource exhausted, please try again later. |
| Capacidade de processamento provisionada | Too many requests. Exceeded the Provisioned Throughput. |
Com uma assinatura de capacidade de processamento provisionada (PT, na sigla em inglês), é possível reservar uma quantidade de capacidade de processamento para modelos específicos de IA generativa. Se você não tiver uma assinatura de PT e os recursos não estiverem disponíveis para o aplicativo, um código de erro 429 será retornado. Embora você não tenha capacidade reservada, tente fazer a solicitação novamente. No entanto, a solicitação
não é contabilizada na taxa de erros, conforme descrito no contrato de nível de serviço (SLA).
Para projetos que compraram PT, a Vertex AI mede a capacidade de processamento de um projeto e reserva a quantidade comprada para o uso real do projeto.
Para a PT padrão, quando você usa menos do que a quantidade comprada, os erros que poderiam ser 429 são retornados como 5XX e contam para a taxa de erros do SLA. Para a PT de zona única, quando você usa menos do que a quantidade comprada, os erros 429 relacionados à capacidade são tratados como 5XX, mas não contam para a taxa de erros do SLA. Quando você excede a quantidade comprada, as solicitações adicionais são processadas sob demanda como pagamento por uso.
Pay-as-you-go
No framework de cota de pagamento por uso, você tem as seguintes opções para resolver erros 429:
- Use o endpoint global em vez de um regional sempre que possível.
- Implemente uma estratégia de repetição usando a espera exponencial truncada.
- Se o modelo usar cotas, envie uma Solicitação de Aumento de Cota (QIR, na sigla em inglês). Se o modelo usar o pagamento por uso padrão, suavizar o tráfego e reduzir grandes picos pode ajudar.
- Assine a PT para ter um nível de serviço mais consistente. Para mais informações, consulte PT.
PT
Para corrigir o erro 429 gerado pela PT, faça o seguinte:
- Use o exemplo de comportamento padrão, que não define um cabeçalho em solicitações de previsão. Todos os excedentes são processados sob demanda e faturados como pagamento por uso.
- Aumente o número de GSUs na assinatura de PT.
A seguir
- Para saber mais sobre o pagamento por uso padrão, consulte Pagamento por uso padrão.
- Para saber mais sobre a PT, consulte Capacidade de processamento provisionada.
- Para saber mais sobre cotas e limites da plataforma de agentes, consulte Cotas e limites da plataforma de agentes.
- Para saber mais sobre Google Cloud cotas e limites do sistema, consulte a documentação sobre as cotas do Cloud.