Se o número de pedidos exceder a capacidade atribuída para processar
pedidos, é devolvido o código de erro 429
. A tabela seguinte apresenta a mensagem de erro gerada por cada tipo de framework de quotas:
Estrutura de quotas | Mensagem |
---|---|
Pay-as-you-go | Resource exhausted, please try again later. |
Débito aprovisionado | Too many requests. Exceeded the Provisioned Throughput. |
Com uma subscrição de débito processado aprovisionado, pode reservar uma quantidade de débito processado para modelos de IA generativa específicos. Se não tiver uma subscrição de débito processado e os recursos não estiverem disponíveis para a sua aplicação, é devolvido um código de erro 429
. Embora não tenha capacidade reservada, pode tentar novamente o seu pedido. No entanto, o pedido não é contabilizado para a sua taxa de erro, conforme descrito no seu contrato de nível de serviço (SLA).
Para projetos que compraram débito processado, o Vertex AI mede o débito de um projeto e reserva a quantidade comprada de débito para a utilização real do projeto.
Para o débito processado padrão, quando usa menos do que o valor comprado, os erros que, de outra forma, poderiam ser 429
são devolvidos como 5XX
e contam para a taxa de erro do SLA. Para o débito processado aprovisionado de zona única,
quando usa menos do que a quantidade comprada, os erros 429
relacionados com a capacidade são
tratados como 5XX
, mas não contam para a taxa de erros do SLA. Quando excede o valor comprado, os pedidos adicionais são processados a pedido, com o modelo de pagamento à medida do consumo.
Pay-as-you-go
Na estrutura de quotas de pagamento conforme o uso, tem as seguintes opções para resolver erros 429
:
- Sempre que possível, use o ponto final global em vez de um ponto final regional.
- Implemente uma estratégia de repetição usando a retirada exponencial truncada.
- Se o seu modelo usar quotas, pode enviar uma solicitação de aumento da quota (QIR). Se o seu modelo usar a quota partilhada dinâmica, pode ajudar a suavizar o tráfego e reduzir os picos grandes. Para mais informações, consulte o artigo Quota partilhada dinâmica (DSQ).
- Subscreva o débito processado para um nível de serviço mais consistente. Para mais informações, consulte o artigo Débito processado.
Débito aprovisionado
Para corrigir o erro 429 gerado pelo débito processado, faça o seguinte:
- Use o comportamento predefinido exemplo, que não define um cabeçalho em pedidos de previsão. Os excessos são processados a pedido e faturados como pagamento por utilização.
- Aumente o número de GSUs na sua subscrição de débito processado.
O que se segue?
- Para saber mais acerca da quota partilhada dinâmica, consulte o artigo Quota partilhada dinâmica.
- Para saber mais sobre o débito aprovisionado, consulte o artigo Débito aprovisionado.
- Para saber mais sobre as quotas e os limites da Vertex AI, consulte o artigo Quotas e limites da Vertex AI.
- Para saber mais acerca das Google Cloud quotas e dos limites do sistema, consulte a documentação do Cloud Quotas.
- Para saber mais sobre os erros da API, consulte o artigo Erros da API.