Si la cantidad de solicitudes supera la capacidad asignada para procesar solicitudes, se muestra el código de error 429. En la siguiente tabla, se muestra el mensaje de error que genera cada tipo de framework de cuota:
| Marco de trabajo de cuotas | Mensaje |
|---|---|
| Pago por uso | Resource exhausted, please try again later. |
| Capacidad de procesamiento aprovisionada | Too many requests. Exceeded the Provisioned Throughput. |
Con una suscripción de capacidad de procesamiento aprovisionada (PT), puedes reservar una cantidad de capacidad de procesamiento para modelos de IA generativa específicos. Si no tienes una suscripción a la PT y los recursos no están disponibles para tu aplicación, se muestra un código de error 429. Aunque no tengas capacidad reservada, puedes volver a enviar la solicitud. Sin embargo, la solicitud
no se toma en cuenta en la tasa de error, como se describe en el Acuerdo de Nivel de Servicio (ANS).
En el caso de los proyectos que compraron la PT, la plataforma de agentes de Gemini Enterprise mide la capacidad de procesamiento de un proyecto y reserva la cantidad comprada de capacidad de procesamiento para el uso real del proyecto.
En el caso de la PT estándar, cuando usas menos de la cantidad comprada, los errores que, de otro modo, serían 429 se muestran como 5XX y se registran en la tasa de error del ANS. En el caso de la PT de una sola zona, cuando usas menos de la cantidad comprada, los errores 429 relacionados con la capacidad se tratan como 5XX, pero no se registran en la tasa de error del ANS. Cuando superas la cantidad comprada, las solicitudes adicionales se procesan a pedido como pago por uso.
Pay-as-you-go
En el framework de cuota de prepago, tienes las siguientes opciones para resolver los errores 429:
- Usa el extremo global en lugar de un extremo regional siempre que sea posible.
- Implementa una estrategia de reintento con la retirada exponencial truncada.
- Si tu modelo usa cuotas, puedes enviar una solicitud de aumento de cuota (QIR). Si tu modelo usa el pago por uso estándar, puede ser útil suavizar el tráfico y reducir los picos grandes.
- Suscríbete a la PT para obtener un nivel de servicio más coherente. Para obtener más información, consulta PT.
PT
Para corregir el error 429 que genera la PT, haz lo siguiente:
- Usa el ejemplo de comportamiento predeterminado, que no establece un encabezado en las solicitudes de predicción. Cualquier excedente se procesa a pedido y se factura como pago por uso.
- Aumenta la cantidad de GSU en tu suscripción a la PT.
¿Qué sigue?
- Para obtener más información sobre el pago por uso estándar, consulta Pago por uso estándar.
- Para obtener más información sobre la PT, consulta Capacidad de procesamiento aprovisionada.
- Para obtener información sobre las cuotas y los límites de la plataforma de agentes, consulta Cuotas y límites de la plataforma de agentes.
- Para obtener más información sobre las Google Cloud cuotas y los límites del sistema, consulta la documentación de cuotas de Cloud.