Vertex AI ofrece diferentes formas de gestionar el rendimiento de los modelos de IA generativa para ayudarte a equilibrar el coste y el rendimiento. En este documento se describen las opciones disponibles: un modelo flexible de pago por uso y capacidad reservada para obtener un rendimiento predecible.
Cuotas de modelos gestionados
Vertex AI ofrece dos formas de gestionar el rendimiento de los modelos de IA generativa gestionados en Vertex AI, lo que te permite equilibrar el coste, la flexibilidad y el rendimiento. Puedes usar un modelo flexible de pago por uso o reservar una cantidad de capacidad de procesamiento específica por un precio fijo.
Pago por uso
En el modelo de pago por uso predeterminado, Vertex AI usa la cuota compartida dinámica, que no tiene un límite de uso predefinido. En su lugar, obtienes acceso a un gran grupo compartido de recursos que se asignan dinámicamente en función de la disponibilidad y la demanda en tiempo real.
Este modelo permite que tus cargas de trabajo usen más recursos cuando estén disponibles.
Si recibes un error resource exhausted (429), significa que el grupo compartido está experimentando temporalmente una gran demanda de muchos usuarios a la vez. Deberías implementar mecanismos de reintento en tu aplicación, ya que la disponibilidad puede cambiar rápidamente.
Capacidad reservada
En el caso de las aplicaciones de producción críticas que requieren un rendimiento constante y costes predecibles, puedes usar Throughput aprovisionado. El rendimiento aprovisionado es una suscripción de coste fijo que reserva una cantidad específica de rendimiento para tus modelos en una ubicación elegida.
Cuotas de los servicios de IA generativa
Vertex AI ofrece un conjunto de servicios de IA generativa, como el ajuste de modelos, la evaluación de modelos, la predicción por lotes, las inserciones y la generación aumentada de recuperación. Para obtener más información sobre las cuotas de estos servicios, consulta Cuotas y límites del sistema de la IA generativa en Vertex AI.
Siguientes pasos
- Consulta más información sobre la cuota compartida dinámica.
- Más información sobre el rendimiento aprovisionado
- Consulta más información sobre las cuotas y los límites del sistema de la IA generativa.
- Consulta más información sobre las cuotas de Google Cloud.