Vertex AI proporciona diferentes formas de administrar el procesamiento de modelos de IA generativa para ayudarte a equilibrar el costo y el rendimiento. En este documento, se describen las opciones disponibles: un modelo flexible de pago por uso y capacidad reservada para un procesamiento predecible.
Cuotas de modelos administrados
Vertex AI ofrece dos formas de administrar el procesamiento de los modelos de IA generativa administrados en Vertex AI, lo que te permite equilibrar el costo, la flexibilidad y el rendimiento. Puedes usar un modelo flexible de pago por uso o reservar una cantidad de capacidad de procesamiento dedicada por un precio fijo.
Pago por uso
Para el modelo predeterminado de pago por uso, Vertex AI usa la cuota compartida dinámica, que no tiene un límite de uso predefinido. En cambio, obtienes acceso a un gran grupo compartido de recursos que se asignan de forma dinámica según la disponibilidad y la demanda en tiempo real.
Este modelo permite que tus cargas de trabajo usen más recursos cuando estén disponibles.
Si recibes un error resource exhausted (429), significa que el grupo compartido experimenta temporalmente una gran demanda de muchos usuarios a la vez. Debes implementar mecanismos de reintento en tu aplicación, ya que la disponibilidad puede cambiar rápidamente.
Capacidad reservada
Para las aplicaciones de producción críticas que requieren un rendimiento coherente y costos predecibles, puedes usar la capacidad de procesamiento aprovisionada. La capacidad de procesamiento aprovisionada es una suscripción de costo fijo que reserva una cantidad específica de capacidad de procesamiento para tus modelos en una ubicación elegida.
Cuotas para los servicios de IA generativa
Vertex AI ofrece un conjunto de servicios de IA generativa, como ajuste de modelos, evaluación de modelos, predicción por lotes, incorporaciones y generación aumentada por recuperación. Para obtener más información sobre las cuotas de estos servicios, consulta Cuotas y límites del sistema de IA generativa en Vertex AI.
¿Qué sigue?
- Obtén más información sobre la cuota compartida dinámica.
- Obtén más información sobre la capacidad de procesamiento aprovisionada.
- Obtén más información sobre las cuotas de IA generativa y los límites del sistema.
- Obtén más información sobre las cuotas de Google Cloud.