El modelo estándar de pago por uso (Standard PayGo) es una opción de consumo para utilizar el conjunto de modelos de IA generativa de Vertex AI, incluidas las familias de modelos de Gemini e Imagen en Vertex AI. El modelo Estándar de pago por uso te permite pagar solo por los recursos que consumes, sin necesidad de compromisos financieros por adelantado. Para proporcionar un rendimiento más predecible para las cargas de trabajo escalables, el modelo Estándar de pago por uso incorpora un sistema de niveles de uso. Vertex AI ajusta de forma dinámica la capacidad de procesamiento de referencia de tu organización en función de la inversión total en los servicios aptos de Vertex AI durante un período continuo de 30 días. A medida que aumenta la inversión de tu organización, esta se promociona automáticamente a niveles más altos que brindan mayor acceso a recursos compartidos y umbrales de rendimiento más altos.
Niveles de uso y capacidad de procesamiento
Cada nivel de uso de PayGo estándar tiene como objetivo proporcionar una capacidad de procesamiento de referencia, medida en tokens por minuto (TPM), que sirve como un límite inferior de rendimiento predecible para el tráfico de tu organización. Los límites de procesamiento se basan en las solicitudes enviadas al extremo global. Usar el endpoint global es una práctica recomendada, ya que proporciona acceso a un grupo más grande y multirregional de capacidad de procesamiento, y permite enrutar tus solicitudes a la ubicación con mayor disponibilidad para maximizar el rendimiento.
Tu tráfico no está estrictamente limitado al límite de capacidad de procesamiento de referencia. Vertex AI permite que el tráfico supere este límite de la mejor manera posible. Sin embargo, durante los períodos de alta demanda en la plataforma de Vertex AI, este exceso de tráfico en ráfagas puede tener una mayor variabilidad en el rendimiento. Para optimizar el rendimiento y minimizar la probabilidad de recibir estos errores, también es una práctica recomendada suavizar el tráfico de la manera más uniforme posible a lo largo de cada minuto. Evita enviar solicitudes en aumentos repentinos y pronunciados de segundo nivel. El tráfico alto e instantáneo puede provocar la limitación, incluso si el uso promedio por minuto está por debajo del límite. Distribuir las llamadas a la API de manera más uniforme ayuda al sistema a administrar tu carga de forma predecible y mejora el rendimiento general.
Los siguientes niveles están disponibles en Standard PayGo:
| Familia del modelo | Nivel | Inversión del cliente (30 días) | TPM de tráfico (a nivel de la organización) |
|---|---|---|---|
| Modelos de Gemini Pro | Nivel 1 | Entre USD 10 y USD 250 | 500,000 |
| Nivel 2 | USD 250 a USD 2,000 | 1,000,000 | |
| Nivel 3 | Más de USD 2,000 | 2,000,000 | |
| Modelos Gemini Flash y Flash-Lite | Nivel 1 | Entre USD 10 y USD 250 | 2,000,000 |
| Nivel 2 | USD 250 a USD 2,000 | 4,000,000 | |
| Nivel 3 | Más de USD 2,000 | 10,000,000 |
Ten en cuenta que el límite de capacidad de procesamiento que se muestra para una familia de modelos se aplica de forma independiente a cada modelo dentro de esa familia. Por ejemplo, un cliente del nivel 3 tiene un rendimiento de referencia de 10,000,000 de TPM para Gemini 2.5 Flash y otro rendimiento de referencia de 10,000,000 de TPM para Gemini 2.0 Flash. El uso en relación con uno de estos límites no afecta el rendimiento de otros modelos. No hay un límite de solicitudes por minuto (RPM) independiente para cada nivel. Sin embargo, se aplica el límite del sistema de 30,000 RPM por modelo y región. Las solicitudes a Gemini con entradas multimodales están sujetas a los límites de frecuencia del sistema correspondientes, incluidos los de imagen, audio, video y documento.
Si necesitas una mayor capacidad de procesamiento para un caso de uso empresarial, comunícate con tu equipo de cuentas para obtener más información sobre un nivel personalizado.
Cómo funcionan los niveles de uso
Tu nivel de uso se determina automáticamente según la inversión total de tu organización en los servicios aptos de Vertex AI durante un período continuo de 30 días. A medida que aumenta la inversión de tu organización, el sistema te promueve a un nivel superior con mayor capacidad de procesamiento.
Cálculo de la inversión
Este cálculo incluye una amplia variedad de servicios, desde predicciones en todas las familias de modelos de Gemini hasta instancias de CPU, GPU y TPU de Vertex AI, y también SKU basados en compromisos, como el rendimiento aprovisionado.
Haz clic para obtener más información sobre los SKU incluidos en el cálculo de la inversión.
En la siguiente tabla, se enumeran las categorías de SKU deGoogle Cloud que se incluyen en el cálculo de la inversión total.
| Categoría | Descripción de los SKUs incluidos |
|---|---|
| Modelos de Gemini | Todas las familias de modelos de Gemini (p.ej., 2.0, 2.5 y 3.0 en las versiones Pro, Flash y Lite) para las predicciones en todas las modalidades (texto, imagen, audio y video), incluidas las variaciones por lotes, de contexto extenso, ajustadas y de "razonamiento" |
| Funciones de los modelos de Gemini | Todos los SKU relacionados con Gemini para funciones como el almacenamiento en caché, el almacenamiento de caché y los niveles de prioridad, en todas las modalidades y versiones de modelos |
| CPU de Vertex AI | Predicciones en línea y por lotes en todas las familias de instancias basadas en CPU (p.ej., C2, C3, E2, N1, N2 y sus variantes) |
| GPU de Vertex AI | Predicciones en línea y por lotes en todas las instancias aceleradas por GPU de NVIDIA (p.ej., A100, H100, H200, B200, L4, T4, V100 y serie RTX) |
| TPU de Vertex AI | Predicciones en línea y por lotes en todas las instancias basadas en TPU (p.ej., TPU v5e y v6e) |
| Administración y comisiones | Todos los SKU de "Tarifa de administración" asociados con varias instancias de predicción de Vertex AI |
| Capacidad de procesamiento aprovisionada | Todos los SKU basados en compromisos para la capacidad de procesamiento aprovisionada |
| Otros Servicios | Servicios especializados, como "LLM Grounding for Gemini… with Google Search tool" |
Verifica el nivel de uso
Para verificar el nivel de uso de tu organización, ve al panel de Vertex AI en la consola de Google Cloud .
Verificar la inversión
Para revisar tu inversión en Vertex AI, ve a Facturación de Cloud en la consola deGoogle Cloud . Ten en cuenta que la inversión se agrega a nivel de la organización.
Errores de recurso agotado (429)
Si recibes un error de 429, no significa que hayas alcanzado una cuota fija.
Indica una alta contención temporal para un recurso compartido específico. Recomendamos implementar una estrategia de reintento con retirada exponencial para controlar estos errores, ya que la disponibilidad en este entorno dinámico puede cambiar rápidamente. Además de una estrategia de reintentos, te recomendamos que uses el extremo global. A diferencia de un extremo regional (por ejemplo, us-central1), el extremo global enruta tus solicitudes de forma dinámica a la región con la mayor capacidad disponible en ese momento. Esto permite que tu aplicación acceda a un grupo más grande y multirregional de capacidad compartida, lo que aumenta significativamente tu potencial para realizar ráfagas exitosas y reduce la probabilidad de errores 429.
Para obtener mejores resultados, combina el uso del extremo global con la suavización del tráfico. Evita enviar solicitudes en picos pronunciados de segundo nivel, ya que el tráfico alto e instantáneo puede provocar limitaciones, incluso si tu uso promedio por minuto se encuentra dentro del límite de capacidad de procesamiento de referencia. Distribuir tus llamadas a la API de manera más uniforme ayuda al sistema a administrar tu carga de forma predecible y mejora el rendimiento general. Para obtener más información sobre cómo controlar los errores de agotamiento de recursos, consulta Guía para controlar los errores 429 y Código de error 429.
Modelos compatibles
Los siguientes modelos de Gemini disponibles de forma general (DG) y sus modelos ajustados de forma supervisada admiten el pago por uso estándar con niveles de uso:
Los siguientes modelos de Gemini en GA y sus modelos ajustados de forma supervisada también admiten el modelo Estándar de pago por uso, pero los niveles de uso no se aplican a estos modelos:
Ten en cuenta que estos niveles no se aplican a los modelos de versión preliminar. Consulta la documentación oficial específica de cada modelo para obtener la información más precisa y actualizada.
Supervisa el rendimiento y la capacidad de procesamiento
Para supervisar el consumo de tokens en tiempo real de tu organización, ve al Explorador de métricas en Cloud Monitoring.
Para obtener más información sobre cómo supervisar el tráfico de extremos de modelos, consulta Supervisa modelos.
Ten en cuenta que los niveles de uso se aplican a nivel de la organización. Si deseas obtener información para configurar tu permiso de observabilidad para registrar el rendimiento en varios proyectos de tu organización, consulta Configura permisos de observabilidad para consultas de varios proyectos.
¿Qué sigue?
- Para obtener información sobre las cuotas y los límites de Vertex AI, consulta Cuotas y límites de Vertex AI.
- Para obtener más información sobre las Google Cloud cuotas y los límites del sistema, consulta la documentación de Cloud Quotas.