El modelo de pago por uso estándar es una opción de consumo para utilizar el conjunto de modelos de IA generativa de Vertex AI, incluidas las familias de modelos Gemini e Imagen en Vertex AI. El modelo de pago estándar por uso te permite pagar solo por los recursos que consumes, sin necesidad de compromisos financieros por adelantado. Para ofrecer un rendimiento más predecible en cargas de trabajo escalables, Standard PayGo incorpora un sistema de niveles de uso. Vertex AI ajusta dinámicamente la capacidad de procesamiento de referencia de tu organización en función del gasto total en servicios de Vertex AI aptos durante un periodo de 30 días. A medida que aumenta la inversión de tu organización, se asciende automáticamente a niveles superiores que proporcionan un mayor acceso a recursos compartidos y umbrales de rendimiento más altos.
Niveles de uso y rendimiento
Cada nivel de uso de pago por uso estándar tiene como objetivo proporcionar un rendimiento de referencia, medido en tokens por minuto (TPM), que sirve como rendimiento mínimo predecible para el tráfico de tu organización. Los límites de rendimiento se basan en las solicitudes enviadas al endpoint global. Usar el endpoint global es una práctica recomendada, ya que proporciona acceso a un grupo más grande y multirregional de capacidad de procesamiento y permite enrutar las solicitudes a la ubicación con la mayor disponibilidad para maximizar el rendimiento.
El tráfico no está limitado estrictamente al límite de rendimiento básico. Vertex AI permite que el tráfico supere este límite en la medida de lo posible. Sin embargo, durante los periodos de alta demanda en la plataforma Vertex AI, este tráfico de ráfagas excesivo puede tener una mayor variabilidad en el rendimiento. Para optimizar el rendimiento y minimizar la probabilidad de recibir estos errores, también es recomendable suavizar el tráfico de la forma más uniforme posible a lo largo de cada minuto. Evita enviar solicitudes en picos pronunciados de segundo nivel. Si el tráfico es alto e instantáneo, se puede producir una limitación aunque el uso medio por minuto sea inferior al límite. Si distribuyes las llamadas a la API de forma más uniforme, el sistema podrá gestionar tu carga de forma predecible y mejorar el rendimiento general.
Los siguientes niveles están disponibles en el modelo de pago estándar por uso:
| Familia del modelo | Nivel | Gasto de los clientes (30 días) | TPM de tráfico (a nivel de organización) |
|---|---|---|---|
| Modelos de Gemini Pro | Nivel 1 | 10 - 250 USD | 500.000 |
| Nivel 2 | 250 USD - 2000 USD | 1.000.000 | |
| Nivel 3 | > 2000 USD | 2.000.000 | |
| Modelos Gemini Flash y Flash-Lite | Nivel 1 | 10 USD - 250 USD | 2.000.000 |
| Nivel 2 | 250 USD - 2000 USD | 4.000.000 | |
| Nivel 3 | > 2000 USD | 10.000.000 |
Ten en cuenta que el límite de rendimiento que se muestra para una familia de modelos se aplica de forma independiente a cada modelo de esa familia. Por ejemplo, un cliente del nivel 3 tiene un rendimiento base de 10.000.000 TPM para Gemini 2.5 Flash y otro rendimiento base de 10.000.000 TPM para Gemini 2.0 Flash. El uso de uno de estos límites no afecta al rendimiento de otros modelos. No hay un límite de solicitudes por minuto (RPM) independiente para cada nivel. Sin embargo, se aplica el límite del sistema de 30.000 RPM por modelo y región. Las peticiones de Gemini con entradas multimodales están sujetas a los límites de frecuencia del sistema correspondientes, incluidos los de imágenes, audio, vídeo y documentos.
Si necesitas un mayor rendimiento para un caso práctico empresarial, ponte en contacto con el equipo de tu cuenta para obtener más información sobre un nivel personalizado.
Cómo funcionan los niveles de uso
Tu nivel de uso se determina automáticamente en función del gasto total de tu organización en los servicios de Vertex AI aptos durante un periodo de 30 días. A medida que aumente el gasto de tu organización, el sistema te ascenderá a un nivel superior con un mayor rendimiento.
Cálculo del gasto
Este cálculo incluye una amplia gama de servicios, desde predicciones de todas las familias de modelos de Gemini hasta instancias de CPU, GPU y TPU de Vertex AI, así como SKUs basados en compromisos, como el rendimiento aprovisionado.
Haz clic para obtener más información sobre las SKUs incluidas en el cálculo del gasto.
En la siguiente tabla se enumeran las categorías de Google Cloud SKUs que se incluyen en el cálculo del gasto total.
| Categoría | Descripción de los SKUs incluidos |
|---|---|
| Modelos de Gemini | Todas las familias de modelos de Gemini (por ejemplo, 2.0, 2.5 y 3.0 en las versiones Pro, Flash y Lite) para predicciones en todas las modalidades (texto, imagen, audio y vídeo), incluidas las variaciones por lotes, de contexto largo, ajustadas y de "razonamiento" |
| Funciones de los modelos de Gemini | Todos los SKUs de Gemini relacionados con funciones como el almacenamiento en caché, el almacenamiento en caché y los niveles de prioridad, en todas las modalidades y versiones del modelo |
| CPU de Vertex AI | Predicciones online y por lotes en todas las familias de instancias basadas en CPU (por ejemplo, C2, C3, E2, N1, N2 y sus variantes) |
| GPU de Vertex AI | Predicciones online y por lotes en todas las instancias aceleradas por GPU NVIDIA (por ejemplo, A100, H100, H200, B200, L4, T4, V100 y RTX) |
| Vertex AI TPU | Predicciones online y por lotes en todas las instancias basadas en TPU (por ejemplo, TPU-v5e, v6e) |
| Gestión y comisiones | Todas las SKUs de "Tarifa de gestión" asociadas a varias instancias de predicción de Vertex AI |
| Capacidad de procesamiento aprovisionada | Todos los SKUs basados en compromisos de Provisioned Throughput |
| Otros servicios | Servicios especializados, como "LLM Grounding for Gemini... with Google Search tool" ("Fundamentación de LLMs para Gemini... con la herramienta de la Búsqueda de Google") |
Verificar el nivel de uso
Para verificar el nivel de uso de tu organización, ve al panel de control de Vertex AI en la Google Cloud consola.
Ir al panel de control de Vertex AI
Verificar la inversión
Para revisar tu gasto en Vertex AI, ve a Facturación de Cloud en la Google Cloud consola. Ten en cuenta que el gasto se agrega a nivel de organización.
Errores de recurso agotado (429)
Si recibes un error 429, no significa que hayas alcanzado una cuota fija.
Indica una alta contención temporal de un recurso compartido específico. Te recomendamos que implementes una estrategia de reintentos con retroceso exponencial para gestionar estos errores, ya que la disponibilidad en este entorno dinámico puede cambiar rápidamente. Además de una estrategia de reintentos, te recomendamos que uses el endpoint global. A diferencia de un punto final regional (por ejemplo, us-central1), el punto final global dirige dinámicamente tus solicitudes a la región con la mayor capacidad disponible en ese momento. De esta forma, tu aplicación puede acceder a un grupo más grande y multirregional de capacidad compartida, lo que aumenta significativamente tu potencial de bursting y reduce la probabilidad de que se produzcan errores 429.
Para obtener los mejores resultados, combina el uso del endpoint global con la suavización del tráfico. Evita enviar solicitudes en picos pronunciados de segundo nivel, ya que un tráfico alto e instantáneo puede provocar una limitación, aunque tu uso medio por minuto esté dentro del límite de rendimiento de referencia. Distribuir las llamadas a la API de forma más uniforme ayuda al sistema a gestionar la carga de forma predecible y mejora el rendimiento general. Para obtener más información sobre cómo gestionar los errores de agotamiento de recursos, consulta Guía para gestionar errores 429 y Código de error 429.
Modelos admitidos
Los siguientes modelos de Gemini disponibles para todos los usuarios y sus modelos ajustados con supervisión admiten el pago por uso estándar con niveles de uso:
Los siguientes modelos de GA de Gemini y sus modelos ajustados con supervisión también admiten la opción de pago por uso estándar, pero los niveles de uso no se aplican a estos modelos:
Ten en cuenta que estos niveles no se aplican a los modelos de vista previa. Consulta la documentación oficial específica de cada modelo para obtener la información más precisa y actualizada.
Monitorizar el rendimiento y el volumen de datos
Para monitorizar el consumo de tokens en tiempo real de tu organización, ve al explorador de métricas de Cloud Monitoring.
Para obtener más información sobre cómo monitorizar el tráfico de los endpoints de modelos, consulta el artículo Monitorizar modelos.
Ten en cuenta que los niveles de uso se aplican a nivel de organización. Para obtener información sobre cómo definir el ámbito de observabilidad para representar el rendimiento de varios proyectos de tu organización, consulta Configurar ámbitos de observabilidad para consultas de varios proyectos.
Siguientes pasos
- Para obtener información sobre las cuotas y los límites de Vertex AI, consulta Cuotas y límites de Vertex AI.
- Para obtener más información sobre las Google Cloud cuotas y los límites del sistema, consulta la documentación de cuotas de Cloud.