El modelo de pago por uso estándar (Standard PayGo) es una opción de consumo para utilizar el conjunto de modelos de IA generativa de Agent Platform, incluida la familia de modelos de Gemini. Standard PayGo te permite pagar solo por los recursos que consumes, sin necesidad de compromisos financieros anticipados. Para proporcionar un rendimiento más predecible para las cargas de trabajo escalables, Standard PayGo incorpora un sistema de niveles de uso. Agent Platform ajusta de forma dinámica la capacidad de procesamiento de referencia de tu organización en función de su inversión total en los servicios aptos de Agent Platform durante un período continuo de 30 días. A medida que aumenta la inversión de tu organización, se asciende automáticamente a niveles más altos que proporcionan un mayor acceso a los recursos compartidos y umbrales de rendimiento más altos. Para las cargas de trabajo que requieren un rendimiento más coherente que Standard PayGo, considera Priority PayGo. Para obtener capacidad dedicada y garantizada, consulta Capacidad de procesamiento aprovisionada.
Niveles de uso y capacidad de procesamiento
Cada nivel de uso de Standard PayGo tiene como objetivo proporcionar una capacidad de procesamiento de referencia, medida en tokens por minuto (TPM), que sirve como un nivel de rendimiento predecible para el tráfico de tu organización. Los límites de capacidad de procesamiento se basan en las solicitudes enviadas al extremo global. Usar el extremo global es una práctica recomendada, ya que proporciona acceso a un grupo más grande y multirregional de capacidad de procesamiento y permite enrutar tus solicitudes a la ubicación con la mayor disponibilidad para maximizar el rendimiento.
Tu tráfico no está estrictamente limitado al límite de capacidad de procesamiento de referencia. Agent Platform permite que el tráfico supere este límite de la mejor manera posible. Sin embargo, durante los períodos de alta demanda en Agent Platform, este tráfico de ráfaga excesivo podría tener una mayor variabilidad en el rendimiento. Para optimizar el rendimiento y minimizar la probabilidad de recibir estos errores, también es una práctica recomendada suavizar el tráfico de la manera más uniforme posible durante cada minuto. Evita enviar solicitudes en picos pronunciados de segundo nivel. El tráfico alto e instantáneo puede provocar la regulación, incluso si tu uso promedio por minuto está por debajo del límite. Distribuir las llamadas a la API de manera más uniforme ayuda al sistema a administrar tu carga de manera predecible y mejora el rendimiento general.
Los siguientes niveles están disponibles en Standard PayGo:
| Familia de modelos | Nivel | Inversión del cliente (30 días) | TPM de tráfico (nivel de la organización) |
|---|---|---|---|
| Modelos de Gemini Pro | Nivel 1 | $10 - $250 | 500,000 |
| Nivel 2 | $250 - $2,000 | 1,000,000 | |
| Nivel 3 | > $2,000 | 2,000,000 | |
| Modelos de Gemini Flash y Flash-Lite | Nivel 1 | $10 - $250 | 2,000,000 |
| Nivel 2 | $250 - $2,000 | 4,000,000 | |
| Nivel 3 | > $2,000 | 10,000,000 |
Ten en cuenta que el límite de capacidad de procesamiento que se muestra para una familia de modelos se aplica de forma independiente a cada modelo dentro de esa familia. Por ejemplo, un cliente en el nivel 3 tiene una capacidad de procesamiento de referencia de 10,000,000 de TPM para Gemini 2.5 Flash y una referencia independiente de 10,000,000 de TPM para Gemini 2.0 Flash. El uso en contra de uno de estos límites no afecta la capacidad de procesamiento de otros modelos. No hay un límite independiente de solicitudes por minuto (RPM) para cada nivel. Sin embargo, se aplica el límite del sistema de 30,000 RPM por modelo por región. Las solicitudes de Gemini con entradas multimodales están sujetas a los límites de frecuencia del sistema correspondientes, incluidas las imágenes, el audio, el video y los documentos.
Si necesitas una mayor capacidad de procesamiento para un caso de uso empresarial, comunícate con tu equipo de cuentas para obtener más información sobre un nivel personalizado.
Cómo funcionan los niveles de uso
Tu nivel de uso se determina automáticamente según la inversión total de tu organización en los servicios aptos de Agent Platform durante un período continuo de 30 días. A medida que aumenta la inversión de tu organización, el sistema te asciende a un nivel más alto con mayor capacidad de procesamiento.
Cálculo de la inversión
Este cálculo incluye una amplia gama de servicios, desde predicciones en todas las familias de modelos de Gemini hasta instancias de CPU, GPU y TPU de Agent Platform, y también SKUs basados en compromisos, como la capacidad de procesamiento aprovisionada.
Haz clic para obtener más información sobre los SKUs incluidos en el cálculo de la inversión.
En la siguiente tabla, se enumeran las categorías de Google Cloud SKUs que se incluyen en el cálculo de la inversión total.
| Categoría | Descripción de los SKUs incluidos |
|---|---|
| Modelos de Gemini | Todas las familias de modelos de Gemini (p.ej., 2.0, 2.5, 3.0 en versiones Pro, Flash y Lite) para predicciones en todas las modalidades (texto, imagen, audio, video), incluidas las variaciones por lotes, de contexto largo, ajustadas y de "pensamiento" |
| Funciones de los modelos de Gemini | Todos los SKUs de Gemini relacionados con funciones como el almacenamiento en caché, el almacenamiento en caché y los niveles de prioridad, en todas las modalidades y versiones de modelos |
| CPU de Agent Platform | Predicciones en línea y por lotes en todas las familias de instancias basadas en CPU (p.ej., C2, C3, E2, N1, N2 y sus variantes) |
| GPU de Agent Platform | Predicciones en línea y por lotes en todas las instancias aceleradas por GPU NVIDIA (p.ej., A100, H100, H200, B200, L4, T4, V100 y series RTX) |
| TPU de Agent Platform | Predicciones en línea y por lotes en todas las instancias basadas en TPU (p.ej., TPU-v5e, v6e) |
| Administración y tarifas | Todos los SKUs de "Tarifa de administración" asociados con varias instancias de predicción de Agent Platform |
| Capacidad de procesamiento aprovisionada | Todos los SKUs basados en compromisos para la capacidad de procesamiento aprovisionada |
| Otros Servicios | Servicios especializados, como "LLM Grounding for Gemini... with Google Search tool" |
Verifica el nivel de uso
Para verificar el nivel de uso de tu organización, ve al
panel de Agent Platform en la Google Cloud consola.
Para ver el nivel de uso en el panel, necesitas el
rol de visualizador de Agent Platform
(roles/aiplatform.viewer) en el proyecto y el
rol de visualizador de cuentas de facturación
(roles/billing.viewer) en la cuenta de facturación.
Verifica la inversión
Para revisar tu inversión en Agent Platform, ve a Facturación de Cloud en la Google Cloud consola. Ten en cuenta que la inversión se agrega a nivel de la organización.
Errores de recursos agotados (429)
Si recibes un error 429, no indica que hayas alcanzado una cuota fija.
Indica una alta contención temporal para un recurso compartido específico. Recomendamos implementar una estrategia de reintentos de retirada exponencial para controlar estos errores, ya que la disponibilidad en este entorno dinámico puede cambiar rápidamente. Además de una estrategia de reintentos, recomendamos usar el extremo global. A diferencia de un extremo regional (por ejemplo, us-central1), el extremo global enruta de forma dinámica tus solicitudes a la región con la mayor capacidad disponible en ese momento. Esto permite que tu aplicación acceda a un grupo más grande y multirregional de capacidad compartida, lo que aumenta significativamente tu potencial de ráfaga exitosa y reduce la probabilidad de errores 429.
Para obtener mejores resultados, combina el uso del extremo global con el suavizado del tráfico. Evita enviar solicitudes en picos pronunciados de segundo nivel, ya que el tráfico alto e instantáneo puede provocar la regulación, incluso si tu uso promedio por minuto está dentro del límite de capacidad de procesamiento de referencia. Distribuir las llamadas a la API de manera más uniforme ayuda al sistema a administrar tu carga de manera predecible y mejora el rendimiento general. Para obtener más información sobre cómo controlar los errores de agotamiento de recursos, consulta Cómo compilar aplicaciones LLM resilientes y reducir los errores 429 y Código de error 429.
Modelos compatibles
Los siguientes modelos de Gemini disponibles de forma general (DG) y sus modelos ajustados supervisados admiten Standard PayGo con niveles de uso:
Haz clic para expandir los modelos compatibles
Los siguientes GA DG y sus modelos ajustados supervisados también admiten Standard PayGo, pero los niveles de uso no se aplican a estos modelos:
Ten en cuenta que estos niveles no se aplican a los modelos de vista previa. Consulta la documentación oficial específica de cada modelo para obtener la información más precisa y actualizada.
Supervisa la capacidad de procesamiento y el rendimiento
Para supervisar el consumo de tokens en tiempo real de tu organización, ve al Explorador de métricas en Cloud Monitoring.
Para obtener más información sobre la supervisión del tráfico de extremos de modelos, consulta Supervisa modelos.
Ten en cuenta que los niveles de uso se aplican a nivel de la organización. Para obtener información sobre cómo configurar tu alcance de observabilidad para trazar la capacidad de procesamiento en varios proyectos de tu organización, consulta Configura alcances de observabilidad para consultas de varios proyectos.
¿Qué sigue?
Cuotas y límites de Agent Platform
Cuotas y límites relacionados con Agent Platform, excluidas las limitaciones específicas del producto.
Cuotas de Google Cloud
Obtén información sobre cómo Google Cloud restringe la cantidad de un recurso que puede usar tu proyecto de Google Cloud y cómo se aplican las cuotas a una variedad de tipos de recursos, incluidos los componentes de hardware, software y red.