En esta sección, se explica cómo funciona la capacidad de procesamiento aprovisionada con la API de Gemini Live para el recuento de tokens y la aplicación de cuotas.
La API de Gemini Live admite interacciones multimodales de baja latencia a través de sesiones. Utiliza una memoria de sesión para retener y recordar información de las interacciones dentro de una sesión. Esto permite que el modelo recuerde la información que se proporcionó o se analizó anteriormente. La capacidad de procesamiento aprovisionada admite el modelo de Gemini 2.5 Flash con la API de Gemini Live. Para obtener más información sobre la API de Gemini Live, incluidos los límites y las capacidades de las sesiones, consulta la referencia de la API de Gemini Live.
La API de Gemini Live requiere que una sesión se dedique por completo al tráfico de capacidad de procesamiento aprovisionada o de pago por uso. No admite el derrame de tráfico entre el rendimiento aprovisionado y el pago por uso en la misma sesión. El tipo de tráfico establecido al inicio de una sesión continúa durante toda su duración. Si alcanzas tu cuota de capacidad de procesamiento aprovisionada durante una sesión activa, no experimentarás limitaciones ni errores. En cambio, el sistema permite que el tráfico aumente temporalmente para que continúe la sesión, y todo el uso posterior se registra en tu cuota general. Este aumento temporal puede hacer que tus paneles de supervisión muestren el uso del rendimiento aprovisionado (tráfico dedicado) por encima de tu límite. Para evitar exceder los límites asignados durante la sesión, es importante que compres suficientes GSU para admitir el uso esperado.
Se admite el desbordamiento de una sesión a la siguiente. Si superas el límite de capacidad de procesamiento aprovisionada después de que finaliza una sesión, puedes iniciar una sesión adicional con PayGo. Al comienzo de la sesión, se decide si se procesará por completo como capacidad de procesamiento aprovisionada o con el modelo de pago por uso. El sistema verifica el encabezado que envía el usuario y, luego, comprueba si hay suficiente cuota de capacidad de procesamiento aprovisionada para la sesión. Si la cuota de capacidad de procesamiento aprovisionada disponible no es suficiente para procesar toda la sesión, se usará la cuota de PayGo.
Calcula la capacidad de procesamiento de la API de Gemini Live
Mientras usas la API de Gemini Live, los tokens almacenados en la memoria de la sesión se pueden usar en solicitudes posteriores al modelo. Como resultado, el rendimiento aprovisionado tiene en cuenta los tokens entrantes y los tokens de memoria de la sesión en la misma solicitud. Esto puede hacer que la cantidad de tokens que se procesan por solicitud sea mayor que la cantidad de tokens que envía el usuario en la solicitud en curso.
La API de Gemini Live tiene un límite en la cantidad total de tokens que se pueden almacenar en la memoria de la sesión y también tiene un campo de metadatos que contiene la cantidad total de tokens. Cuando calcules la cantidad de capacidad de procesamiento necesaria para atender tus solicitudes, debes tener en cuenta los tokens en la memoria de la sesión. Si usaste la API de Gemini Live con pago por uso (PayGo), puedes usar estos patrones de tráfico y tokens de sesión para estimar tus necesidades de capacidad de procesamiento aprovisionada.
Ejemplo de cómo estimar tus requisitos de capacidad de procesamiento aprovisionada para la API de Gemini Live
Durante una sesión, todo el tráfico se procesa como capacidad de procesamiento aprovisionada o pago por uso.
El estado de la sesión, incluida la memoria de la sesión, está disponible mientras la sesión esté activa.
En este ejemplo, se ilustra cómo se procesan dos solicitudes consecutivas incluyendo los tokens de la memoria de la sesión.
Detalles de la solicitud núm. 1
Duración: 10 segundos
Tokens enviados (audio): 10 segundos x 25 tokens/segundo = 250 tokens
Tokens enviados (video): 10 segundos x 258 tokens/fotograma por segundo = 2,580 tokens
Tokens totales procesados para la solicitud 1:
- Tokens enviados: Suma de tokens de audio y video enviados = 2,580 + 250 = 2,830 tokens
- Tokens recibidos: 100 (audio)
Detalles de la solicitud núm. 2
Duración: 40 segundos
Tokens enviados (audio): 40 segundos x 25 tokens/segundo = 1,000 tokens
Tokens totales procesados para la solicitud 2:
- Tokens enviados: Tokens enviados en la solicitud 2 + tokens de memoria de sesión de la solicitud 1 = 2,830 tokens + 1,000 tokens = 3,830 tokens
- Tokens recibidos: 200 (audio)
Calcula la cantidad de tokens procesados en las solicitudes
La cantidad de tokens procesados durante estas solicitudes se calcula de la siguiente manera:
La solicitud 1 solo procesa los tokens de entrada y salida de la solicitud en curso, ya que no hay tokens adicionales en la memoria de la sesión.
La solicitud núm. 2 procesa los tokens de entrada y salida de la solicitud en curso, pero también incluye los tokens de entrada de la memoria de la sesión, que consisten en los tokens de entrada de la solicitud anterior (solicitud núm. 1) de la memoria de la sesión. La tasa de reducción de los tokens en la memoria de la sesión es la misma que la de los tokens de entrada estándar (1 token de memoria de la sesión de entrada = 1 token de entrada).
Si la solicitud núm. 2 tardó exactamente 1 segundo en procesarse después de que la enviaste, tus tokens se procesarán y se aplicarán a tu cuota de capacidad de procesamiento aprovisionada de la siguiente manera:
Multiplica tus entradas por las tasas de consumo para obtener el total de tokens de entrada:
2,830 x (1 token por token de memoria de sesión) + 1,000 x (1 token por token de texto de entrada) = 3,830 tokens de entrada ajustados de reducción por consulta
Multiplica tus resultados por las tasas de reducción para obtener el total de tokens de salida:
200 x (24 tokens por token de salida de audio) = 4,800 tokens
Suma estos dos totales para obtener la cantidad total de tokens procesados:
3,830 tokens + 4,800 tokens = 8,630 tokens