Capacidad de procesamiento aprovisionada para la API de Gemini Live

En esta sección, se explica cómo funciona la capacidad de procesamiento aprovisionada con la API de Gemini Live para el recuento de tokens y la aplicación de cuotas.

La API de Gemini Live admite interacciones multimodales de baja latencia a través de sesiones. Usa una memoria de sesión para retener y recordar información de las interacciones dentro de una sesión. Esto permite que el modelo recuerde la información proporcionada o analizada anteriormente. La capacidad de procesamiento aprovisionada admite el modelo de Gemini 2.5 Flash con la API de Gemini Live. Para obtener más información sobre la API de Gemini Live, incluidos los límites y las capacidades de la sesión, consulta la referencia de la API de Gemini Live.

La API de Gemini Live requiere que una sesión se dedique por completo al tráfico de capacidad de procesamiento aprovisionada o de pago por uso. No admite el tráfico de desbordamiento entre la capacidad de procesamiento aprovisionada y el pago por uso dentro de la misma sesión. El tipo de tráfico establecido al comienzo de una sesión continúa durante toda su duración. Si alcanzas tu cuota de capacidad de procesamiento aprovisionada durante una sesión activa, no experimentarás errores ni limitaciones. En cambio, el sistema permite que el tráfico aumente temporalmente para que la sesión continúe, y todo el uso posterior se registra en tu cuota general. Este aumento temporal puede hacer que tus paneles de supervisión muestren el uso de la capacidad de procesamiento aprovisionada (tráfico dedicado) por encima de tu límite. Para evitar exceder los límites asignados a mitad de la sesión, es importante comprar suficientes GSU para admitir el uso esperado.

El desbordamiento se admite de una sesión a la siguiente. Si excedes el límite de capacidad de procesamiento aprovisionada después de que finaliza una sesión, puedes iniciar una sesión adicional con el pago por uso. Si una sesión se procesa por completo como capacidad de procesamiento aprovisionada o pago por uso, se decide al comienzo de la sesión. El sistema verifica el encabezado que envía el usuario y, luego, verifica si hay suficiente cuota de capacidad de procesamiento aprovisionada para la sesión. Si la cuota de capacidad de procesamiento aprovisionada disponible no es suficiente para procesar toda la sesión, se usa la cuota de pago por uso.

Calcula la capacidad de procesamiento para la API de Gemini Live

Cuando se usa la API de Gemini Live, los tokens almacenados en la memoria de sesión se pueden usar en solicitudes posteriores al modelo. Como resultado, la capacidad de procesamiento aprovisionada tiene en cuenta los tokens entrantes, así como los tokens de memoria de sesión en la misma solicitud. Esto puede hacer que la cantidad de tokens que se procesan por solicitud sea mayor que los tokens que envía el usuario en la solicitud en curso.

La API de Gemini Live tiene un límite en la cantidad total de tokens que se pueden almacenar en la memoria de sesión y también tiene un campo de metadatos que contiene la cantidad total de tokens. Cuando calcules la capacidad de procesamiento que se necesita para atender tus solicitudes, debes tener en cuenta los tokens en la memoria de sesión. Si usaste la API de Gemini Live con el pago por uso, puedes usar estos patrones de tráfico y tokens de sesión para ayudar a estimar tus necesidades de capacidad de procesamiento aprovisionada.

Ejemplo de cómo estimar tus requisitos de capacidad de procesamiento aprovisionada para la API de Gemini Live

Durante una sesión, todo el tráfico se procesa como capacidad de procesamiento aprovisionada o pago por uso.

El estado de la sesión, incluida la memoria de sesión, está disponible mientras la sesión esté activa.

En este ejemplo, se muestra cómo se procesan dos solicitudes consecutivas mediante la inclusión de los tokens de la memoria de sesión.

Detalles de la solicitud n.° 1

Duración: 10 segundos

Tokens enviados (audio): 10 segundos x 25 tokens/segundo = 250 tokens

Tokens enviados (video): 10 segundos x 258 tokens/fotograma por segundo = 2,580 tokens

Total de tokens procesados para la solicitud n.° 1:

  • Tokens enviados: Suma de tokens de audio y video enviados = 2,580 + 250 = 2,830 tokens
  • Tokens recibidos: 100 (audio)

Detalles de la solicitud n.° 2

Duración: 40 segundos

Tokens enviados (audio): 40 segundos x 25 tokens/segundo = 1,000 tokens

Total de tokens procesados para la solicitud n.° 2:

  • Tokens enviados: Tokens enviados en la solicitud n.° 2 + tokens de memoria de sesión de la solicitud n.° 1 = 2,830 tokens + 1,000 tokens = 3,830 tokens
  • Tokens recibidos: 200 (audio)

Calcula la cantidad de tokens procesados en las solicitudes

La cantidad de tokens procesados durante estas solicitudes se calcula de la siguiente manera:

  • La solicitud n.° 1 procesa solo los tokens de entrada y salida de la solicitud en curso, ya que no hay tokens adicionales en la memoria de sesión.

  • La solicitud n.° 2 procesa los tokens de entrada y salida de la solicitud en curso, pero también incluye los tokens de entrada de la memoria de sesión, que consisten en los tokens de entrada de la solicitud anterior (solicitud n.° 1) de la memoria de sesión. La tasa de reducción de tokens en la memoria de sesión es la misma que la de los tokens de entrada estándar (1 token de memoria de sesión de entrada = 1 token de entrada).

    Si la solicitud n.° 2 tardó exactamente 1 segundo en procesarse después de que la enviaste, tus tokens se procesan y se aplican a tu cuota de capacidad de procesamiento aprovisionada de la siguiente manera:

    • Multiplica tus entradas por las tasas de reducción para obtener el total de tokens de entrada:

      2,830 x (1 token por token de memoria de sesión) + 1,000 x (1 token por token de texto de entrada) = 3,830 tokens de entrada ajustados por reducción por consulta

    • Multiplica tus salidas por las tasas de reducción para obtener el total de tokens de salida:

      200 x (24 tokens por token de salida de audio) = 4,800 tokens

    • Suma estos dos totales para obtener la cantidad total de tokens procesados:

      3,830 tokens + 4,800 tokens = 8,630 tokens

¿Qué sigue?