Débito aprovisionado para a API Live

Esta secção explica como o débito processado funciona com a API Live para a contagem de tokens e a aplicação de quotas.

A API Live suporta interações multimodais de baixa latência através de sessões. Utiliza uma memória de sessão para reter e relembrar informações de interações numa sessão. Isto permite que o modelo recorde informações fornecidas ou debatidas anteriormente. O débito processado suporta o modelo Gemini 2.5 Flash com a API Live. Para mais informações sobre a API Live, incluindo limites de sessões e capacidades, consulte a referência da API Live.

Calcule a taxa de transferência da API Live

Enquanto usa a API Live, os tokens armazenados na memória da sessão podem ser usados em pedidos subsequentes ao modelo. Como resultado, o débito processado tem em conta os tokens recebidos, bem como os tokens de memória da sessão no mesmo pedido. Isto pode fazer com que o número de tokens processados por pedido seja superior aos tokens enviados pelo utilizador no pedido em curso.

A API Live tem um limite para o total de tokens que podem ser armazenados na memória da sessão e também tem um campo de metadados que contém o número total de tokens. Ao calcular a quantidade de débito necessária para atender aos seus pedidos, tem de ter em conta os tokens na memória da sessão. Se usou a API Live com o modelo de pagamento à medida que usa (PayGo), pode usar estes padrões de tráfego e tokens de sessão para ajudar a estimar as suas necessidades de débito processado.

Exemplo de como estimar os requisitos de débito aprovisionado para a API Live

Durante uma sessão, todo o tráfego é processado como débito automático ou pagamento conforme o uso. Se atingir a sua quota de débito automático durante uma sessão, recebe uma mensagem de erro a pedir que tente novamente mais tarde. Quando estiver dentro da quota, pode retomar o envio de pedidos. O estado da sessão, incluindo a memória da sessão, está disponível enquanto a sessão estiver ativa.

Este exemplo ilustra como dois pedidos consecutivos são processados incluindo os tokens da memória da sessão.

Detalhes do pedido n.º 1

Duração: 10 segundos

Tokens enviados (áudio): 10 segundos x 25 tokens/segundo = 250 tokens

Tokens enviados (vídeo): 10 segundos x 258 tokens/frame por segundo = 2580 tokens

Total de tokens processados para o pedido n.º 1:

  • Tokens enviados: soma dos tokens de áudio e vídeo enviados = 2580 + 250 = 2830 tokens
  • Tokens recebidos: 100 (áudio)

Detalhes do pedido n.º 2

Duração: 40 segundos

Tokens enviados (áudio): 40 segundos x 25 tokens/segundo = 1000 tokens

Total de tokens processados para o pedido n.º 2:

  • Tokens enviados: tokens enviados no pedido n.º 2 + tokens de memória da sessão do pedido n.º 1 = 2830 tokens + 1000 tokens = 3830 tokens
  • Símbolos recebidos: 200 (áudio)

Calcular o número de tokens processados nos pedidos

O número de tokens processados durante estes pedidos é calculado da seguinte forma:

  • O pedido n.º 1 processa apenas os tokens de entrada e saída do pedido em curso, uma vez que não existem tokens adicionais na memória da sessão.

  • O pedido n.º 2 processa os tokens de entrada e saída do pedido em curso, mas também inclui os tokens de entrada da memória da sessão, que consistem nos tokens de entrada do pedido anterior (pedido n.º 1) da memória da sessão. A taxa de consumo de tokens na memória da sessão é igual à dos tokens de entrada padrão (1 token de memória da sessão de entrada = 1 token de entrada).

    Se o pedido n.º 2 demorou exatamente 1 segundo a ser processado depois de o enviar, os seus tokens são processados e aplicados à sua quota de débito processado, da seguinte forma:

    • Multiplique as suas entradas pelas taxas de redução para obter o total de tokens de entrada:

      2830 x (1 token por token de memória da sessão) + 1000 x (1 token por token de texto de entrada) = 3830 tokens de entrada ajustados de redução por consulta

    • Multiplique as suas saídas pelas taxas de redução para obter o total de tokens de saída:

      200 x (6 tokens por token de saída de áudio) = 1200 tokens

    • Adicione estes dois totais para obter o número total de tokens processados:

      3830 tokens + 1200 tokens = 5030 tokens

Se a sua quota de débito processado for superior a 5030 tokens por segundo, este pedido pode ser processado imediatamente. Se for inferior, os tokens são processados ao longo do tempo à taxa que definiu para a sua quota.

O que se segue?