Provisioned Throughput para a API Gemini Live

Esta seção explica como a capacidade de processamento provisionada funciona com a API Gemini Live para contagem de tokens e aplicação de cotas.

A API Gemini Live oferece suporte a interações multimodais de baixa latência por sessões. Ele usa uma memória de sessão para reter e recordar informações de interações em uma sessão. Isso permite que o modelo se lembre de informações fornecidas ou discutidas anteriormente. A capacidade de processamento provisionada é compatível com o modelo Gemini 2.5 Flash com API Gemini Live. Para mais informações sobre a API Gemini Live, incluindo limites de sessão e recursos, consulte a referência da API Gemini Live.

A API Gemini Live não é compatível com o tráfego de transbordamento da capacidade de processamento provisionada para o tráfego de pagamento por uso na mesma sessão. Se você iniciar uma sessão usando o tráfego de taxa de transferência provisionada, não poderá usar o tráfego pago por uso durante essa sessão, e vice-versa. Se você atingir a cota de capacidade de transmissão provisionada durante uma sessão, vai receber o seguinte erro:

Quota exceeded. Please retry later.

Para evitar esse erro, compre GSUs de capacidade de processamento provisionada suficientes para cobrir seu uso. Se você receber esse erro, poderá retomar o envio de solicitações para a API Gemini Live depois que o uso voltar à cota comprada. O estado da sessão, incluindo a memória dela, fica disponível enquanto a sessão estiver ativa.

Calcular a capacidade de processamento da API Gemini Live

Ao usar a API Gemini Live, os tokens armazenados na memória da sessão podem ser usados em solicitações subsequentes ao modelo. Como resultado, a taxa de transferência provisionada considera os tokens recebidos e os tokens de memória da sessão na mesma solicitação. Isso pode fazer com que o número de tokens processados por solicitação seja maior do que os tokens enviados pelo usuário na solicitação em andamento.

A API Gemini Live tem um limite para o total de tokens que podem ser armazenados na memória da sessão e também tem um campo de metadados que contém o número total de tokens. Ao calcular a capacidade de transmissão necessária para atender às suas solicitações, considere os tokens na memória da sessão. Se você usou a API Gemini Live com pagamento por uso (PayGo), é possível usar esses padrões de tráfego e tokens de sessão para estimar suas necessidades de capacidade de processamento provisionada.

Exemplo de como estimar os requisitos de capacidade de processamento provisionada para a API Gemini Live

Durante uma sessão, todo o tráfego é processado como capacidade provisionada ou pagamento conforme o uso. Se você atingir sua cota de capacidade provisionada durante uma sessão, vai receber uma mensagem de erro pedindo para tentar de novo mais tarde. Quando você estiver dentro da cota, poderá retomar o envio de solicitações. O estado da sessão, incluindo a memória dela, fica disponível enquanto a sessão estiver ativa.

Este exemplo ilustra como duas solicitações consecutivas são processadas incluindo os tokens da memória da sessão.

Detalhes da solicitação nº 1

Duração: 10 segundos

Tokens enviados (áudio): 10 segundos x 25 tokens/segundo = 250 tokens

Tokens enviados (vídeo): 10 segundos x 258 tokens/quadro por segundo = 2.580 tokens

Total de tokens processados para a solicitação nº 1:

  • Tokens enviados: soma dos tokens de áudio e vídeo enviados = 2.580 + 250 = 2.830 tokens
  • Tokens recebidos: 100 (áudio)

Detalhes da solicitação nº 2

Duração: 40 segundos

Tokens enviados (áudio): 40 segundos x 25 tokens/segundo = 1.000 tokens

Total de tokens processados para a solicitação nº 2:

  • Tokens enviados: tokens enviados na solicitação 2 + tokens de memória de sessão da solicitação 1 = 2.830 tokens + 1.000 tokens = 3.830 tokens
  • Tokens recebidos: 200 (áudio)

Calcular o número de tokens processados nas solicitações

O número de tokens processados durante essas solicitações é calculado da seguinte forma:

  • A solicitação 1 processa apenas os tokens de entrada e saída da solicitação em andamento, já que não há outros tokens na memória da sessão.

  • A solicitação nº 2 processa os tokens de entrada e saída da solicitação em andamento, mas também inclui os tokens de entrada da memória da sessão, que consistem nos tokens de entrada da solicitação anterior (solicitação nº 1) da memória da sessão. A taxa de redução para tokens na memória da sessão é a mesma dos tokens de entrada padrão (1 token de memória da sessão de entrada = 1 token de entrada).

    Se a solicitação nº 2 levou exatamente um segundo para ser processada depois que você a enviou, seus tokens serão processados e aplicados à sua cota de capacidade de processamento provisionada da seguinte maneira:

    • Multiplique as entradas pelas taxas de burndown para ter o total de tokens de entrada:

      2830 x (1 token por token de memória de sessão) + 1000 x (1 token por token de texto de entrada) = 3830 tokens de entrada ajustados de burndown por consulta

    • Multiplique as saídas pelas taxas de burndown para receber o total de tokens de saída:

      200 x (6 tokens por token de saída de áudio) = 1.200 tokens

    • Adicione esses dois totais para saber o número total de tokens processados:

      3.830 tokens + 1.200 tokens = 5.030 tokens

Se a cota de capacidade de processamento provisionada for maior que 5.030 tokens por segundo, a solicitação poderá ser processada imediatamente. Se for menor, os tokens serão processados ao longo do tempo na taxa definida para sua cota.

A seguir