Esta seção explica como a capacidade de processamento provisionada funciona com a API Gemini Live para contagem de tokens e aplicação de cotas.
A API Gemini Live oferece suporte a interações multimodais de baixa latência por meio de sessões. Ela usa uma memória de sessão para reter e recuperar informações de interações em uma sessão. Isso permite que o modelo se lembre de informações fornecidas ou discutidas anteriormente. A capacidade de processamento provisionada é compatível com o modelo Gemini 2.5 Flash com API Gemini Live. Para mais informações sobre a API Gemini Live, incluindo limites de sessão e recursos, consulte a referência da API Gemini Live.
A API Gemini Live exige que uma sessão seja dedicada inteiramente ao tráfego de capacidade de processamento provisionada ou de pagamento por uso. Ele não é compatível com o transbordamento de tráfego entre o Provisioned Throughput e o PayGo na mesma sessão. O tipo de tráfego definido no início de uma sessão continua durante toda a duração dela. Se você atingir sua cota de capacidade de transferência provisionada durante uma sessão ativa, não vai ter problemas de limitação ou erros. Em vez disso, o sistema permite que o tráfego aumente temporariamente para que a sessão continue, e todo o uso subsequente é registrado na sua cota geral. Esse pico temporário pode fazer com que seus painéis de monitoramento mostrem o uso da capacidade de transferência provisionada (tráfego dedicado) acima do limite. Para evitar exceder os limites alocados no meio da sessão, é importante comprar GSUs suficientes para atender ao uso esperado.
O transbordamento é compatível de uma sessão para a próxima. Se você exceder o limite de capacidade de transmissão provisionada após o término de uma sessão, poderá iniciar outra usando o pagamento conforme o uso. Se uma sessão é processada inteiramente como Provisioned Throughput ou PayGo, isso é decidido no início da sessão. O sistema verifica o cabeçalho enviado pelo usuário e depois se há cota de taxa de transferência provisionada suficiente para a sessão. Se a cota de capacidade de processamento provisionada disponível for insuficiente para processar toda a sessão, será usada a cota do PayGo.
Calcular a capacidade de processamento da API Gemini Live
Ao usar a API Gemini Live, os tokens armazenados na memória da sessão podem ser usados em solicitações subsequentes ao modelo. Como resultado, a taxa de transferência provisionada considera os tokens recebidos e os tokens de memória da sessão na mesma solicitação. Isso pode fazer com que o número de tokens processados por solicitação seja maior do que os tokens enviados pelo usuário na solicitação em andamento.
A API Gemini Live tem um limite para o total de tokens que podem ser armazenados na memória da sessão e também tem um campo de metadados que contém o número total de tokens. Ao calcular a capacidade de transmissão necessária para atender às suas solicitações, considere os tokens na memória da sessão. Se você usou a API Gemini Live com pagamento por uso (PayGo), é possível usar esses padrões de tráfego e tokens de sessão para estimar suas necessidades de capacidade de processamento provisionada.
Exemplo de como estimar os requisitos de capacidade de processamento provisionada para a API Gemini Live
Durante uma sessão, todo o tráfego é processado como taxa de transferência provisionada ou pagamento conforme o uso.
O estado da sessão, incluindo a memória dela, fica disponível enquanto a sessão estiver ativa.
Este exemplo ilustra como duas solicitações consecutivas são processadas incluindo os tokens da memória da sessão.
Detalhes da solicitação nº 1
Duração: 10 segundos
Tokens enviados (áudio): 10 segundos x 25 tokens/segundo = 250 tokens
Tokens enviados (vídeo): 10 segundos x 258 tokens/quadro por segundo = 2.580 tokens
Total de tokens processados para a solicitação nº 1:
- Tokens enviados: soma dos tokens de áudio e vídeo enviados = 2.580 + 250 = 2.830 tokens
- Tokens recebidos: 100 (áudio)
Detalhes da solicitação nº 2
Duração: 40 segundos
Tokens enviados (áudio): 40 segundos x 25 tokens/segundo = 1.000 tokens
Total de tokens processados para a solicitação nº 2:
- Tokens enviados: tokens enviados na solicitação 2 + tokens de memória de sessão da solicitação 1 = 2.830 tokens + 1.000 tokens = 3.830 tokens
- Tokens recebidos: 200 (áudio)
Calcular o número de tokens processados nas solicitações
O número de tokens processados durante essas solicitações é calculado da seguinte forma:
A solicitação 1 processa apenas os tokens de entrada e saída da solicitação em andamento, já que não há outros tokens na memória da sessão.
A solicitação nº 2 processa os tokens de entrada e saída da solicitação em andamento, mas também inclui os tokens de entrada da memória da sessão, que consistem nos tokens de entrada da solicitação anterior (solicitação nº 1) da memória da sessão. A taxa de redução de tokens na memória da sessão é a mesma dos tokens de entrada padrão (1 token de memória da sessão de entrada = 1 token de entrada).
Se a solicitação nº 2 levou exatamente 1 segundo para ser processada depois que você a enviou, seus tokens serão processados e aplicados à sua cota de capacidade de processamento provisionada da seguinte forma:
Multiplique as entradas pelas taxas de burndown para ter o total de tokens de entrada:
2830 x (1 token por token de memória de sessão) + 1000 x (1 token por token de texto de entrada) = 3830 tokens de entrada ajustados por redução por consulta
Multiplique as saídas pelas taxas de burndown para receber o total de tokens de saída:
200 x (24 tokens por token de saída de áudio) = 4.800 tokens
Adicione esses dois totais para saber o número total de tokens processados:
3.830 tokens + 4.800 tokens = 8.630 tokens