Esta seção explica como a capacidade de processamento provisionada funciona com a API Gemini Live para contagem de tokens e aplicação de cotas.
A API Gemini Live oferece suporte a interações multimodais de baixa latência por meio de sessões. Ela usa uma memória de sessão para reter e recuperar informações de interações em uma sessão. Isso permite que o modelo recupere informações fornecidas ou discutidas anteriormente. A capacidade de processamento provisionada oferece suporte ao modelo Gemini 2.5 Flash com a API Gemini Live. Para mais informações sobre a API Gemini Live, incluindo limites e recursos de sessão, consulte a referência da API Gemini Live.
A API Gemini Live exige que uma sessão seja dedicada inteiramente ao tráfego de capacidade de processamento provisionada ou de pagamento por uso. Ela não oferece suporte ao tráfego de transbordamento entre a capacidade de processamento provisionada e o pagamento por uso na mesma sessão. O tipo de tráfego definido no início de uma sessão continua durante toda a duração dela. Se você atingir a cota de capacidade de processamento provisionada durante uma sessão ativa, não vai ter limitação ou erros. Em vez disso, o sistema permite que o tráfego aumente temporariamente para que a sessão continue, com todo o uso subsequente registrado na sua cota geral. Esse aumento temporário pode fazer com que seus painéis de monitoramento mostrem o uso da capacidade de processamento provisionada (tráfego dedicado) acima do limite. Para evitar exceder os limites alocados no meio da sessão, é importante comprar GSUs suficientes para oferecer suporte ao uso esperado.
O transbordamento é compatível de uma sessão para a próxima. Se você exceder o limite de capacidade de processamento provisionada após o término de uma sessão, poderá iniciar outra usando o pagamento por uso. Se uma sessão é processada inteiramente como capacidade de processamento provisionada ou pagamento por uso, isso é decidido no início da sessão. O sistema verifica o cabeçalho enviado pelo usuário e confirma se há cota de capacidade de processamento provisionada suficiente para a sessão. Se a cota disponível de capacidade de processamento provisionada for insuficiente para processar toda a sessão, a cota de pagamento por uso será usada.
Calcular a capacidade de processamento da API Gemini Live
Ao usar a API Gemini Live, os tokens armazenados na memória da sessão podem ser usados em solicitações subsequentes ao modelo. Como resultado, a capacidade de processamento provisionada considera os tokens recebidos e os tokens de memória da sessão na mesma solicitação. Isso pode fazer com que o número de tokens processados por solicitação seja maior do que os tokens enviados pelo usuário na solicitação em andamento.
A API Gemini Live tem um limite para o total de tokens que podem ser armazenados na memória da sessão e também tem um campo de metadados que contém o número total de tokens. Ao calcular a capacidade de processamento necessária para atender às suas solicitações, você precisa considerar os tokens na memória da sessão. Se você usou a API Gemini Live com o pagamento por uso, poderá usar esses padrões de tráfego e tokens de sessão para estimar suas necessidades de capacidade de processamento provisionada.
Exemplo de como estimar os requisitos de capacidade de processamento provisionada para a API Gemini Live
Durante uma sessão, todo o tráfego é processado como capacidade de processamento provisionada ou pagamento por uso.
O estado da sessão, incluindo a memória da sessão, fica disponível enquanto a sessão estiver ativa.
Este exemplo ilustra como duas solicitações consecutivas são processadas, incluindo os tokens da memória da sessão.
Detalhes da solicitação nº 1
Duração: 10 segundos
Tokens enviados (áudio): 10 segundos x 25 tokens/segundo = 250 tokens
Tokens enviados (vídeo): 10 segundos x 258 tokens/frame por segundo = 2.580 tokens
Total de tokens processados para a solicitação nº 1:
- Tokens enviados: soma dos tokens de áudio e vídeo enviados = 2.580 + 250 = 2.830 tokens
- Tokens recebidos: 100 (áudio)
Detalhes da solicitação nº 2
Duração: 40 segundos
Tokens enviados (áudio): 40 segundos x 25 tokens/segundo = 1.000 tokens
Total de tokens processados para a solicitação nº 2:
- Tokens enviados: Tokens enviados na solicitação nº 2 + tokens de memória da sessão da solicitação nº 1 = 2.830 tokens + 1.000 tokens = 3.830 tokens
- Tokens recebidos: 200 (áudio)
Calcular o número de tokens processados nas solicitações
O número de tokens processados durante essas solicitações é calculado da seguinte maneira:
A solicitação nº 1 processa apenas os tokens de entrada e saída da solicitação em andamento, já que não há outros tokens na memória da sessão.
A solicitação nº 2 processa os tokens de entrada e saída da solicitação em andamento, mas também inclui os tokens de entrada da memória da sessão, que consistem nos tokens de entrada da solicitação anterior (solicitação nº 1) da memória da sessão. A taxa de redução de tokens na memória da sessão é a mesma dos tokens de entrada padrão (1 token de memória de sessão de entrada = 1 token de entrada).
Se a solicitação nº 2 levou exatamente 1 segundo para ser processada depois que você a enviou, seus tokens serão processados e aplicados à sua cota de capacidade de processamento provisionada da seguinte maneira:
Multiplique suas entradas pelas taxas de redução para receber o total de tokens de entrada:
2.830 x (1 token por token de memória de sessão) + 1.000 x (1 token por token de texto de entrada) = 3.830 tokens de entrada ajustados por redução por consulta
Multiplique suas saídas pelas taxas de redução para receber o total de tokens de saída:
200 x (24 tokens por token de saída de áudio) = 4.800 tokens
Adicione esses dois totais para receber o número total de tokens processados:
3.830 tokens + 4.800 tokens = 8.630 tokens