Débit provisionné pour l'API Gemini Live

Cette section explique comment le débit provisionné fonctionne avec l'API Gemini Live pour le comptage des jetons et l'application des quotas.

L'API Gemini Live prend en charge les interactions multimodales à faible latence via des sessions. Il utilise une mémoire de session pour conserver et rappeler les informations issues des interactions au cours d'une session. Cela permet au modèle de se souvenir des informations fournies ou discutées précédemment. Le débit provisionné est compatible avec le modèle Gemini 2.5 Flash avec l'API Gemini Live. Pour en savoir plus sur l'API Gemini Live, y compris sur les limites de session et les fonctionnalités, consultez la documentation de référence de l'API Gemini Live.

L'API Gemini Live nécessite qu'une session soit entièrement dédiée au trafic de débit provisionné ou de paiement à l'usage. Il n'accepte pas le débordement de trafic entre le débit provisionné et le paiement à l'utilisation au cours d'une même session. Le type de trafic défini au début d'une session reste le même pendant toute sa durée. Si vous atteignez votre quota de débit provisionné pendant une session active, vous ne rencontrerez pas de limitation ni d'erreurs. Au lieu de cela, le système permet au trafic d'augmenter temporairement pour que la session se poursuive, et toute utilisation ultérieure est enregistrée dans votre quota global. Ce pic temporaire peut entraîner l'affichage d'une utilisation du débit provisionné (trafic dédié) supérieure à votre limite dans vos tableaux de bord de surveillance. Pour éviter de dépasser les limites qui vous sont allouées en cours de session, il est important d'acheter suffisamment d'UGS pour répondre à votre utilisation prévue.

Le report est possible d'une session à l'autre. Si vous dépassez votre limite de débit provisionné après la fin d'une session, vous pouvez en démarrer une autre en utilisant le paiement à l'usage. Le mode de traitement d'une session (débit provisionné ou paiement à l'utilisation) est déterminé au début de la session. Le système vérifie l'en-tête envoyé par l'utilisateur, puis vérifie si le quota de débit provisionné est suffisant pour la session. Si le quota de débit provisionné disponible est insuffisant pour traiter l'intégralité de la session, le quota au paiement à l'utilisation est utilisé à la place.

Calculer le débit pour l'API Gemini Live

Lorsque vous utilisez l'API Gemini Live, les jetons stockés dans la mémoire de session peuvent être utilisés dans les requêtes ultérieures adressées au modèle. Par conséquent, le débit provisionné tient compte des jetons entrants ainsi que des jetons de mémoire de session dans la même requête. Cela peut entraîner un nombre de jetons traités par requête supérieur à celui envoyé par l'utilisateur dans la requête en cours.

L'API Gemini Live limite le nombre total de jetons pouvant être stockés dans la mémoire de session. Elle comporte également un champ de métadonnées contenant le nombre total de jetons. Lorsque vous calculez le débit nécessaire pour répondre à vos requêtes, vous devez tenir compte des jetons dans la mémoire de session. Si vous avez utilisé l'API Gemini Live avec le paiement à l'usage, vous pouvez utiliser ces modèles de trafic et jetons de session pour estimer vos besoins en débit provisionné.

Exemple d'estimation de vos besoins de débit provisionné pour l'API Gemini Live

Pendant une session, tout le trafic est traité en tant que débit provisionné ou paiement à l'usage.

L'état de la session, y compris la mémoire de session, est disponible tant que la session est active.

Cet exemple montre comment deux requêtes consécutives sont traitées en incluant les jetons de la mémoire de session.

Détails de la demande 1

Durée : 10 secondes

Jetons envoyés (audio) : 10 secondes x 25 jetons/seconde = 250 jetons

Jetons envoyés (vidéo) : 10 secondes x 258 jetons/image par seconde = 2 580 jetons

Nombre total de jetons traités pour la demande 1 :

Jetons envoyés : somme des jetons audio et vidéo envoyés = 2 580 + 250 = 2 830 jetons
Jetons reçus : 100 (audio)

Détails de la demande n° 2

Durée : 40 secondes

Jetons envoyés (audio) : 40 secondes x 25 jetons/seconde = 1 000 jetons

Nombre total de jetons traités pour la demande 2 :

Jetons envoyés : jetons envoyés dans la requête n°2 + jetons de mémoire de session de la requête n°1 = 2 830 jetons + 1 000 jetons = 3 830 jetons
Jetons reçus : 200 (audio)

Calculer le nombre de jetons traités dans les requêtes

Le nombre de jetons traités lors de ces requêtes est calculé comme suit :

La requête 1 ne traite que les jetons d'entrée et de sortie de la requête en cours, car il n'y a pas de jetons supplémentaires dans la mémoire de session.
La requête 2 traite les jetons d'entrée et de sortie de la requête en cours, mais inclut également les jetons d'entrée de la mémoire de session, qui se composent des jetons d'entrée de la requête précédente (requête 1) provenant de la mémoire de session. Le taux d'épuisement des jetons dans la mémoire de session est le même que celui des jetons d'entrée standards (1 jeton de mémoire de session d'entrée = 1 jeton d'entrée).

Si la requête n° 2 a pris exactement une seconde à traiter après son envoi, vos jetons sont traités et appliqués à votre quota de débit provisionné comme suit :
- Multipliez vos entrées par les taux d'utilisation pour obtenir le nombre total de jetons d'entrée :
  
  2 830 x (1 jeton par jeton de mémoire de session) + 1 000 x (1 jeton par jeton de texte d'entrée) = 3 830 jetons d'entrée ajustés pour la durée par requête
- Multipliez vos sorties par les taux de diminution pour obtenir le nombre total de jetons de sortie :
  
  200 x (24 jetons par jeton de sortie audio) = 4 800 jetons
- Additionnez ces deux totaux pour obtenir le nombre total de jetons traités :
  
  3 830 jetons + 4 800 jetons = 8 630 jetons

Étapes suivantes

Acheter du débit provisionné

Débit provisionné pour l'API Gemini Live Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.