Cette section explique comment le débit provisionné fonctionne avec l'API Gemini Live pour le comptage des jetons et l'application des quotas.
L'API Gemini Live permet des interactions multimodales à faible latence par le biais de sessions. Il utilise une mémoire de session pour conserver et rappeler les informations issues des interactions au cours d'une session. Cela permet au modèle de se souvenir des informations fournies ou discutées précédemment. Le débit provisionné est compatible avec le modèle Gemini 2.5 Flash avec l'API Gemini Live. Pour en savoir plus sur l'API Gemini Live, y compris sur les limites de session et les fonctionnalités, consultez la documentation de référence de l'API Gemini Live.
Calculer le débit pour l'API Gemini Live
Lorsque vous utilisez l'API Gemini Live, les jetons stockés dans la mémoire de session peuvent être utilisés dans les requêtes ultérieures adressées au modèle. Par conséquent, le débit provisionné tient compte des jetons entrants ainsi que des jetons de mémoire de session dans la même requête. Cela peut entraîner un nombre de jetons traités par requête supérieur à celui envoyé par l'utilisateur dans la requête en cours.
L'API Gemini Live limite le nombre total de jetons pouvant être stockés dans la mémoire de session. Elle comporte également un champ de métadonnées contenant le nombre total de jetons. Lorsque vous calculez le débit nécessaire pour répondre à vos requêtes, vous devez tenir compte des jetons dans la mémoire de session. Si vous avez utilisé l'API Gemini Live avec la facturation à l'usage, vous pouvez utiliser ces modèles de trafic et jetons de session pour estimer vos besoins en débit provisionné.
Exemple d'estimation de vos besoins de débit provisionné pour l'API Gemini Live
Pendant une session, tout le trafic est traité en tant que débit provisionné ou paiement à l'utilisation. Si vous atteignez votre quota de débit provisionné pendant une session, vous recevrez un message d'erreur vous invitant à réessayer plus tard. Une fois que vous êtes dans votre quota, vous pouvez reprendre l'envoi de demandes. L'état de la session, y compris la mémoire de session, est disponible tant que la session est active.
Cet exemple montre comment deux requêtes consécutives sont traitées en incluant les jetons de la mémoire de session.
Détails de la demande 1
Durée : 10 secondes
Jetons envoyés (audio) : 10 secondes x 25 jetons/seconde = 250 jetons
Jetons envoyés (vidéo) : 10 secondes x 258 jetons/image par seconde = 2 580 jetons
Nombre total de jetons traités pour la demande 1 :
- Jetons envoyés : somme des jetons audio et vidéo envoyés = 2 580 + 250 = 2 830 jetons
- Jetons reçus : 100 (audio)
Détails de la demande n° 2
Durée : 40 secondes
Jetons envoyés (audio) : 40 secondes x 25 jetons/seconde = 1 000 jetons
Nombre total de jetons traités pour la demande 2 :
- Jetons envoyés : jetons envoyés dans la requête 2 + jetons de mémoire de session de la requête 1 = 2 830 jetons + 1 000 jetons = 3 830 jetons
- Jetons reçus : 200 (audio)
Calculer le nombre de jetons traités dans les requêtes
Le nombre de jetons traités lors de ces requêtes est calculé comme suit :
La requête 1 ne traite que les jetons d'entrée et de sortie de la requête en cours, car il n'y a pas de jetons supplémentaires dans la mémoire de session.
La requête 2 traite les jetons d'entrée et de sortie de la requête en cours, mais inclut également les jetons d'entrée de la mémoire de session, qui se composent des jetons d'entrée de la requête précédente (requête 1) provenant de la mémoire de session. Le taux d'épuisement des jetons dans la mémoire de session est le même que celui des jetons d'entrée standards (1 jeton de mémoire de session d'entrée = 1 jeton d'entrée).
Si la requête n° 2 a pris exactement une seconde à traiter après son envoi, vos jetons sont traités et appliqués à votre quota de débit provisionné comme suit :
Multipliez vos entrées par les taux d'utilisation pour obtenir le nombre total de jetons d'entrée :
2 830 x (1 jeton par jeton de mémoire de session) + 1 000 x (1 jeton par jeton de texte d'entrée) = 3 830 jetons d'entrée ajustés par requête
Multipliez vos sorties par les taux de diminution pour obtenir le nombre total de jetons de sortie :
200 x (6 jetons par jeton de sortie audio) = 1 200 jetons
Additionnez ces deux totaux pour obtenir le nombre total de jetons traités :
3 830 jetons + 1 200 jetons = 5 030 jetons
Si votre quota de débit provisionné est supérieur à 5 030 jetons par seconde, cette requête peut être traitée immédiatement. Si elle est inférieure, les jetons sont traités au fil du temps au rythme que vous avez défini pour votre quota.