Calculer les exigences de débit provisionné

Cette section explique les concepts d'unité d'échelle d'IA générative (GSU) et de taux d'utilisation. Le débit provisionné est calculé et facturé en fonction des unités de scaling pour l'IA générative (GSU) et des taux d'utilisation.

GSU et taux d'utilisation

Une unité de scaling d'IA générative (GSU) est une mesure du débit de vos requêtes et de vos réponses. Ce montant spécifie le débit à provisionner pour un modèle.

Un taux d'utilisation est un ratio qui convertit les unités d'entrée et de sortie (telles que les jetons, les caractères ou les images) en jetons d'entrée par seconde, en caractères d'entrée par seconde ou en images d'entrée par seconde, respectivement. Ce ratio représente le débit et est utilisé pour produire une unité standard pour tous les modèles.

Les différents modèles utilisent des quantités de débit différentes. Pour en savoir plus sur le montant minimal d'achat de GSU et les incréments pour chaque modèle, consultez Modèles compatibles et taux de consommation dans ce document.

Cette équation montre comment le débit est calculé :

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Le débit calculé par seconde détermine le nombre de GSU dont vous avez besoin pour votre cas d'utilisation.

Remarques importantes

Pour vous aider à planifier vos besoins en débit provisionné, examinez les points importants suivants :

Les requêtes ont la priorité.

Les requêtes des clients de débit provisionné ont la priorité et sont traitées avant les requêtes à la demande.
Le débit ne s'accumule pas.

Les débits inutilisés ne sont pas cumulatifs ni reportés sur le mois suivant.
Le débit provisionné est mesuré en jetons par seconde, en caractères par seconde ou en images par seconde.

Le débit provisionné n'est pas mesuré uniquement en fonction des requêtes par minute (RPM). Il est mesuré en fonction de la taille des requêtes pour votre cas d'utilisation, de la taille des réponses et du nombre de requêtes par minute.
Le débit provisionné est spécifique à un projet, une région, un modèle et une version.

Le débit provisionné est attribué à une combinaison spécifique de projet, de région, de modèle et de version. Le même modèle appelé depuis une autre région ne sera pas comptabilisé dans votre quota de débit provisionné et ne sera pas priorisé par rapport aux requêtes à la demande.

mise en cache du contexte

Le débit provisionné est compatible avec la mise en cache implicite et la mise en cache explicite. Pour en savoir plus sur les modèles et les limites acceptés, consultez Mise en cache du contexte.

La mise en cache implicite est activée par défaut dans tous les projets Google Cloud . La mise en cache implicite réduit les coûts et la latence en cas de succès du cache. Les jetons mis en cache sont facturés à un tarif réduit par rapport aux jetons d'entrée standards en cas de succès du cache. La mise en cache explicite offre plus de contrôle et garantit une remise lorsque des caches explicites sont référencés. Pour savoir comment créer un cache de contexte pour la mise en cache explicite, consultez Créer un cache de contexte. Pour afficher les remises spécifiques aux modèles, consultez Présentation de la mise en cache de contexte. Pour le débit provisionné, la remise est appliquée par le biais d'un taux d'utilisation réduit.

Par exemple, Gemini 2.5 Pro présente les taux de consommation suivants pour les jetons de texte en entrée et les jetons mis en cache :

1 jeton de texte d'entrée = 1 jeton
1 jeton de texte mis en cache en entrée = 0,1 jeton

Si vous envoyez 1 000 jetons d'entrée à ce modèle, votre débit provisionné diminuera de 1 000 jetons d'entrée par seconde. Toutefois, si vous envoyez 1 000 jetons mis en cache à Gemini 2.5 Pro, cela entraînera une diminution de votre débit provisionné de 100 jetons par seconde.

Notez que cela peut entraîner un débit plus élevé pour les requêtes similaires où les jetons ne sont pas mis en cache et où la remise de cache n'est pas appliquée.

Pour afficher les taux d'utilisation des modèles compatibles avec le débit provisionné, consultez Modèles compatibles et taux d'utilisation.

Comprendre l'arrêt de l'API Gemini Live

Le débit provisionné est compatible avec Gemini 2.5 Flash et l'API Gemini Live. Pour savoir comment calculer le burndown lorsque vous utilisez l'API Gemini Live, consultez Calculer le débit pour l'API Gemini Live.

Pour en savoir plus sur l'utilisation du débit provisionné pour Gemini 2.5 Flash avec l'API Gemini Live, consultez Débit provisionné pour l'API Gemini Live.

Exemple d'estimation de vos besoins de débit provisionné

Pour estimer vos besoins de débit provisionné, utilisez l'outil d'estimation de la console Google Cloud . L'exemple suivant illustre le processus d'estimation du débit provisionné pour votre modèle. La région n'est pas prise en compte dans les calculs d'estimation.

Ce tableau indique les taux d'utilisation pour gemini-2.0-flash que vous pouvez utiliser pour suivre l'exemple.

Modèle	Débit par GSU	Unités	Incrément d'achat GSU minimal	Taux d'utilisation
Gemini 2.0 Flash	3 360	Jetons	1	1 jeton de texte en entrée = 1 jeton 1 jeton d'image en entrée = 1 jeton 1 jeton vidéo en entrée = 1 jeton 1 jeton audio en entrée = 7 jetons 1 jeton de texte en sortie = 4 jetons

Consignez vos exigences.
1. Dans cet exemple, vous devez vérifier que vous pouvez prendre en charge 10 requêtes par seconde (RPS) pour une requête avec une entrée de 1 000 jetons de texte et 500 jetons audio, afin de recevoir une sortie de 300 jetons de texte en utilisant gemini-2.0-flash.
  
  Cette étape implique que vous comprenez votre cas d'utilisation, car vous avez identifié votre modèle, les RPS et la taille de vos entrées et sorties.
2. Pour calculer votre débit, consultez les taux de consommation de votre modèle sélectionné.
Calculez votre débit.
1. Multipliez vos entrées par les taux d'utilisation pour obtenir le nombre total de jetons d'entrée :
  
  1 000&ast;(1 jeton par jeton de texte d'entrée) + 500&ast;(7 jetons par jeton audio d'entrée) = 4 500 jetons d'entrée ajustés par requête.
2. Multipliez vos sorties par les taux de diminution pour obtenir le nombre total de jetons de sortie :
  
  300 x (4 jetons par jeton de texte de sortie) = 1 200 jetons de sortie ajustés pour la diminution par requête
3. Additionnez vos totaux :
  
  4 500 jetons d'entrée ajustés pour la diminution + 1 200 jetons de sortie ajustés pour la diminution = 5 700 jetons au total par requête
4. Multipliez le nombre total de jetons par le RPS pour obtenir le débit total par seconde :
  
  5 700 jetons au total par requête x 10 RPS = 57 000 jetons au total par seconde
Calculez vos GSU.
1. Les GSU correspondent au nombre total de jetons par seconde divisé par le débit par seconde et par GSU de la table des taux d'utilisation.
  
  57 000 jetons au total par seconde ÷ 3 360 jetons par seconde et par GSU = 16,96 GSU
2. L'incrément minimal d'achat de GSU pour gemini-2.0-flash est de 1. Vous aurez donc besoin de 17 GSU pour assurer votre charge de travail.

Étapes suivantes

Acheter du débit provisionné