Calculer les exigences de débit provisionné

Cette section explique les concepts d'unité d'échelle d'IA générative (GSU) et de taux d'utilisation. Le débit provisionné est calculé et facturé en fonction des unités d'échelle d'IA générative (GSU) et des taux d'utilisation.

GSU et taux d'utilisation

Une unité d'échelle d'IA générative (GSU) est une mesure du débit de vos requêtes et de vos réponses. Ce montant spécifie le débit à provisionner pour un modèle.

Un taux d'utilisation est un ratio qui convertit les unités d'entrée et de sortie (telles que les jetons, les caractères ou les images) en jetons d'entrée par seconde, en caractères d'entrée par seconde ou en images d'entrée par seconde, respectivement. Ce ratio représente le débit et est utilisé pour produire une unité standard pour tous les modèles.

Les différents modèles utilisent des quantités de débit différentes. Pour en savoir plus sur le montant minimal d'achat de GSU et les incréments pour chaque modèle, consultez la section Modèles compatibles et taux de consommation du présent document.

Cette équation montre comment le débit est calculé :

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Le débit calculé par seconde détermine le nombre de GSU dont vous avez besoin pour votre cas d'utilisation.

Remarques importantes

Pour vous aider à planifier vos besoins de débit provisionné, consultez les remarques importantes suivantes :

  • Les requêtes ont la priorité.

    Les requêtes des clients de débit provisionné ont la priorité et sont traitées avant les requêtes à la demande.

  • Le débit ne s'accumule pas.

    Les débits inutilisés ne sont pas cumulatifs ni reportés sur le mois suivant.

  • Le débit provisionné est mesuré en jetons par seconde, en caractères par seconde ou en images par seconde.

    Le débit provisionné n'est pas mesuré uniquement en fonction des requêtes par minute (RPM). Il est mesuré en fonction de la taille des requêtes pour votre cas d'utilisation, de la taille des réponses et du nombre de requêtes par minute.

  • Le débit provisionné est spécifique à un projet, une région, un modèle et une version.

    Le débit provisionné est attribué à une combinaison spécifique projet-région-modèle-version. Le même modèle appelé à partir d'une autre région n'est pas pris en compte dans votre quota de débit provisionné et n'est pas priorisé par rapport aux requêtes à la demande.

Mise en cache du contexte

Le débit provisionné est compatible avec la mise en cache implicite et explicite. Pour en savoir plus sur les modèles et les limites compatibles, consultez Mise en cache du contexte.

La mise en cache implicite est activée par défaut dans tous les Google Cloud projets. Elle réduit les coûts et la latence lors des accès au cache. Les jetons mis en cache sont facturés à un prix réduit par rapport aux jetons d'entrée standards lorsqu'un succès de cache (hit) se produit. La mise en cache explicite offre plus de contrôle et garantit une remise lorsque des caches explicites sont référencés. Pour savoir comment créer un cache de contexte pour la mise en cache explicite, consultez Créer un cache de contexte. Pour afficher les remises spécifiques aux modèles, consultez Présentation de la mise en cache du contexte. Pour le débit provisionné, la remise est appliquée via un taux d'utilisation réduit.

Par exemple, Gemini 2.5 Pro présente les taux d'utilisation suivants pour les jetons de texte d'entrée et les jetons mis en cache :

  • 1 jeton de texte d'entrée = 1 jeton

  • 1 jeton de texte d'entrée mis en cache = 0,1 jeton

L'envoi de 1 000 jetons d'entrée à ce modèle entraîne une réduction de votre débit provisionné de 1 000 jetons d'entrée par seconde. Toutefois, si vous envoyez 1 000 jetons mis en cache à Gemini 2.5 Pro, cela entraîne une réduction de votre débit provisionné de 100 jetons par seconde.

Notez que cela peut entraîner un débit plus élevé pour les requêtes similaires où les jetons ne sont pas mis en cache et où la remise de cache n'est pas appliquée.

Pour afficher les taux d'utilisation des modèles compatibles avec le débit provisionné, consultez Modèles compatibles et taux d'utilisation.

Comprendre le taux d'utilisation de l'API Gemini Live

Le débit provisionné est compatible avec Gemini 2.5 Flash avec l'API Gemini Live. Pour savoir comment calculer le taux d'utilisation lorsque vous utilisez l'API Gemini Live, consultez Calculer le débit pour l'API Gemini Live.

Pour en savoir plus sur l'utilisation du débit provisionné pour Gemini 2.5 Flash avec l'API Gemini Live, consultez Débit provisionné pour l'API Gemini Live.

Exemple d'estimation de vos besoins de débit provisionné

Pour estimer vos besoins de débit provisionné, utilisez l' outil d'estimation de la Google Cloud console. L'exemple suivant illustre le processus d'estimation du débit provisionné pour votre modèle. La région n'est pas prise en compte dans les calculs d'estimation.

Ce tableau fournit les taux d'utilisation de gemini-2.0-flash que vous pouvez utiliser pour suivre l'exemple.

Modèle Débit par GSU Unités Incrément d'achat GSU minimal Taux d'utilisation
Gemini 2.0 Flash 3 360 Jetons 1 1 jeton de texte d'entrée = 1 jeton
1 jeton d'image d'entrée = 1 jeton
1 jeton vidéo d'entrée = 1 jeton
1 jeton audio d'entrée = 7 jetons
1 jeton de texte de sortie = 4 jetons
  1. Consignez vos exigences.

    1. Dans cet exemple, vous devez vérifier que vous pouvez prendre en charge 10 requêtes par seconde (RPS) d'une requête avec une entrée de 1 000 jetons de texte et 500 jetons audio, afin de recevoir une sortie de 300 jetons de texte à l'aide de gemini-2.0-flash.

      Cette étape signifie que vous comprenez votre cas d'utilisation, car vous avez identifié votre modèle, le RPS, ainsi que la taille de vos entrées et sorties.

    2. Pour calculer votre débit, reportez-vous aux taux d'utilisation du modèle sélectionné.

  2. Calculez votre débit.

    1. Multipliez vos entrées par les taux d'utilisation pour obtenir le nombre total de jetons d'entrée :

      1 000*(1 jeton par jeton de texte d'entrée) + 500*(7 jetons par jeton audio d'entrée) = 4 500 jetons d'entrée ajustés par requête

    2. Multipliez vos sorties par les taux d'utilisation pour obtenir le nombre total de jetons de sortie :

      300*(4 jetons par jeton de texte de sortie) = 1 200 jetons de sortie ajustés par requête

    3. Additionnez vos totaux :

      4 500 jetons d'entrée ajustés + 1 200 jetons de sortie ajustés = 5 700 jetons au total par requête

    4. Multipliez le nombre total de jetons par le RPS par seconde pour obtenir le débit total par seconde :

      5 700 jetons au total par requête * 10 RPS par seconde = 57 000 jetons au total par seconde

  3. Calculez vos GSU.

    1. Les GSU correspondent au nombre total de jetons par seconde divisé par le débit par seconde par GSU du tableau des taux d'utilisation.

      57 000 jetons au total par seconde ÷ 3 360 débit par seconde par GSU = 16,96 GSU

    2. L'incrément minimal d'achat de GSU pour gemini-2.0-flash est de 1. Vous aurez donc besoin de 17 GSU pour assurer votre charge de travail.

Étape suivante