Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PayGo standard

Le paiement à l'utilisation standard est une option de consommation pour utiliser la suite de modèles d'IA générative de Gemini Enterprise Agent Platform, y compris la famille de modèles Gemini. Le paiement à l'utilisation standard vous permet de ne payer que les ressources que vous consommez, sans engagement financier initial. Pour offrir des performances plus prévisibles pour les charges de travail évolutives, le paiement à l'utilisation standard intègre un système de niveaux d'utilisation. Agent Platform ajuste dynamiquement la capacité de débit de base de votre organisation en fonction de ses dépenses totales pour les services Agent Platform éligibles sur une période glissante de 30 jours. À mesure que les dépenses de votre organisation augmentent, elle est automatiquement promue à des niveaux supérieurs qui offrent un accès accru aux ressources partagées et des seuils de performances plus élevés. Pour les charges de travail nécessitant des performances plus cohérentes que le paiement à l'utilisation standard, envisagez le paiement à l'utilisation prioritaire. Pour une capacité dédiée et assurée, consultez le débit provisionné.

Niveaux d'utilisation et débit

Chaque niveau d'utilisation Standard avec paiement à l'utilisation vise à fournir un débit de référence, mesuré en jetons par minute (TPM), qui sert de seuil de performances prévisible pour le trafic de votre organisation. Les limites de débit sont basées sur les requêtes envoyées au point de terminaison mondial. L'utilisation du point de terminaison global est une bonne pratique, car elle permet d'accéder à un pool de capacité de débit plus important et multirégional, et d'acheminer vos requêtes vers l'emplacement le plus disponible pour maximiser les performances.

Votre trafic n'est pas strictement limité au seuil de débit de référence. Agent Platform permet au trafic de dépasser cette limite au mieux. Toutefois, pendant les périodes de forte demande sur Agent Platform, ce trafic excédentaire peut entraîner une plus grande variabilité des performances. Pour optimiser les performances et minimiser le risque de recevoir ces erreurs, il est également recommandé de répartir votre trafic aussi uniformément que possible tout au long de chaque minute. Évitez d'envoyer des demandes lors de pics secondaires importants. Un trafic élevé et instantané peut entraîner une limitation même si votre utilisation moyenne par minute est inférieure à votre limite. La répartition plus uniforme de vos appels d'API aide le système à gérer votre charge de manière prévisible et améliore les performances globales.

Les niveaux suivants sont disponibles dans le forfait Standard à la carte :

Famille de modèles	Niveau	Dépenses des clients (30 jours)	TPM du trafic (au niveau de l'organisation)
Modèles Gemini Pro	Niveau 1	10 à 250 $	500 000
	Niveau 2	Entre 250 $ et 2 000 $	1 000 000
	Niveau 3	> 2 000 $	2 000 000
Modèles Gemini Flash et Flash-Lite	Niveau 1	10 à 250 $	2 000 000
	Niveau 2	Entre 250 $ et 2 000 $	4 000 000
	Niveau 3	> 2 000 $	10 000 000

Notez que la limite de débit indiquée pour une famille de modèles s'applique indépendamment à chaque modèle de cette famille. Par exemple, un client de niveau 3 dispose d'un débit de base de 10 000 000 TPM pour Gemini 2.5 Flash et d'un débit de base distinct de 10 000 000 TPM pour Gemini 2.0 Flash. L'utilisation de l'une de ces limites n'a pas d'incidence sur le débit des autres modèles. Il n'existe pas de limite distincte de requêtes par minute (RPM) pour chaque niveau. Toutefois, la limite système de 30 000 RPM par modèle et par région s'applique. Les requêtes Gemini avec des entrées multimodales sont soumises aux limites de débit système correspondantes, y compris pour les images, l'audio, les vidéos et les documents.

Si vous avez besoin d'un débit plus élevé pour un cas d'utilisation Enterprise, contactez l'équipe chargée de votre compte pour en savoir plus sur un forfait personnalisé.

Fonctionnement des niveaux d'utilisation

Votre niveau d'utilisation est déterminé automatiquement par les dépenses totales de votre organisation pour les services éligibles d'Agent Platform sur une période glissante de 30 jours. À mesure que les dépenses de votre organisation augmentent, le système vous fait passer à un niveau supérieur avec un débit plus élevé.

Calcul des dépenses

Ce calcul inclut un large éventail de services, des prédictions sur toutes les familles de modèles Gemini aux instances de processeur, de GPU et de TPU Agent Platform, ainsi que les SKU basés sur l'engagement, tels que le débit provisionné.

Cliquez pour en savoir plus sur les SKU inclus dans le calcul des dépenses.

Le tableau suivant liste les catégories de Google Cloud SKU incluses dans le calcul des dépenses totales.

Catégorie	Description des SKU inclus
Modèles Gemini	Toutes les familles de modèles Gemini (par exemple, 2.0, 2.5, 3.0 dans les versions Pro, Flash et Lite) pour les prédictions dans toutes les modalités (texte, image, audio, vidéo), y compris les variantes par lot, à contexte long, ajustées et "de réflexion"
Fonctionnalités des modèles Gemini	Tous les SKU Gemini associés aux fonctionnalités telles que la mise en cache, le stockage du cache et les niveaux de priorité, pour toutes les modalités et versions de modèle
Processeur de l'Agent Platform	Prédictions en ligne et par lot sur toutes les familles d'instances basées sur le processeur (par exemple, C2, C3, E2, N1, N2 et leurs variantes)
GPU de la plate-forme d'agent	Prédictions en ligne et par lot sur toutes les instances accélérées par GPU NVIDIA (par exemple, les séries A100, H100, H200, B200, L4, T4, V100 et RTX)
TPU Agent Platform	Prédictions en ligne et par lot sur toutes les instances basées sur TPU (par exemple, TPU-v5e, v6e)
Gestion et frais	Tous les SKU de "frais de gestion" associés à différentes instances de prédiction Agent Platform
Débit provisionné	Tous les SKU basés sur l'engagement pour le débit provisionné
Autres Services	Services spécialisés tels que "Ancrage LLM pour Gemini… avec l'outil Recherche Google"

Vérifier le niveau d'utilisation

Pour vérifier le niveau d'utilisation de votre organisation, accédez au tableau de bord Agent Platform dans la console Google Cloud . Pour afficher le niveau d'utilisation dans le tableau de bord, vous devez disposer du rôle Lecteur Agent Platform (roles/aiplatform.viewer) sur le projet et du rôle Lecteur de compte de facturation (roles/billing.viewer) sur le compte de facturation.

Accéder au tableau de bord Agent Platform

Vérifier les dépenses

Pour examiner vos dépenses sur Agent Platform, accédez à Cloud Billing dans la consoleGoogle Cloud . Notez que les dépenses sont agrégées au niveau de l'organisation.

Accéder à Cloud Billing

Erreurs "Ressource épuisée" (429)

Si vous recevez une erreur 429, cela ne signifie pas que vous avez atteint un quota fixe. Elle indique une forte contention temporaire pour une ressource partagée spécifique. Nous vous recommandons d'implémenter une stratégie de nouvelle tentative avec intervalle exponentiel pour gérer ces erreurs, car la disponibilité dans cet environnement dynamique peut changer rapidement. En plus d'une stratégie de nouvelle tentative, nous vous recommandons d'utiliser le point de terminaison global. Contrairement à un point de terminaison régional (us-central1, par exemple), le point de terminaison mondial achemine dynamiquement vos requêtes vers la région qui dispose de la plus grande capacité disponible à ce moment-là. Cela permet à votre application d'accéder à un pool de capacité partagée multirégional plus important, ce qui augmente considérablement votre potentiel de dépassement et réduit le risque d'erreurs 429.

Pour obtenir les meilleurs résultats, combinez l'utilisation du point de terminaison global avec le lissage du trafic. Évitez d'envoyer des requêtes par pics brusques au niveau de la seconde, car un trafic élevé et instantané peut entraîner une limitation du débit, même si votre utilisation moyenne par minute se situe dans les limites de votre débit de référence. La répartition plus uniforme de vos appels d'API aide le système à gérer votre charge de manière prévisible et améliore les performances globales. Pour en savoir plus sur la gestion des erreurs d'épuisement des ressources, consultez Créer des applications LLM résilientes et réduire les erreurs 429 et Code d'erreur 429.

Modèles compatibles

Les modèles Gemini en disponibilité générale (DG) suivants et leurs modèles affinés supervisés sont compatibles avec le paiement à l'utilisation standard avec niveaux d'utilisation :

Cliquer pour développer les modèles compatibles

Les modèles Gemini GA et leurs modèles affinés supervisés suivants sont également compatibles avec le paiement à l'utilisation standard, mais les niveaux d'utilisation ne s'appliquent pas à ces modèles :

Image Gemini 2.5 Flash

Notez que ces niveaux ne s'appliquent pas aux modèles en version preview. Pour obtenir les informations les plus précises et à jour, consultez la documentation officielle spécifique à chaque modèle.

Surveiller le débit et les performances

Pour surveiller la consommation de jetons en temps réel de votre organisation, accédez à l'explorateur de métriques dans Cloud Monitoring.

Accéder à l'explorateur de métriques

Pour en savoir plus sur la surveillance du trafic des points de terminaison du modèle, consultez Surveiller les modèles.

Notez que les niveaux d'utilisation s'appliquent au niveau de l'organisation. Pour savoir comment définir votre champ d'application de l'observabilité afin de représenter le débit sous forme de graphique pour plusieurs projets de votre organisation, consultez Configurer des champs d'application de l'observabilité pour les requêtes multiprojets.

Étapes suivantes

Ressource

Quotas et limites d'Agent Platform

Quotas et limites liés à l'Agent Platform, à l'exclusion des limites spécifiques aux produits.

Présentation

Quotas Google Cloud

Découvrez comment Google Cloud limite la quantité d'une ressource que votre projet Google Cloud peut utiliser, et comment les quotas s'appliquent à différents types de ressources, y compris les composants matériels, logiciels et réseau.