PayGo standard

Le paiement à l'utilisation standard est une option de consommation permettant d'utiliser la suite de modèles d'IA générative de Vertex AI, y compris les familles de modèles Gemini et Imagen sur Vertex AI. Le paiement à l'utilisation standard vous permet de ne payer que les ressources que vous consommez, sans engagement financier préalable. Pour offrir des performances plus prévisibles pour les charges de travail évolutives, le paiement à l'utilisation standard intègre un système de niveaux d'utilisation. Vertex AI ajuste dynamiquement la capacité de débit de référence de votre organisation en fonction de ses dépenses totales pour les services Vertex AI éligibles sur une période glissante de 30 jours. À mesure que les dépenses de votre organisation augmentent, elle est automatiquement promue à des niveaux supérieurs qui offrent un accès accru aux ressources partagées et des seuils de performances plus élevés.

Niveaux d'utilisation et débit

Chaque niveau d'utilisation Standard avec paiement à l'utilisation vise à fournir un débit de référence, mesuré en jetons par minute (TPM), qui sert de seuil de performances prévisible pour le trafic de votre organisation. Les limites de débit sont basées sur les requêtes envoyées au point de terminaison mondial. Il est recommandé d'utiliser le point de terminaison global, car il permet d'accéder à un pool de capacité de débit multirégional plus important et d'acheminer vos requêtes vers l'emplacement le plus disponible pour maximiser les performances.

Votre trafic n'est pas strictement limité au seuil de débit de référence. Vertex AI permet au trafic de dépasser cette limite au mieux. Toutefois, pendant les périodes de forte demande sur la plate-forme Vertex AI, ce trafic excédentaire peut présenter une variabilité plus élevée en termes de performances. Pour optimiser les performances et minimiser le risque de recevoir ces erreurs, il est également recommandé de répartir votre trafic aussi uniformément que possible tout au long de chaque minute. Évitez d'envoyer des demandes lors de pics de deuxième niveau. Un trafic élevé et instantané peut entraîner une limitation du débit, même si votre utilisation moyenne par minute est inférieure à votre limite. La répartition plus uniforme de vos appels d'API aide le système à gérer votre charge de manière prévisible et améliore les performances globales.

Les niveaux suivants sont disponibles dans le forfait Standard à la carte :

Famille de modèles	Niveau	Dépenses des clients (30 jours)	TPM de trafic (au niveau de l'organisation)
Modèles Gemini Pro	Niveau 1	10 à 250 $	500 000
	Niveau 2	Entre 250 $ et 2 000 $	1 000 000
	Niveau 3	> 2 000 $	2 000 000
Modèles Gemini Flash et Flash-Lite	Niveau 1	10 à 250 $	2 000 000
	Niveau 2	Entre 250 $ et 2 000 $	4 000 000
	Niveau 3	> 2 000 $	10 000 000

Notez que la limite de débit affichée pour une famille de modèles s'applique indépendamment à chaque modèle de cette famille. Par exemple, un client de niveau 3 dispose d'un débit de base de 10 000 000 TPM pour Gemini 2.5 Flash et d'un débit de base distinct de 10 000 000 TPM pour Gemini 2.0 Flash. L'utilisation de l'une de ces limites n'a pas d'incidence sur le débit des autres modèles. Il n'existe pas de limite distincte de requêtes par minute (RPM) pour chaque niveau. Toutefois, la limite système de 30 000 RPM par modèle et par région s'applique. Les requêtes Gemini avec des entrées multimodales sont soumises aux limites de débit système correspondantes, y compris image, audio, vidéo et document.

Si vous avez besoin d'un débit plus élevé pour un cas d'utilisation Enterprise, contactez l'équipe de gestion de votre compte pour en savoir plus sur un forfait personnalisé.

Fonctionnement des niveaux d'utilisation

Votre niveau d'utilisation est déterminé automatiquement en fonction des dépenses totales de votre organisation pour les services Vertex AI éligibles sur une période glissante de 30 jours. À mesure que les dépenses de votre organisation augmentent, le système vous fait passer à un niveau supérieur avec un débit plus élevé.

Calcul des dépenses

Ce calcul inclut un large éventail de services, des prédictions sur toutes les familles de modèles Gemini aux instances Vertex AI CPU, GPU et TPU, ainsi que les SKU basés sur l'engagement, tels que le débit provisionné.

Cliquez pour en savoir plus sur les SKU inclus dans le calcul des dépenses.

Le tableau suivant liste les catégories de Google Cloud SKU incluses dans le calcul des dépenses totales.

Catégorie	Description des SKU inclus
Modèles Gemini	Toutes les familles de modèles Gemini (par exemple, 2.0, 2.5, 3.0 dans les versions Pro, Flash et Lite) pour les prédictions dans toutes les modalités (texte, image, audio, vidéo), y compris les variantes par lot, à contexte long, ajustées et de "raisonnement"
Fonctionnalités des modèles Gemini	Tous les SKU Gemini associés aux fonctionnalités telles que la mise en cache, le stockage du cache et les niveaux de priorité, pour toutes les modalités et versions de modèle
CPU Vertex AI	Prédictions en ligne et par lot sur toutes les familles d'instances basées sur le processeur (par exemple, C2, C3, E2, N1, N2 et leurs variantes)
GPU Vertex AI	Prédictions en ligne et par lot sur toutes les instances accélérées par GPU NVIDIA (par exemple, A100, H100, H200, B200, L4, T4, V100 et série RTX)
Vertex AI TPU	Prédictions en ligne et par lot sur toutes les instances basées sur des TPU (par exemple, TPU-v5e, v6e)
Gestion et frais	Tous les SKU "Frais de gestion" associés aux différentes instances de prédiction Vertex AI
Débit provisionné	Tous les SKU basés sur l'engagement pour le débit provisionné
Autres Services	Services spécialisés tels que "Ancrage LLM pour Gemini… avec l'outil Recherche Google"

Vérifier le niveau d'utilisation

Pour vérifier le niveau d'utilisation de votre organisation, accédez au tableau de bord Vertex AI dans la console Google Cloud .

Accéder au tableau de bord Vertex AI

Vérifier les dépenses

Pour examiner vos dépenses Vertex AI, accédez à la facturation Cloud dans la consoleGoogle Cloud . Notez que les dépenses sont agrégées au niveau de l'organisation.

Accéder à Cloud Billing

Erreurs "Ressource épuisée" (429)

Si vous recevez une erreur 429, cela ne signifie pas que vous avez atteint un quota fixe. Elle indique une forte contention temporaire pour une ressource partagée spécifique. Nous vous recommandons d'implémenter une stratégie de nouvelle tentative avec intervalle exponentiel pour gérer ces erreurs, car la disponibilité dans cet environnement dynamique peut changer rapidement. En plus d'une stratégie de nouvelle tentative, nous vous recommandons d'utiliser le point de terminaison global. Contrairement à un point de terminaison régional (par exemple, us-central1), le point de terminaison mondial achemine dynamiquement vos requêtes vers la région disposant de la plus grande capacité disponible à ce moment-là. Cela permet à votre application d'accéder à un pool de capacité partagée plus vaste et multirégional, ce qui augmente considérablement votre potentiel de dépassement et réduit le risque d'erreurs 429.

Pour de meilleurs résultats, combinez l'utilisation du point de terminaison mondial avec le lissage du trafic. Évitez d'envoyer des requêtes par pics de trafic soudains et brefs, car un trafic élevé et instantané peut entraîner une limitation du débit, même si votre utilisation moyenne par minute est inférieure à votre limite de débit de référence. La répartition plus uniforme de vos appels d'API aide le système à gérer votre charge de manière prévisible et améliore les performances globales. Pour en savoir plus sur la gestion des erreurs d'épuisement des ressources, consultez Guide de gestion des erreurs 429 et Code d'erreur 429.

Modèles compatibles

Les modèles Gemini en disponibilité générale (DG) suivants et leurs modèles affinés de manière supervisée sont compatibles avec le paiement à l'utilisation standard avec niveaux d'utilisation :

Les modèles Gemini GA et leurs modèles affinés supervisés suivants sont également compatibles avec le paiement à l'utilisation standard, mais les niveaux d'utilisation ne s'appliquent pas à ces modèles :

Notez que ces niveaux ne s'appliquent pas aux modèles en version preview. Pour obtenir les informations les plus précises et à jour, consultez la documentation officielle spécifique à chaque modèle.

Surveiller le débit et les performances

Pour surveiller la consommation de jetons en temps réel de votre organisation, accédez à l'explorateur de métriques dans Cloud Monitoring.

Accéder à l'explorateur de métriques

Pour en savoir plus sur la surveillance du trafic des points de terminaison du modèle, consultez Surveiller les modèles.

Notez que les niveaux d'utilisation s'appliquent au niveau de l'organisation. Pour savoir comment définir votre champ d'application de l'observabilité afin de représenter le débit sous forme de graphique pour plusieurs projets de votre organisation, consultez Configurer des champs d'application de l'observabilité pour les requêtes multiprojets.

Étapes suivantes

Pour en savoir plus sur les quotas et les limites de Vertex AI, consultez la section Quotas et limites de Vertex AI.
Pour en savoir plus sur les quotas et les limites du système Google Cloud , consultez la documentation sur les quotas Cloud.