PayGo standard

Le paiement à l'utilisation standard est une option de consommation qui vous permet d'utiliser la suite de modèles d'IA générative de Vertex AI, y compris les familles de modèles Gemini et Imagen sur Vertex AI. Avec le paiement à l'utilisation standard, vous ne payez que les ressources que vous consommez, sans engagement financier préalable. Pour offrir des performances plus prévisibles aux charges de travail évolutives, le paiement à l'utilisation standard intègre un système de niveaux d'utilisation. Vertex AI ajuste dynamiquement la capacité de débit de base de votre organisation en fonction de ses dépenses totales pour les services Vertex AI éligibles sur une période glissante de 30 jours. À mesure que les dépenses de votre organisation augmentent, elle est automatiquement promue à des niveaux supérieurs qui offrent un accès accru aux ressources partagées et des seuils de performances plus élevés.

Niveaux d'utilisation et débit

Chaque niveau d'utilisation du paiement à l'utilisation standard vise à fournir un débit de base, mesuré en jetons par minute (TPM), qui sert de plancher de performances prévisible pour le trafic de votre organisation. Les limites de débit sont basées sur les requêtes envoyées au point de terminaison mondial. L'utilisation du point de terminaison mondial est une bonne pratique, car elle donne accès à un pool de capacité de débit multirégional plus important et permet de router vos requêtes vers l'emplacement le plus disponible afin de maximiser les performances.

Votre trafic n'est pas strictement limité au débit de base. Vertex AI permet au trafic de dépasser cette limite du mieux possible. Toutefois, en période de forte demande sur la plate-forme Vertex AI, ce trafic excédentaire peut présenter une plus grande variabilité des performances. Pour optimiser les performances et réduire le risque de recevoir ces erreurs, il est également recommandé de lisser votre trafic aussi uniformément que possible chaque minute. Évitez d'envoyer des requêtes en pics nets de second niveau. Un trafic élevé et instantané peut entraîner une limitation, même si votre utilisation moyenne par minute est inférieure à votre limite. Une répartition plus uniforme de vos appels d'API permet au système de gérer votre charge de manière prévisible et d'améliorer les performances globales.

Les niveaux suivants sont disponibles dans le paiement à l'utilisation standard :

Famille de modèles Niveau Dépenses du client (30 jours) Trafic TPM (au niveau de l'organisation)
Modèles Gemini Pro Niveau 1 10 $ à 250 $ 500 000
Niveau 2 250 $ à 2 000 $ 1 000 000
Niveau 3 > 2 000 $ 2 000 000
Modèles Gemini Flash et Flash-Lite Niveau 1 10 $ à 250 $ 2 000 000
Niveau 2 250 $ à 2 000 $ 4 000 000
Niveau 3 > 2 000 $ 10 000 000

Notez que la limite de débit affichée pour une famille de modèles s'applique indépendamment à chaque modèle de cette famille. Par exemple, un client de niveau 3 dispose d'un débit de base de 10 000 000 de TPM pour Gemini 2.5 Flash et d'une base distincte de 10 000 000 de TPM pour Gemini 2.0 Flash. L'utilisation de l'une de ces limites n'a pas d'incidence sur le débit des autres modèles. Il n'existe pas de limite distincte de requêtes par minute (RPM) pour chaque niveau. Toutefois, la limite système de 30 000 RPM par modèle et par région s'applique. Les requêtes Gemini avec des entrées multimodales sont soumises à les limites de débit système correspondantes, y compris les images, l'audio, la vidéo, et les documents.

Si vous avez besoin d'un débit plus élevé pour un cas d'utilisation d'entreprise, contactez l'équipe chargée de votre compte pour en savoir plus sur un niveau personnalisé.

Fonctionnement des niveaux d'utilisation

Votre niveau d'utilisation est automatiquement déterminé par les dépenses totales de votre organisation pour les services Vertex AI éligibles sur une période glissante de 30 jours. À mesure que les dépenses de votre organisation augmentent, le système vous fait passer à un niveau supérieur avec un débit plus élevé.

Calcul des dépenses

Ce calcul inclut un large éventail de services, allant des prédictions sur toutes les familles de modèles Gemini aux instances de processeur, de GPU et de TPU Vertex AI, en passant par les SKU basés sur l'engagement, tels que le débit provisionné.

Cliquez pour en savoir plus sur les SKU inclus dans le calcul des dépenses.

Le tableau suivant répertorie les catégories de Google Cloud SKU incluses dans le calcul des dépenses totales.

Catégorie Description des SKU inclus
Modèles Gemini Toutes les familles de modèles Gemini (par exemple, 2.0, 2.5, 3.0 dans les versions Pro, Flash et Lite) pour les prédictions dans toutes les modalités (texte, image, audio, vidéo), y compris les variantes par lot, de contexte long, réglées et "de réflexion"
Fonctionnalités des modèles Gemini Tous les SKU Gemini associés pour des fonctionnalités telles que la mise en cache, le stockage de la mise en cache et les niveaux de priorité, dans toutes les modalités et versions de modèle
Processeur Vertex AI Prédictions en ligne et par lot sur toutes les familles d'instances basées sur le processeur (par exemple, C2, C3, E2, N1, N2 et leurs variantes)
GPU Vertex AI Prédictions en ligne et par lot sur toutes les instances accélérées par GPU NVIDIA (par exemple, A100, H100, H200, B200, L4, T4, V100 et la série RTX)
TPU Vertex AI Prédictions en ligne et par lot sur toutes les instances basées sur TPU (par exemple, TPU-v5e, v6e)
Gestion et frais Tous les SKU de "frais de gestion" associés à différentes instances de prédiction Vertex AI
Débit provisionné Tous les SKU basés sur l'engagement pour le débit provisionné
Autres services Services spécialisés tels que "Ancrage LLM pour Gemini... avec l'outil de recherche Google"

Vérifier le niveau d'utilisation

Pour vérifier le niveau d'utilisation de votre organisation, accédez au tableau de bord Vertex AI dans la Google Cloud console.

Accéder au tableau de bord Vertex AI

Vérifier les dépenses

Pour consulter vos dépenses Vertex AI, accédez à Cloud Billing dans la Google Cloud console. Notez que les dépenses sont agrégées au niveau de l'organisation.

Accéder à Cloud Billing

Erreurs d'épuisement des ressources (429)

Si vous recevez une erreur 429, cela n'indique pas que vous avez atteint un quota fixe. Cela indique une forte contention temporaire pour une ressource partagée spécifique. Nous vous recommandons d'implémenter une stratégie de nouvelle tentative avec intervalle exponentiel entre les tentatives pour gérer ces erreurs, car la disponibilité dans cet environnement dynamique peut changer rapidement. En plus d'une stratégie de nouvelle tentative, nous vous recommandons d'utiliser le point de terminaison mondial. Contrairement à un point de terminaison régional (par exemple, us-central1), le point de terminaison mondial achemine dynamiquement vos requêtes vers la région disposant de la plus grande capacité disponible à ce moment-là. Cela permet à votre application d'accéder à un pool de capacité partagée multirégional plus important, ce qui augmente considérablement votre potentiel de dépassement et réduit le risque d'erreurs 429.

Pour de meilleurs résultats, combinez l'utilisation du point de terminaison mondial avec le lissage du trafic. Évitez d'envoyer des requêtes en pics nets de second niveau, car un trafic élevé et instantané peut entraîner une limitation, même si votre utilisation moyenne par minute est inférieure à votre limite de débit de base. Une répartition plus uniforme de vos appels d'API permet au système de gérer votre charge de manière prévisible et d'améliorer les performances globales. Pour en savoir plus sur la gestion des erreurs d'épuisement des ressources, consultez Créer des applications LLM résilientes sur Vertex AI et Réduire les erreurs 429 et code d'erreur 429.

Modèles compatibles

Les modèles Gemini en disponibilité générale (DG) suivants et leurs modèles affinés supervisés sont compatibles avec le paiement à l'utilisation standard avec des niveaux d'utilisation :

Les modèles Gemini en GA suivants et leurs modèles affinés supervisés sont également compatibles avec le paiement à l'utilisation standard, mais les niveaux d'utilisation ne s'appliquent pas à ces modèles :

Notez que ces niveaux ne s'appliquent pas aux modèles en preview. Pour obtenir les informations les plus précises et à jour, consultez la documentation officielle spécifique de chaque modèle.

Surveiller le débit et les performances

Pour surveiller la consommation de jetons en temps réel de votre organisation, accédez à l'explorateur de métriques dans Cloud Monitoring.

Accéder à l'explorateur de métriques

Pour en savoir plus sur la surveillance du trafic des points de terminaison de modèle, consultez Surveiller les modèles.

Notez que les niveaux d'utilisation s'appliquent au niveau de l'organisation. Pour savoir comment définir votre champ d'application d'observabilité afin de représenter graphiquement le débit sur plusieurs projets de votre organisation, consultez Configurer des champs d'application d'observabilité pour les requêtes multiprojets.

Étape suivante

Ressource

Quotas et limites liés à la plate-forme Vertex AI, à l'exclusion des limites spécifiques aux produits.

Présentation

Découvrez comment Google Cloud limite la quantité d'une ressource que votre projet Google Cloud peut utiliser et comment les quotas s'appliquent à différents types de ressources, y compris les composants matériels, logiciels et réseau.