Quota de débit

Vertex AI propose différentes façons de gérer le débit des modèles d'IA générative pour vous aider à équilibrer les coûts et les performances. Ce document décrit les options disponibles : un modèle flexible de paiement à l'usage et une capacité réservée pour un débit prévisible.

Quotas de modèles gérés

Vertex AI propose deux façons de gérer le débit des modèles d'IA générative gérés sur Vertex AI, ce qui vous permet d'équilibrer les coûts, la flexibilité et les performances. Vous pouvez utiliser un modèle de paiement à l'usage flexible ou réserver une quantité de débit dédiée à un prix fixe.

Paiement à l'usage

Pour le modèle de paiement à l'utilisation par défaut, Vertex AI utilise le quota partagé dynamique, qui ne comporte pas de limite d'utilisation prédéfinie. Au lieu de cela, vous avez accès à un grand pool de ressources partagées qui sont allouées de manière dynamique en fonction de la disponibilité et de la demande en temps réel.

Ce modèle permet à vos charges de travail d'utiliser davantage de ressources lorsqu'elles sont disponibles. Si vous recevez une erreur resource exhausted (429), cela signifie que le pool partagé connaît temporairement une forte demande de la part de nombreux utilisateurs à la fois. Vous devez implémenter des mécanismes de nouvelle tentative dans votre application, car la disponibilité peut changer rapidement.

Capacité réservée

Pour les applications de production critiques qui nécessitent des performances constantes et des coûts prévisibles, vous pouvez utiliser le débit provisionné. Le débit provisionné est un abonnement à coût fixe qui réserve une quantité spécifique de débit pour vos modèles dans un emplacement de votre choix.

Quotas pour les services d'IA générative

Vertex AI propose une suite de services d'IA générative, tels que le réglage de modèles, l'évaluation de modèles, la prédiction par lot, les embeddings et la génération augmentée de récupération. Pour en savoir plus sur les quotas de ces services, consultez Quotas et limites système de l'IA générative sur Vertex AI.

Étapes suivantes

En savoir plus sur le quota partagé dynamique
En savoir plus sur le débit provisionné
En savoir plus sur les quotas et les limites du système d'IA générative
En savoir plus sur les quotas Google Cloud

Quota de débit Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.