Gemini Enterprise Agent Platform propose différentes façons de gérer le débit des modèles d'IA générative pour vous aider à équilibrer les coûts et les performances. Ce document décrit les options disponibles : un modèle flexible de paiement à l'usage et une capacité réservée pour un débit prévisible.
Quotas de modèles gérés
Agent Platform propose deux façons de gérer le débit pour les modèles d'IA générative gérés sur Gemini Enterprise Agent Platform, ce qui vous permet d'équilibrer les coûts, la flexibilité et les performances. Vous pouvez utiliser un modèle de paiement à l'utilisation ou réserver une quantité de débit dédiée à un prix fixe.
Paiement à l'usage
Pour le modèle par défaut avec paiement à l'usage, Agent Platform utilise le paiement à l'usage standard. Ce modèle vous permet de ne payer que les ressources que vous consommez, sans engagement financier initial. Il existe d'autres options de paiement à l'usage qui varient en termes de coût et de performances. Pour en savoir plus, consultez Paiement à l'usage prioritaire ou Paiement à l'usage flexible.
Capacité réservée
Pour les applications de production critiques qui nécessitent des performances constantes et des coûts prévisibles, vous pouvez utiliser le débit provisionné. Le débit provisionné est un abonnement à coût fixe qui réserve une quantité spécifique de débit pour vos modèles dans un emplacement de votre choix.
Quotas pour les services d'IA générative
Gemini Enterprise Agent Platform propose une suite de services d'IA générative, tels que l'ajustement de modèles, l'évaluation de modèles, la prédiction par lot, les embeddings et la génération augmentée par récupération. Pour en savoir plus sur les quotas de ces services, consultez Quotas et limites système de l'IA générative sur Gemini Enterprise Agent Platform.
Étapes suivantes
- En savoir plus sur Standard PayGo
- En savoir plus sur le débit provisionné
- En savoir plus sur les quotas et les limites du système de l'IA générative
- En savoir plus sur les quotas Google Cloud