Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Modèles compatibles

Les tableaux suivants présentent les modèles compatibles avec le débit provisionné, le débit pour chaque unité d'échelle d'IA générative (GSU) et les taux d'utilisation pour chaque modèle.

Modèles Google

Attention : À compter du 1er juin 2026, gemini-2.0-flash-001 et gemini-2.0-flash-lite-001 ne seront plus disponibles. Cela inclut à la fois la mise en service du modèle et le débit provisionné. Utilisez Gemini 3.1 Flash-Lite, Gemma 4 ou des versions plus récentes de Gemini.

Le débit provisionné n'est compatible qu'avec les modèles que vous appelez directement depuis votre projet à l'aide de l'ID de modèle spécifique, et non d'un alias de modèle. Pour utiliser le débit provisionné afin d'effectuer des appels d'API à un modèle, vous devez utiliser l'ID de version de modèle spécifique (par exemple, gemini-2.0-flash-001) et non un alias de version de modèle.

Bien que le débit provisionné garantisse la capacité pour les requêtes de votre modèle, il n'inclut ni ne contourne les quotas des autres outils que vous pourriez utiliser, tels que l'ancrage. En fonction de la taille de votre charge de travail, vous devrez peut-être demander un quota supplémentaire pour ces outils séparément.

De plus, le débit provisionné n'est pas compatible avec les modèles appelés par d'autres produits Gemini Enterprise Agent Platform, tels que Vertex AI Agents et Agent Search. Par exemple, si vous effectuez des appels d'API à Gemini 2.0 Flash lorsque vous utilisez la recherche par agent, votre commande de débit provisionné pour Gemini 2.0 Flash ne garantit pas les appels effectués par la recherche par agent.

Le débit provisionné n'est pas compatible avec les appels de prédiction par lots.

Le tableau suivant indique le débit, les incréments d'achat et les taux d'utilisation pour les modèles Google compatibles avec le débit provisionné. Votre débit par seconde est défini comme la somme des caractères du prompt que vous avez saisi en entrée et des caractères du texte généré en sortie pour toutes les requêtes, par seconde.

Pour connaître le nombre de jetons requis par votre charge de travail, consultez le tokenizer du SDK ou l'API countTokens.

Modèle	Débit par seconde et par GSU	Unités	Incrément d'achat GSU minimal	Taux d'utilisation
Gemini 3 Pro Image Dernière version compatible : `gemini-3-pro-image`	500	Jetons	1	1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton de texte de réponse de sortie = 6 jetons 1 jeton de texte de raisonnement de sortie = 6 jetons 1 jeton d'image de sortie = 60 jetons
Image Gemini 3.1 Flash Dernière version compatible : `gemini-3.1-flash-image`	2015	Jetons	1	1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton vidéo d'entrée = 1 jeton 1 jeton de texte de réponse de sortie = 6 jetons 1 jeton de texte de raisonnement de sortie = 6 jetons 1 jeton d'image de sortie = 120 jetons
Gemini 3.5 Flash Dernière version compatible : `gemini-3.5-flash`	675	Jetons	1	1 jeton de texte en entrée = 1 jeton 1 jeton d'image en entrée = 1 jeton 1 jeton vidéo en entrée = 1 jeton 1 jeton audio en entrée = 1 jeton 1 jeton de mise en cache de texte en entrée = 0,1 jeton 1 jeton de mise en cache d'image en entrée = 0,1 jeton 1 jeton de mise en cache de vidéo en entrée = 0,1 jeton 1 jeton de mise en cache d'audio en entrée = 0,1 jeton 1 jeton de texte en sortie = 6 jetons
Gemini 3.1 Flash-Lite Dernière version compatible : `gemini-3.1-flash-lite`	4030	Jetons	1	1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 2 jetons 1 jeton de mise en cache de texte d'entrée = 0,1 jeton 1 jeton de mise en cache d'image d'entrée = 0,1 jeton 1 jeton de mise en cache de vidéo d'entrée = 0,1 jeton 1 jeton de mise en cache d'audio d'entrée = 0,2 jeton 1 jeton de texte de réponse de sortie = 6 jetons 1 jeton de texte de raisonnement de sortie = 6 jetons
Image Gemini 3.1 Flash Dernière version compatible : `gemini-3.1-flash-image-preview` (preview)	2015	Jetons	1	1 jeton de texte en entrée = 1 jeton 1 jeton d'image en entrée = 1 jeton 1 jeton de texte en sortie = 6 jetons 1 jeton d'image en sortie = 120 jetons
Gemini 3.1 Pro Dernière version compatible : `gemini-3.1-pro-preview` (preview)	500	Jetons	1	Moins de 200 000 jetons d'entrée : 1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton de vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 1 jeton 1 jeton de cache d'entrée = 0,1 jeton 1 jeton de texte de réponse de sortie = 6 jetons 1 jeton de texte de raisonnement de sortie = 6 jetons Plus de 200 000 jetons d'entrée : 1 jeton de texte d'entrée = 2 jetons 1 jeton d'image d'entrée = 2 jetons 1 jeton de vidéo d'entrée = 2 jetons 1 jeton audio d'entrée = 2 jetons 1 jeton de cache d'entrée = 0,2 jeton 1 jeton de texte de réponse de sortie = 9 jetons 1 jeton de texte de raisonnement de sortie = 9 jetons
Gemini 3 Flash Dernière version compatible : `gemini-3-flash-preview` (preview)	2015	Jetons	1	1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 2 jetons 1 jeton de mise en cache de texte, d'image ou de vidéo d'entrée = 0,1 jeton 1 jeton de mise en cache audio d'entrée = 0,2 jeton 1 jeton de texte de réponse de sortie = 6 jetons 1 jeton de texte de raisonnement de sortie = 6 jetons
Gemini 3 Pro Image Dernière version compatible : `gemini-3-pro-image-preview` (preview)	500	Jetons	1	1 jeton de texte en entrée = 1 jeton 1 jeton d'image en entrée = 1 jeton 1 jeton de texte en sortie = 6 jetons 1 jeton de réflexion en sortie = 6 jetons 1 jeton d'image en sortie = 60 jetons
Gemini 2.5 Pro Dernière version compatible : `gemini-2.5-pro`	650	Jetons	1	Moins de 200 000 jetons d'entrée : 1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton de vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 1 jeton 1 jeton de texte de réponse de sortie = 8 jetons 1 jeton de texte de raisonnement de sortie = 8 jetons Plus de 200 000 jetons d'entrée : 1 jeton de texte d'entrée = 2 jetons 1 jeton d'image d'entrée = 2 jetons 1 jeton de vidéo d'entrée = 2 jetons 1 jeton audio d'entrée = 2 jetons 1 jeton de texte de réponse de sortie = 12 jetons 1 jeton de texte de raisonnement de sortie = 12 jetons
Image Gemini 2.5 Flash Dernière version compatible : `gemini-2.5-flash-image`	2 690	Jetons	1	1 jeton de texte en entrée = 1 jeton 1 jeton d'image en entrée = 1 jeton 1 jeton de texte en sortie = 9 jetons 1 jeton d'image en sortie = 100 jetons
Gemini 2.5 Flash Dernière version compatible : `gemini-2.5-flash`	2690	Jetons	1	1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton de vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 4 jetons 1 jeton de texte de réponse de sortie = 9 jetons 1 jeton de texte de raisonnement de sortie = 9 jetons
Gemini 2.5 Flash-Lite Dernière version compatible (GA) : `gemini-2.5-flash-lite` Dernière version compatible (version bêta) : `gemini-2.5-flash-lite-preview-09-2025`	8 070	Jetons	1	1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 3 jetons 1 jeton de texte de réponse de sortie = 4 jetons 1 jeton de texte de raisonnement de sortie = 4 jetons
Gemini 2.5 Flash avec l'API Gemini Live et l'audio natif Dernière version compatible : `gemini-live-2.5-flash-native-audio`	1 620	Jetons	1	1 jeton de texte en entrée = 1 jeton 1 jeton audio en entrée = 6 jetons 1 jeton vidéo en entrée = 6 jetons 1 jeton image en entrée = 6 jetons 1 jeton de mémoire de session en entrée = 1 jeton 1 jeton de texte en sortie = 4 jetons 1 jeton audio en sortie = 24 jetons
Générer avec Veo 3.1 Lite Dernière version compatible : `veo-3.1-lite-generate-001`	0,0350	Secondes de vidéo (720p)	1	1 seconde de vidéo de sortie (720p) = 1 seconde de vidéo de sortie
		Secondes de vidéo et d'audio (720p)	1	1 seconde de vidéo et d'audio en sortie (720p) = 1,75 seconde de vidéo en sortie
		Secondes de vidéo (1080p)	1	1 seconde de vidéo en 1080p = 1,75 seconde de vidéo en 720p
		Secondes de vidéo et d'audio (1080p)	1	1 seconde de sortie vidéo+audio (1080p) = 2,33 secondes de sortie vidéo (720p)
Veo 3.1 Dernière version compatible : `veo-3.1-generate-001`	0,0040	Secondes de vidéo	1	1 seconde de sortie vidéo = 1 seconde de sortie vidéo
	0,0040	Secondes de vidéo et d'audio	1	1 seconde de sortie vidéo et audio = 2 secondes de sortie vidéo
Veo 3.1 Fast Dernière version compatible : `veo-3.1-fast-generate-001`	0,01	Secondes de vidéo (720p)	1	1 seconde de vidéo de sortie (720p) = 1 seconde de vidéo de sortie
		Secondes de vidéo et d'audio (720p)	1	1 seconde de vidéo et d'audio en sortie (720p) = 1,30 seconde de vidéo en sortie
		Secondes de vidéo (1080p)	1	1 seconde de vidéo en 1080p = 1,30 seconde de vidéo en 720p
		Secondes de vidéo et d'audio (1080p)	1	1 seconde de vidéo et d'audio en 1080p = 1,60 seconde de vidéo en 720p
		Secondes de vidéo (4K)	1	1 seconde de vidéo en 4K = 3,40 secondes de vidéo en 720p
		Secondes de vidéo et d'audio (4K)	1	1 seconde de vidéo et d'audio en 4K = 4 secondes de vidéo en 720p
Veo 3 Dernière version compatible : `veo-3.0-generate-001`	0,0040	Secondes de vidéo	1	1 seconde de sortie vidéo = 1 seconde de sortie vidéo
Veo 3 Dernière version compatible : `veo-3.0-generate-001`	0,0040	Secondes de vidéo et d'audio	1	1 seconde de sortie vidéo et audio = 2 secondes de sortie vidéo
Veo 3 Fast Dernière version compatible : `veo-3.0-fast-generate-001`	0,01	Secondes de vidéo (720p)	1	1 seconde de vidéo de sortie (720p) = 1 seconde de vidéo de sortie
		Secondes de vidéo et d'audio (720p)	1	1 seconde de vidéo et d'audio en sortie (720p) = 1,30 seconde de vidéo en sortie
		Secondes de vidéo (1080p)	1	1 seconde de vidéo en 1080p = 1,30 seconde de vidéo en 720p
		Secondes de vidéo et d'audio (1080p)	1	1 seconde de vidéo et d'audio en 1080p = 1,60 seconde de vidéo en 720p

Pour en savoir plus sur les capacités d'un modèle et les limites d'entrée ou de sortie, consultez la documentation du modèle.

Demander l'accès : le modèle gemini-live-2.5-flash est en disponibilité générale privée. Pour en savoir plus sur l'accès à cette version, consultez la page de demande d'accès.

Vous pouvez passer à de nouveaux modèles dès qu'ils sont disponibles. Pour en savoir plus sur la disponibilité des modèles et les dates d'arrêt, consultez Modèles Google.

Pour en savoir plus sur les emplacements compatibles, consultez la section Emplacements disponibles.

Modèles de partenaires

Le tableau suivant indique le débit, les incréments d'achat et les taux d'utilisation pour les modèles partenaires compatibles avec le débit provisionné. Les modèles Claude sont mesurés en jetons par seconde, ce qui est défini comme un total de jetons d'entrée et de sortie pour l'ensemble des requêtes, par seconde.

Modèle	Débit par GSU (jetons/seconde)	Achat GSU minimal	Incrément d'achat GSU	Taux d'utilisation
Claude 4.8 Opus d'Anthropic	210	35	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache de 5 min = 1,25 jeton 1 jeton d'écriture dans le cache de 1 h = 2 jetons 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 4.7 Opus d'Anthropic	210	35	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache de 5 min = 1,25 jeton 1 jeton d'écriture dans le cache de 1 h = 2 jetons 1 jeton de succès de cache (hit) = 0,1 jeton
Claude Sonnet 4.6 d'Anthropic	350	25	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache de 5 min = 1,25 jeton 1 jeton d'écriture dans le cache de 1 h = 2 jetons 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 4.6 Opus d'Anthropic	210	35	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache de 5 min = 1,25 jeton 1 jeton d'écriture dans le cache de 1 h = 2 jetons 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 4.5 Opus d'Anthropic	210	35	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache de 5 min = 1,25 jeton 1 jeton d'écriture dans le cache de 1 h = 2 jetons 1 jeton de succès de cache (hit) = 0,1 jeton
Claude Sonnet 4.5 d'Anthropic	350	25	1	Moins de 200 000 jetons d'entrée : 1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache de 5 min = 1,25 jeton 1 jeton d'écriture dans le cache de 1 h = 2 jetons 1 jeton de succès de cache (hit) = 0,1 jeton 200 000 jetons d'entrée ou plus : 1 jeton d'entrée = 2 jetons 1 jeton de sortie = 7,5 jetons 1 jeton d'écriture dans le cache de 5 min = 2,5 jetons 1 jeton d'écriture dans le cache de 1 h = 4 jetons 1 jeton de hit de cache = 0,2 jeton
Claude 4.1 Opus d'Anthropic	70	35	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache de 5 min = 1,25 jeton 1 jeton d'écriture dans le cache de 1 h = 2 jetons 1 jeton de succès de cache (hit) = 0,1 jeton
Claude Haiku 4.5 d'Anthropic	1 050	8	1	Moins de 200 000 jetons d'entrée : 1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache de 5 min = 1,25 jeton 1 jeton d'écriture dans le cache de 1 h = 2 jetons 1 jeton de succès de cache (hit) = 0,1 jeton
Claude Opus 4 d'Anthropic	70	35	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache de 5 min = 1,25 jeton 1 jeton d'écriture dans le cache de 1 h = 2 jetons 1 jeton de succès de cache (hit) = 0,1 jeton
Claude Sonnet 4 d'Anthropic	350	25	1	Moins de 200 000 jetons d'entrée : 1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache de 5 min = 1,25 jeton 1 jeton d'écriture dans le cache de 1 h = 2 jetons 1 jeton de succès de cache (hit) = 0,1 jeton 200 000 jetons d'entrée ou plus : 1 jeton d'entrée = 2 jetons 1 jeton de sortie = 7,5 jetons 1 jeton d'écriture dans le cache de 5 min = 2,5 jetons 1 jeton d'écriture dans le cache de 1 h = 4 jetons 1 jeton de hit de cache = 0,2 jeton
Claude 3.7 Sonnet d'Anthropic (obsolète)	350	25	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache (5 min) = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3.5 Sonnet v2 d'Anthropic (obsolète)	350	25	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache (5 min) = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3.5 Haiku d'Anthropic (obsolète)	2 000	10	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache de 5 min = 1,25 jeton 1 jeton d'écriture dans le cache de 1 h = 2 jetons 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3 Opus d'Anthropic	70	35	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache (5 min) = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3 Haiku d'Anthropic (obsolète)	4 200	5	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache de 5 min = 1,25 jeton 1 jeton d'écriture dans le cache de 1 h = 2 jetons 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3.5 Sonnet d'Anthropic (obsolète)	350	25	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache (5 min) = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton

Pour en savoir plus sur les régions disponibles, consultez Disponibilité d'Anthropic Claude par région. Pour commander un débit provisionné pour les modèles Anthropic, contactez votre responsable de compteGoogle Cloud .

Modèles ouverts

Le tableau suivant indique le débit, les incréments d'achat et les taux d'utilisation pour les modèles ouverts compatibles avec le débit provisionné.

Modèle	Débit par GSU (jetons/seconde)	Achat GSU minimal	Incrément d'achat GSU	Taux d'utilisation
DeepSeek-OCR Dernière version compatible : `deepseek-ocr-maas`	3 360	1	1	1 jeton de texte en entrée = 1 jeton 1 jeton d'image en entrée = 1 jeton 1 jeton de texte en sortie = 4 jetons
DeepSeek-V3.2 DeepSeek-V3.2 Dernière version compatible : `deepseek-v3.2-maas`	1 680	1	1	1 jeton de texte d'entrée = 1 jeton 1 jeton de texte de sortie = 4 jetons
Gemma 4 26B A4B IT Dernière version compatible : `gemma-4-26b-a4b-it-maas` Le débit provisionné pour ce modèle est facturé selon les mêmes SKU que les modèles Google, mais est soumis aux capacités des modèles ouverts.	6 725	1	1	1 jeton de texte d'entrée = 1 jeton 1 jeton de texte de sortie = 4 jetons
Raisonnement Kimi K2 Dernière version compatible : `kimi-k2-thinking-maas`	1 680	1	1	1 jeton de texte d'entrée = 1 jeton 1 jeton de texte de sortie = 4 jetons
Llama 3.3 70B Dernière version compatible : `llama-3.3-70b-instruct-maas`	1 400	1	1	1 jeton de texte en entrée = 1 jeton 1 jeton de texte en sortie = 1 jeton
Llama 4 Maverick 17B-128E Dernière version compatible : `llama-4-maverick-17b-128e-instruct-maas`	2 800	1	1	1 jeton de texte en entrée = 1 jeton 1 jeton d'image en entrée = 1 jeton 1 jeton de texte en sortie = 4 jetons
Llama 4 Scout 17B-16E Dernière version compatible : `llama-4-scout-17b-16e-instruct-maas`	4 035	1	1	1 jeton de texte en entrée = 1 jeton 1 jeton d'image en entrée = 1 jeton 1 jeton de texte en sortie = 3 jetons
MiniMax M2 Dernière version compatible : `minimax-m2-maas`	3 360	1	1	1 jeton de texte d'entrée = 1 jeton 1 jeton de texte de sortie = 4 jetons
OpenAI gpt-oss 120B Dernière version compatible : `gpt-oss-120b-maas`	11 205	1	1	1 jeton de texte d'entrée = 1 jeton 1 jeton de texte de sortie = 4 jetons
OpenAI gpt-oss 20B Dernière version compatible : `gpt-oss-20b-maas`	14 405	1	1	1 jeton de texte d'entrée = 1 jeton 1 jeton de texte de sortie = 4 jetons
Qwen3 235B Dernière version compatible : `qwen3-235b-a22b-instruct-2507-maas`	4 035	1	1	1 jeton de texte d'entrée = 1 jeton 1 jeton de texte de sortie = 4 jetons
Qwen3 Coder Dernière version compatible : `qwen3-coder-480b-a35b-instruct-maas`	1 010	1	1	1 jeton de texte d'entrée = 1 jeton 1 jeton de texte de sortie = 4 jetons
Qwen3-Next-80B Instruct Dernière version compatible : `qwen3-next-80b-a3b-instruct-maas`	6 725	1	1	1 jeton de texte d'entrée = 1 jeton 1 jeton de texte de sortie = 8 jetons
Qwen3-Next-80B Thinking Dernière version compatible : `qwen3-next-80b-a3b-thinking-maas`	6 725	1	1	1 jeton de texte d'entrée = 1 jeton 1 jeton de texte de sortie = 8 jetons
GLM 4.7 Dernière version compatible : `glm-4.7-maas`	1 685	1	1	1 jeton de texte d'entrée = 1 jeton 1 jeton de texte de sortie = 4 jetons
GLM 5 Dernière version compatible : `glm-5-maas`	1 010	1	1	1 jeton de texte en entrée = 1 jeton 1 jeton de texte en sortie = 3 jetons

Fonctionnalités disponibles pour les modèles Google et ouverts

Le tableau suivant répertorie les fonctionnalités disponibles avec le débit provisionné pour les modèles Google et les modèles ouverts :

Capacité	Modèles Google	Modèles ouverts (preview)
Commander via la console Google Cloud	Oui	Oui
Compatibilité avec les points de terminaison mondiaux	Consultez la section Compatibilité des modèles de points de terminaison globaux.	Consultez la section Compatibilité des modèles de points de terminaison globaux.
Compatible avec les modèles affinés supervisés	Oui	Non
Compatibilité avec l'utilisation de clés API	Oui	Non
Intégration à la mise en cache du contexte implicite	Oui	Non applicable
Intégration à la mise en cache de contexte explicite	Oui	Non applicable
Traitement ML	Disponible dans certaines régions. Pour en savoir plus, consultez Débit provisionné dans une seule zone.	Non applicable
Conditions de commande disponibles	1 semaine, 1 mois, 3 mois et 1 an	1 semaine, 1 mois, 3 mois et 1 an
Modifier une commande depuis la console	Oui	Non
États des commandes : en attente d'examen, approuvée, active, expirée	Oui	Oui
Les dépassements sont reportés par défaut au paiement à l'usage	Oui	Oui
Contrôle des en-têtes d'API : utilisez "dedicated" pour n'utiliser que le débit provisionné ou "shared" pour n'utiliser que le paiement à l'usage.	Oui	Oui
Surveillance : métriques, tableaux de bord et alertes	Oui	Oui

Compatibilité avec les modèles de points de terminaison globaux

Le débit provisionné est compatible avec le point de terminaison global pour les modèles Google et les modèles ouverts.

Le trafic qui dépasse le quota de débit provisionné utilise le point de terminaison mondial par défaut.

Pour attribuer un débit provisionné au point de terminaison mondial d'un modèle, sélectionnez global comme région lorsque vous passez une commande de débit provisionné.

Modèles Google compatibles avec le point de terminaison global

Le tableau suivant liste les modèles Google pour lesquels le débit provisionné est compatible avec le point de terminaison global :

Modèle	Dernière version de modèle compatible
Gemini 3 Pro Image	`gemini-3-pro-image`
Image Gemini 3.1 Flash	`gemini-3.1-flash-image`
Gemini 3.5 Flash	`gemini-3.5-flash`
Gemini 3.1 Flash-Lite	`gemini-3.1-flash-lite`
Image Gemini 3.1 Flash preview	`gemini-3.1-flash-image-preview`
Gemini 3.1 Pro preview	`gemini-3.1-pro-preview`
Gemini 3 Flash preview	`gemini-3-flash-preview`
Image Gemini 3 Pro preview	`gemini-3-pro-image-preview`
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.5 Flash preview	`gemini-2.5-flash-preview-09-2025`
Gemini 2.5 Flash-Lite preview	`gemini-2.5-flash-lite-preview-09-2025`
Image Gemini 2.5 Flash	`gemini-2.5-flash-image`
Gemini 2.5 Flash	`gemini-2.5-flash`
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite`

Modèles ouverts avec compatibilité des points de terminaison mondiaux

Le tableau suivant liste les modèles ouverts pour lesquels le débit provisionné est compatible avec le point de terminaison global :

Modèle	Dernière version du modèle compatible
DeepSeek-OCR	`deepseek-ocr-maas`
DeepSeek-V3.2	`deepseek-v3.2-maas`
Kimi K2 Thinking	`kimi-k2-thinking-maas`
MiniMax M2	`minimax-m2-maas`
OpenAI gpt-oss 120B	`gpt-oss-120b-maas`
Qwen3-Next-80B Instruct	`qwen3-next-80b-a3b-instruct-maas`
Qwen3-Next-80B Thinking	`qwen3-next-80b-a3b-thinking-maas`
GLM 4.7	`glm-4.7-maas`
GLM 5	`glm-5-maas`

Prise en charge des modèles affinés de manière supervisée

Les éléments suivants sont compatibles avec les modèles Google qui acceptent l'affinage supervisé :

Le débit provisionné peut être appliqué aux modèles de base et aux versions affinées supervisées de ces modèles de base.
Les points de terminaison des modèles affinés supervisés et leur modèle de base correspondant sont comptabilisés dans le même quota de débit provisionné.

Par exemple, le débit provisionné acheté pour gemini-2.0-flash-lite-001 pour un projet spécifique donne la priorité aux requêtes effectuées à partir de versions affinées supervisées de gemini-2.0-flash-lite-001 créées dans ce projet. Utilisez l'en-tête approprié pour contrôler le comportement du trafic.

Étapes suivantes

Calculez les besoins en débit provisionné.

Modèles compatibles Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Modèles Google

Modèles de partenaires

Modèles ouverts

Fonctionnalités disponibles pour les modèles Google et ouverts

Compatibilité avec les modèles de points de terminaison globaux

Modèles Google compatibles avec le point de terminaison global

Modèles ouverts avec compatibilité des points de terminaison mondiaux

Prise en charge des modèles affinés de manière supervisée

Étapes suivantes

Modèles compatibles