Modèles compatibles

Les tableaux suivants présentent les modèles compatibles avec le débit provisionné, le débit pour chaque unité d'échelle d'IA générative (GSU) et les taux d'utilisation pour chaque modèle.

Modèles Google

Le débit provisionné n'est compatible qu'avec les modèles que vous appelez directement depuis votre projet à l'aide de l'ID de modèle spécifique, et non d'un alias de modèle. Pour utiliser le débit provisionné afin d'effectuer des appels d'API à un modèle, vous devez utiliser l'ID de version de modèle spécifique (par exemple, gemini-2.0-flash-001) et non un alias de version de modèle.

De plus, le débit provisionné n'est pas compatible avec les modèles appelés par d'autres produits Vertex AI, tels que Vertex AI Agents et Vertex AI Search. Par exemple, si vous effectuez des appels d'API à Gemini 2.0 Flash tout en utilisant Vertex AI Search, votre commande de débit provisionné pour Gemini 2.0 Flash ne garantit pas les appels effectués par Vertex AI Search.

Le débit provisionné n'est pas compatible avec les appels de prédiction par lots.

Le tableau suivant indique le débit, les incréments d'achat et les taux d'utilisation pour les modèles Google compatibles avec le débit provisionné. Votre débit par seconde est défini comme la somme des caractères d'entrée de votre requête et des caractères de sortie générés pour toutes les requêtes, par seconde.

Pour connaître le nombre de jetons requis par votre charge de travail, consultez le tokenizer du SDK ou l'API countTokens.

Modèle Débit par seconde et par GSU Unités Incrément d'achat GSU minimal Taux d'utilisation

Gemini 3 Pro

Dernière version compatible : gemini-3-pro-preview (preview)

500 Jetons 1 Jusqu'à 200 000 jetons d'entrée :
1 jeton de texte d'entrée = 1 jeton
1 jeton d'image d'entrée = 1 jeton
1 jeton de vidéo d'entrée = 1 jeton
1 jeton audio d'entrée = 1 jeton
1 jeton de texte de réponse de sortie = 6 jetons
1 jeton de texte de raisonnement de sortie = 6 jetons

Plus de 200 000 jetons d'entrée :
1 jeton de texte d'entrée = 2 jetons
1 jeton d'image d'entrée = 2 jetons
1 jeton de vidéo d'entrée = 2 jetons
1 jeton audio d'entrée = 2 jetons
1 jeton de texte de réponse de sortie = 9 jetons
1 jeton de texte de raisonnement de sortie = 9 jetons

Gemini 3 Pro Image

Dernière version compatible : gemini-3-pro-image-preview (preview)

500 Jetons 1 1 jeton de texte en entrée = 1 jeton
1 jeton d'image en entrée = 1 jeton
1 jeton de texte en sortie = 6 jetons
1 jeton de réflexion en sortie = 6 jetons
1 jeton d'image en sortie = 60 jetons

Gemini 2.5 Pro

Dernière version compatible : gemini-2.5-pro

650 Jetons 1 Moins de 200 000 jetons d'entrée :
1 jeton de texte d'entrée = 1 jeton
1 jeton d'image d'entrée = 1 jeton
1 jeton vidéo d'entrée = 1 jeton
1 jeton audio d'entrée = 1 jeton
1 jeton de texte de réponse de sortie = 8 jetons
1 jeton de texte de raisonnement de sortie = 8 jetons

Plus de 200 000 jetons d'entrée :
1 jeton de texte d'entrée = 2 jetons
1 jeton d'image d'entrée = 2 jetons
1 jeton vidéo d'entrée = 2 jetons
1 jeton audio d'entrée = 2 jetons
1 jeton de texte de réponse de sortie = 12 jetons
1 jeton de texte de raisonnement de sortie = 12 jetons

Gemini 2.5 Flash Image

Dernière version compatible : gemini-2.5-flash-image

2 690 Jetons 1 1 jeton de texte en entrée = 1 jeton
1 jeton d'image en entrée = 1 jeton
1 jeton de texte en sortie = 9 jetons
1 jeton d'image en sortie = 100 jetons

Gemini 2.5 Flash

Dernière version compatible (GA) : gemini-2.5-flash

Dernière version compatible (version bêta) : gemini-2.5-flash-preview-09-2025

2690 Jetons 1 1 jeton de texte d'entrée = 1 jeton
1 jeton d'image d'entrée = 1 jeton
1 jeton de vidéo d'entrée = 1 jeton
1 jeton audio d'entrée = 4 jetons
1 jeton de texte de réponse de sortie = 9 jetons
1 jeton de texte de raisonnement de sortie = 9 jetons

Gemini 2.5 Flash-Lite

Dernière version compatible (GA) : gemini-2.5-flash-lite

Dernière version compatible (version bêta) : gemini-2.5-flash-lite-preview-09-2025

8 070 Jetons 1 1 jeton de texte d'entrée = 1 jeton
1 jeton d'image d'entrée = 1 jeton
1 jeton vidéo d'entrée = 1 jeton
1 jeton audio d'entrée = 3 jetons
1 jeton de texte de réponse de sortie = 4 jetons
1 jeton de texte de raisonnement de sortie = 4 jetons

Gemini 2.5 Flash avec l'API Live

Dernière version compatible : gemini-live-2.5-flash

1 620 Jetons 1 1 jeton de texte en entrée = 1 jeton de texte en entrée
1 jeton audio en entrée = 6 jetons de texte en entrée
1 jeton vidéo en entrée = 6 jetons de texte en entrée
1 jeton de mémoire de session en entrée = 1 jeton de texte en entrée
1 jeton de texte en sortie = 4 jetons de texte en entrée
1 jeton audio en sortie = 24 jetons de texte en entrée

Gemini 2.5 Flash avec l'audio natif de l'API Live

Dernière version compatible : gemini-live-2.5-flash-preview-native-audio-09-2025 (preview)

1 620 Jetons 1 1 jeton de texte en entrée = 1 jeton
1 jeton audio en entrée = 6 jetons
1 jeton vidéo en entrée = 6 jetons
1 jeton image en entrée = 6 jetons
1 jeton de mémoire de session en entrée = 1 jeton
1 jeton de texte en sortie = 4 jetons
1 jeton audio en sortie = 24 jetons

Gemini 2.0 Flash

Dernière version compatible : gemini-2.0-flash-001

3 360 Jetons 1 1 jeton de texte en entrée = 1 jeton
1 jeton d'image en entrée = 1 jeton
1 jeton vidéo en entrée = 1 jeton
1 jeton audio en entrée = 7 jetons
1 jeton de texte en sortie = 4 jetons

Gemini 2.0 Flash-Lite

Dernière version compatible : gemini-2.0-flash-lite-001

6 720 Jetons 1 1 jeton de texte en entrée = 1 jeton
1 jeton d'image en entrée = 1 jeton
1 jeton vidéo en entrée = 1 jeton
1 jeton audio en entrée = 1 jeton
1 jeton de texte en sortie = 4 jetons

Aperçu de Veo 3.1

Dernière version compatible : veo-3.1-generate-001 (aperçu)

0,0040 Secondes de vidéo 1 1 seconde de vidéo générée = 1 seconde de vidéo générée
Secondes de vidéo et d'audio 1 1 seconde de sortie vidéo+audio = 2 secondes de sortie vidéo

Aperçu de Veo 3.1 Fast

Dernière version compatible : veo-3.1-fast-generate-001 (aperçu)

0,0080 Secondes de vidéo 1 1 seconde de vidéo générée = 1 seconde de vidéo générée
Secondes de vidéo et d'audio 1 1 seconde de sortie vidéo+audio = 1,45 seconde de sortie vidéo

Veo 3

Dernière version compatible : veo-3.0-generate-001

0,0040 Secondes de vidéo 1 1 seconde de vidéo générée = 1 seconde de vidéo générée
Secondes de vidéo et d'audio 1 1 seconde de sortie vidéo+audio = 2 secondes de sortie vidéo

Veo 3 Fast

Dernière version compatible : veo-3.0-fast-generate-001

0,0080 Secondes de vidéo 1 1 seconde de vidéo générée = 1 seconde de vidéo générée
Secondes de vidéo et d'audio 1 1 seconde de sortie vidéo+audio = 1,45 seconde de sortie vidéo

Générer avec Imagen 4 Ultra

imagen-4.0-ultra-generate-001

0,015 Images 1 Seules les images de sortie sont comptabilisées dans votre quota de débit provisionné.

Générer avec Imagen 4

imagen-4.0-generate-001

0,02 Images 1 Seules les images de sortie sont comptabilisées dans votre quota de débit provisionné.

Génération rapide Imagen 4

imagen-4.0-fast-generate-001

0,04 Images 1 Seules les images de sortie sont comptabilisées dans votre quota de débit provisionné.

Imagen 3 Generate 002

imagen-3.0-generate-002

0,02 Images 1 Seules les images de sortie sont comptabilisées dans votre quota de débit provisionné.

Imagen 3 Generate 001

imagen-3.0-generate-001

0,025 Images 1 Seules les images de sortie sont comptabilisées dans votre quota de débit provisionné.
Imagen 3 Fast 0,05 Images 1 Seules les images de sortie sont comptabilisées dans votre quota de débit provisionné.

Pour en savoir plus sur les capacités d'un modèle et les limites d'entrée ou de sortie, consultez la documentation du modèle.

Vous pouvez passer à de nouveaux modèles dès qu'ils sont disponibles. Pour en savoir plus sur la disponibilité et les dates d'arrêt des modèles, consultez Modèles Google.

Pour en savoir plus sur les emplacements compatibles, consultez la section Emplacements disponibles.

Modèles de partenaires

Le tableau suivant indique le débit, les incréments d'achat et les taux d'utilisation pour les modèles partenaires compatibles avec le débit provisionné. Les modèles Claude sont mesurés en jetons par seconde, c'est-à-dire le nombre total de jetons d'entrée et de sortie pour l'ensemble des requêtes, par seconde.

Modèle Débit par GSU (jetons/seconde) Achat minimal de GSU Incrément d'achat de GSU Taux d'utilisation
Claude 4.5 Opus d'Anthropic 210 35 1 1 jeton d'entrée = 1 jeton
1 jeton de sortie = 5 jetons
1 jeton d'écriture dans le cache de 5 min = 1,25 jeton
1 jeton d'écriture dans le cache de 1 h = 2 jetons
1 jeton de succès de cache (hit) = 0,1 jeton
Claude Sonnet 4.5 d'Anthropic 350 25 1 Moins de 200 000 jetons d'entrée :
1 jeton d'entrée = 1 jeton
1 jeton de sortie = 5 jetons
1 jeton d'écriture dans le cache (5 min) = 1,25 jeton
1 jeton d'écriture dans le cache (1 h) = 2 jetons
1 jeton de correspondance dans le cache = 0,1 jeton

200 000 jetons d'entrée ou plus :
1 jeton d'entrée = 2 jetons
1 jeton de sortie = 7,5 jetons
1 jeton d&#39succès de cache (hit)écriture dans le cache (5 min) = 2,5 jetons
1 jeton d'écriture dans le cache (1 h) = 4 jetons
1 jeton de correspondance dans le cache = 0,2 jeton
Claude 4.1 Opus d'Anthropic 70 35 1 1 jeton d'entrée = 1 jeton
1 jeton de sortie = 5 jetons
1 jeton d'écriture dans le cache (5 min) = 1,25 jeton
1 jeton d'écriture dans le cache (1 h) = 2 jetons
1 jeton de succès de cache (hit) = 0,1 jeton
Claude Haiku 4.5 d'Anthropic 1 050 8 1 Moins de 200 000 jetons d'entrée :
1 jeton d'entrée = 1 jeton
1 jeton de sortie = 5 jetons
1 jeton d'écriture dans le cache (5 min) = 1,25 jeton
1 jeton d'écriture dans le cache (1 h) = 2 jetons
1 jeton de succès de cache (hit) = 0,1 jeton
Claude Opus 4 d'Anthropic 70 35 1 1 jeton d'entrée = 1 jeton
1 jeton de sortie = 5 jetons
1 jeton d'écriture dans le cache de 5 min = 1,25 jeton
1 jeton d'écriture dans le cache de 1 h = 2 jetons
1 jeton de succès de cache (hit) = 0,1 jeton
Claude Sonnet 4 d'Anthropic 350 25 1 Moins de 200 000 jetons d'entrée :
1 jeton d'entrée = 1 jeton
1 jeton de sortie = 5 jetons
1 jeton d'écriture dans le cache (5 min) = 1,25 jeton
1 jeton d'écriture dans le cache (1 h) = 2 jetons
1 jeton de correspondance dans le cache = 0,1 jeton

200 000 jetons d'entrée ou plus :
1 jeton d'entrée = 2 jetons
1 jeton de sortie = 7,5 jetons
1 jeton d&#39succès de cache (hit)écriture dans le cache (5 min) = 2,5 jetons
1 jeton d'écriture dans le cache (1 h) = 4 jetons
1 jeton de correspondance dans le cache = 0,2 jeton
Claude 3.7 Sonnet d'Anthropic (obsolète) 350 25 1 1 jeton d'entrée = 1 jeton
1 jeton de sortie = 5 jetons
1 jeton d'écriture dans le cache (5 min) = 1,25 jeton
1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3.5 Sonnet v2 d'Anthropic (obsolète) 350 25 1 1 jeton d'entrée = 1 jeton
1 jeton de sortie = 5 jetons
1 jeton d'écriture dans le cache (5 min) = 1,25 jeton
1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3.5 Haiku d'Anthropic 2 000 10 1 1 jeton d'entrée = 1 jeton
1 jeton de sortie = 5 jetons
1 jeton d'écriture dans le cache de 5 min = 1,25 jeton
1 jeton d'écriture dans le cache de 1 h = 2 jetons
1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3 Opus d'Anthropic 70 35 1 1 jeton d'entrée = 1 jeton
1 jeton de sortie = 5 jetons
1 jeton d'écriture dans le cache (5 min) = 1,25 jeton
1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3 Haiku d'Anthropic 4 200 5 1 1 jeton d'entrée = 1 jeton
1 jeton de sortie = 5 jetons
1 jeton d'écriture dans le cache de 5 min = 1,25 jeton
1 jeton d'écriture dans le cache de 1 h = 2 jetons
1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3.5 Sonnet d'Anthropic (obsolète) 350 25 1 1 jeton d'entrée = 1 jeton
1 jeton de sortie = 5 jetons
1 jeton d'écriture dans le cache (5 min) = 1,25 jeton
1 jeton de succès de cache (hit) = 0,1 jeton

Pour en savoir plus sur les régions disponibles, consultez Disponibilité des régions pour Anthropic Claude. Pour commander un débit provisionné pour les modèles Anthropic, contactez votre responsable de compteGoogle Cloud .

Modèles ouverts

Le tableau suivant indique le débit, les incréments d'achat et les taux d'utilisation pour les modèles ouverts compatibles avec le débit provisionné.

Modèle Débit par GSU (jetons/seconde) Achat minimal de GSU Incrément d'achat de GSU Taux d'utilisation

DeepSeek-OCR

Dernière version compatible : deepseek-ocr-maas

3 360 1 1 1 jeton de texte en entrée = 1 jeton
1 jeton d'image en entrée = 1 jeton
1 jeton de texte en sortie = 4 jetons

Raisonnement Kimi K2

Dernière version compatible : kimi-k2-thinking-maas

1 680 1 1 1 jeton de texte d'entrée = 1 jeton
1 jeton de texte de sortie = 4 jetons

Llama 3.3 70B

Dernière version compatible : llama-3.3-70b-instruct-maas

1 400 1 1 1 jeton de texte en entrée = 1 jeton
1 jeton de texte en sortie = 1 jeton

Llama 4 Maverick 17B-128E

Dernière version compatible : llama-4-maverick-17b-128e-instruct-maas

2 800 1 1 1 jeton de texte en entrée = 1 jeton
1 jeton d'image en entrée = 1 jeton
1 jeton de texte en sortie = 4 jetons

Llama 4 Scout 17B-16E

Dernière version compatible : llama-4-scout-17b-16e-instruct-maas

4 035 1 1 1 jeton de texte en entrée = 1 jeton
1 jeton d'image en entrée = 1 jeton
1 jeton de texte en sortie = 3 jetons

MiniMax M2

Dernière version compatible : minimax-m2-maas

3 360 1 1 1 jeton de texte d'entrée = 1 jeton
1 jeton de texte de sortie = 4 jetons

OpenAI gpt-oss 120B

Dernière version compatible : gpt-oss-120b-maas

11 205 1 1 1 jeton de texte d'entrée = 1 jeton
1 jeton de texte de sortie = 4 jetons

OpenAI gpt-oss 20B

Dernière version compatible : gpt-oss-20b-maas

14 405 1 1 1 jeton de texte d'entrée = 1 jeton
1 jeton de texte de sortie = 4 jetons

Qwen3 235B

Dernière version compatible : qwen3-235b-a22b-instruct-2507-maas

4 035 1 1 1 jeton de texte d'entrée = 1 jeton
1 jeton de texte de sortie = 4 jetons

Qwen3 Coder

Dernière version compatible : qwen3-coder-480b-a35b-instruct-maas

1 010 1 1 1 jeton de texte d'entrée = 1 jeton
1 jeton de texte de sortie = 4 jetons

Qwen3-Next-80B Instruct

Dernière version compatible : qwen3-next-80b-a3b-instruct-maas

6 725 1 1 1 jeton de texte d'entrée = 1 jeton
1 jeton de texte de sortie = 8 jetons

Qwen3-Next-80B Thinking

Dernière version compatible : qwen3-next-80b-a3b-thinking-maas

6 725 1 1 1 jeton de texte d'entrée = 1 jeton
1 jeton de texte de sortie = 8 jetons

Fonctionnalités disponibles pour les modèles Google et ouverts

Le tableau suivant répertorie les fonctionnalités disponibles avec le débit provisionné pour les modèles Google et les modèles ouverts :

Capacité Modèles Google Modèles ouverts (aperçu)
Commander via la console Google Cloud Oui Oui
Compatibilité avec les points de terminaison mondiaux Consultez la section Compatibilité des modèles de points de terminaison globaux. Consultez la section Compatibilité des modèles de points de terminaison globaux.
Compatible avec les modèles affinés supervisés Oui Non
Compatibilité avec l'utilisation de clés API Oui Non
Intégration à la mise en cache du contexte implicite Oui Non applicable
Intégration à la mise en cache de contexte explicite Oui Non applicable
Traitement ML Disponible dans des régions spécifiques. Pour en savoir plus, consultez Débit provisionné dans une seule zone. Non applicable
Conditions de commande disponibles 1 semaine, 1 mois, 3 mois et 1 an 1 mois, 3 mois et 1 an
Modifier une commande depuis la console Oui Non
États des commandes : en attente d'examen, approuvée, active, expirée Oui Oui
Les dépassements sont reportés par défaut au paiement à l'usage. Oui Oui
Contrôle des en-têtes d'API : utilisez "dedicated" pour n'utiliser que le débit provisionné ou "shared" pour n'utiliser que le paiement à l'usage. Oui Oui
Surveillance : métriques, tableaux de bord et alertes Oui Oui

Compatibilité avec les modèles de points de terminaison globaux

Le débit provisionné est compatible avec le point de terminaison global pour les modèles Google et les modèles ouverts.

Le trafic qui dépasse le quota de débit provisionné utilise par défaut le point de terminaison mondial.

Pour attribuer un débit provisionné au point de terminaison mondial d'un modèle, sélectionnez global comme région lorsque vous passez une commande de débit provisionné.

Modèles Google compatibles avec le point de terminaison global

Le tableau suivant liste les modèles Google pour lesquels le débit provisionné est compatible avec le point de terminaison global :

Modèle Dernière version du modèle compatible
Gemini 3 Pro (preview) gemini-3-pro-preview
Image Gemini 3 Pro (preview) gemini-3-pro-image-preview
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash Image gemini-2.5-flash-image
Gemini 2.0 Flash
  • gemini-2.5-flash-preview-09-2025  (bêta)
  • gemini-2.5-flash  (GA)
Gemini 2.5 Flash-Lite
  • gemini-2.5-flash-lite-preview-09-2025  (bêta)
  • gemini-2.5-flash-lite  (GA)
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

Modèles ouverts avec compatibilité des points de terminaison mondiaux

Le tableau suivant liste les modèles ouverts pour lesquels le débit provisionné est compatible avec le point de terminaison global :

Modèle Dernière version du modèle compatible
DeepSeek-OCR deepseek-ocr-maas
Kimi K2 Thinking kimi-k2-thinking-maas
MiniMax M2 minimax-m2-maas
OpenAI gpt-oss 120B gpt-oss-120b-maas
Qwen3-Next-80B Instruct qwen3-next-80b-a3b-instruct-maas
Qwen3-Next-80B Thinking qwen3-next-80b-a3b-thinking-maas

Prise en charge des modèles affinés de manière supervisée

Les éléments suivants sont compatibles avec les modèles Google qui acceptent l'affinage supervisé :

  • Le débit provisionné peut être appliqué aux modèles de base et aux versions affinées supervisées de ces modèles de base.

  • Les points de terminaison des modèles affinés supervisés et leur modèle de base correspondant sont comptabilisés dans le même quota de débit provisionné.

    Par exemple, le débit provisionné acheté pour gemini-2.0-flash-lite-001 pour un projet spécifique donne la priorité aux requêtes effectuées à partir de versions supervisées et affinées de gemini-2.0-flash-lite-001 créées dans ce projet. Utilisez l'en-tête approprié pour contrôler le comportement du trafic.

Étapes suivantes