Modèles ouverts Vertex AI pour le MaaS

Vertex AI est compatible avec une sélection de modèles ouverts en tant que modèles gérés. Ces modèles ouverts peuvent être utilisés avec Vertex AI sous forme de modèle en tant que service (MaaS) et sont proposés en tant qu'API gérée. Lorsque vous utilisez un modèle ouvert géré, vous continuez à envoyer vos requêtes aux points de terminaison Vertex AI. Les modèles ouverts gérés sont sans serveur. Vous n'avez donc pas besoin de provisionner ni de gérer l'infrastructure.

Vous pouvez découvrir des modèles ouverts gérés sur la plate-forme Model Garden. et également y déployer des modèles. Pour en savoir plus, consultez Explorer les modèles d'IA dans Model Garden.

Avant de pouvoir utiliser des modèles ouverts, vous devez accorder aux utilisateurs l'accès aux modèles ouverts.

Modèles ouverts

Les modèles ouverts suivants sont proposés sous forme d'API gérées dans Vertex AI Model Garden (MaaS) :

Nom du modèle Modalité Description Guide de démarrage rapide
DeepSeek-OCR Langage, vision Un modèle complet de reconnaissance optique des caractères (OCR) qui analyse et comprend les documents complexes. Il excelle dans les tâches OCR difficiles. fiche de modèle
DeepSeek R1 (0528) Langue Dernière version du modèle DeepSeek R1 de DeepSeek. fiche de modèle
DeepSeek-V3.1 Langue Modèle hybride de DeepSeek qui accepte à la fois le mode de réflexion et le mode sans réflexion. fiche de modèle
DeepSeek-V3.2 Langue Modèle DeepSeek qui harmonise une grande efficacité de calcul avec des performances supérieures en termes de raisonnement et d'agent. fiche de modèle
GLM 4.7 Langue, code Modèle GLM conçu pour le codage de base ou vibe coding, l'utilisation d'outils et le raisonnement complexe. fiche de modèle
gpt-oss 120B Langue Un modèle de 120 milliards de paramètres qui offre de hautes performances pour les tâches de raisonnement. fiche de modèle
gpt-oss 20B Langue Un modèle de 20 milliards de paramètres optimisé pour l'efficacité et le déploiement sur du matériel grand public et Edge. fiche de modèle
Kimi K2 Thinking Langue Un modèle d'agent de réflexion Open Source qui raisonne étape par étape et utilise des outils pour résoudre des problèmes complexes. fiche de modèle
Llama 3.3 Langue Llama 3.3 est un modèle textuel de 70 milliards de paramètres adapté aux instructions. Il offre des performances améliorées par rapport à Llama 3.1 70B et à Llama 3.2 90B lorsqu'il est utilisé pour des applications textuelles. De plus, pour certaines applications, Llama 3.3 70B approche les performances de Llama 3.1 405B. fiche de modèle
Llama 4 Maverick 17B-128E Langage, vision Modèle Llama 4 le plus vaste et le plus performant, doté de fonctionnalités de codage, de raisonnement et de traitement d'images. Llama 4 Maverick 17B-128E est un modèle multimodal qui utilise l'architecture MoE (Mixture of Experts) et la fusion précoce. fiche de modèle
Llama 4 Scout 17B-16E Langage, vision Llama 4 Scout 17B-16E offre des résultats de pointe pour sa catégorie de taille, surpassant les générations Llama précédentes ainsi que d'autres modèles ouverts et propriétaires sur plusieurs benchmarks. Llama 4 Scout 17B-16E est un modèle multimodal qui utilise l'architecture MoE (Mixture of Experts) et la fusion précoce. fiche de modèle
MiniMax M2 Langue, code Conçu pour les tâches agentives et liées au code, avec de solides capacités de planification et d'exécution de tâches complexes d'appel d'outils. fiche de modèle
Qwen3 235B Langue Un modèle à poids ouvert doté d'une capacité de "pensée hybride" pour passer d'un raisonnement méthodique à une conversation rapide. fiche de modèle
Qwen3 Coder Langue, code Modèle à poids ouvert développé pour les tâches de développement logiciel avancées. fiche de modèle
Qwen3-Next-80B Instruct Langue, code Modèle de la famille Qwen3-Next, spécialisé dans le suivi de commandes spécifiques. fiche de modèle
Qwen3-Next-80B Thinking Langue, code Modèle de la famille Qwen3-Next, spécialisé dans la résolution de problèmes complexes et le raisonnement approfondi. fiche de modèle

Les modèles d'embedding ouverts suivants sont proposés sous forme d'API gérées dans Vertex AI Model Garden (MaaS) :

Nom du modèle Description Dimensions de sortie Longueur maximale de la séquence Langues de texte compatibles Guide de démarrage rapide
multilingual-e5-small Fait partie de la famille E5 de modèles d'embedding textuel. La petite variante contient 12 couches. Jusqu'à 384 512 jetons Langues disponibles fiche de modèle
multilingual-e5-large Fait partie de la famille E5 de modèles d'embedding textuel. La variante Large contient 24 couches. Jusqu'à 1 024 512 jetons Langues disponibles fiche de modèle

Conformité réglementaire des modèles ouverts

Les certifications pour l'IA générative sur Vertex AI continuent de s'appliquer lorsque des modèles ouverts sont utilisés en tant qu'API gérée avec Vertex AI. Si vous avez besoin d'informations sur les modèles eux-mêmes, vous pouvez en trouver d'autres dans la fiche du modèle concerné ou contacter l'éditeur du modèle.

Vos données sont stockées au repos dans la région ou la multirégion sélectionnée pour les modèles ouverts sur Vertex AI, mais la régionalisation du traitement des données peut varier. Pour obtenir la liste détaillée des engagements de traitement des données des modèles ouverts, consultez Résidence des données pour les modèles ouverts.

Les requêtes des clients et les réponses des modèles ne sont pas partagées avec des tiers lorsque vous utilisez l'API Vertex AI, y compris les modèles ouverts. Google ne traite les données client que selon les instructions du client, comme décrit plus en détail dans notre Avenant relatif au traitement des données dans le cloud.

mise en cache du contexte

La mise en cache du contexte permet de réduire le coût et la latence des requêtes envoyées aux modèles ouverts qui contiennent du contenu répété. Elle n'est activée que lorsque vous utilisez le trafic à l'usage et n'est pas compatible avec d'autres types de trafic, tels que le débit provisionné et le trafic par lot.

Le type de mise en cache compatible est la mise en cache implicite, qui est une mise en cache automatique activée par défaut dans tous les projets Google Cloud . Elle offre une remise de 90 % sur les jetons mis en cache par rapport aux jetons d'entrée standards en cas de succès du cache. Avec ce type de mise en cache, vous ne définissez ni n'appelez explicitement les caches. Au lieu de cela, notre backend extrait des informations de ces caches une fois qu'un contexte répété est détecté.

Modèles compatibles

  • qwen3-coder-480b-a35b-instruct-maas
  • kimi-k2-thinking-maas
  • minimax-m2-maas
  • gpt-oss-20b-maas
  • deepseek-v3.1-maas
  • deepseek-v3.2-maas

Le champ cachedContentTokenCount des métadonnées de votre réponse indique le nombre de jetons dans la partie mise en cache de votre entrée. Les requêtes de mise en cache doivent contenir au moins 4 096 jetons (ce minimum est susceptible d'être modifié pendant l'aperçu).

Lorsque cette option est activée, les économies de coûts liées succès de cache (hit) implicites vous sont automatiquement répercutées. Les accès au cache ne sont pas garantis et dépendent des requêtes envoyées et d'autres facteurs. Pour augmenter les chances d'un accès implicite au cache, essayez les solutions suivantes :

  • Placez les contenus volumineux et courants au début de votre requête.
  • Envoyer des requêtes avec un préfixe similaire en peu de temps.

Étapes suivantes