Gemini Enterprise Agent Platform est compatible avec une sélection de modèles ouverts en tant que modèles gérés. Ces modèles ouverts peuvent être utilisés avec Gemini Enterprise Agent Platform sous forme de modèle en tant que service (MaaS) et sont proposés en tant qu'API gérée. Lorsque vous utilisez un modèle ouvert géré, vous continuez à envoyer vos requêtes aux points de terminaison Gemini Enterprise Agent Platform. Les modèles ouverts gérés sont sans serveur. Vous n'avez donc pas besoin de provisionner ni de gérer l'infrastructure.
Vous pouvez découvrir des modèles ouverts gérés sur la plate-forme Model Garden, Vous pouvez également déployer des modèles à l'aide de Model Garden. Pour en savoir plus, consultez la page Découvrir des modèles d'IA dans Model Garden.
Avant de pouvoir utiliser des modèles ouverts, vous devez accorder aux utilisateurs l'accès aux modèles ouverts.
Modèles ouverts
Les modèles ouverts suivants sont proposés en tant qu'API gérées sur Gemini Enterprise Agent Platform Model Garden (MaaS) :
| Nom du modèle | Modalité | Description | Guide de démarrage rapide |
|---|---|---|---|
| DeepSeek-OCR | Langage, vision | Modèle complet de reconnaissance optique des caractères (OCR) qui analyse et comprend les documents complexes. Il excelle dans les tâches OCR difficiles. | fiche de modèle |
| DeepSeek R1 (0528) | Langue | Version du modèle DeepSeek R1 de DeepSeek. | fiche de modèle |
| DeepSeek-V3.1 | Langue | Modèle hybride de DeepSeek qui accepte à la fois le mode de réflexion et le mode sans réflexion. | fiche de modèle |
| DeepSeek-V3.2 | Langue | Modèle de DeepSeek qui harmonise une efficacité de calcul élevée avec des performances de raisonnement et d'agent supérieures. | fiche de modèle |
| Gemma 4 26B A4B IT | Langue | Famille de modèles ouverts de Google conçus par Google DeepMind. | fiche de modèle |
| GLM 4.7 | Langue, code | Modèle GLM conçu pour le codage de base ou le vibe coding, l'utilisation d'outils et le raisonnement complexe. | fiche de modèle |
| GLM 5 | Langue, code | Modèle GLM ciblant l'ingénierie des systèmes complexes et les tâches agentiques à long terme. | fiche de modèle |
| gpt-oss 120B | Langue | Modèle 120B offrant des performances élevées pour les tâches de raisonnement. | fiche de modèle |
| gpt-oss 20B | Langue | Modèle 20B optimisé pour l'efficacité et le déploiement sur du matériel grand public et périphérique. | fiche de modèle |
| Kimi K2 Thinking | Langue | Modèle d'agent de réflexion Open Source qui raisonne étape par étape et utilise des outils pour résoudre des problèmes complexes. | fiche de modèle |
| Llama 3.3 | Langue | Llama 3.3 est un modèle textuel adapté aux instructions de 70 milliards de paramètres qui offre des performances améliorées par rapport à Llama 3.1 70B et à Llama 3.2 90B lorsqu'il est utilisé pour des applications textuelles. De plus, pour certaines applications, Llama 3.3 70B approche les performances de Llama 3.1 405B. | fiche de modèle |
| Llama 4 Maverick 17B-128E | Langue, vision | Le modèle Llama 4 le plus grand et le plus performant, doté de fonctionnalités de codage, de raisonnement et de traitement d'images. Llama 4 Maverick 17B-128E est un modèle multimodal qui utilise l'architecture MoE (Mixture of Experts) et la fusion précoce. | fiche de modèle |
| Llama 4 Scout 17B-16E | Langue, vision | Llama 4 Scout 17B-16E offre des résultats hautes performances pour sa catégorie de taille, surpassant d'autres modèles ouverts et propriétaires sur plusieurs benchmarks. Llama 4 Scout 17B-16E est un modèle multimodal qui utilise l'architecture MoE (Mixture of Experts) et la fusion précoce. | fiche de modèle |
| MiniMax M2 | Langue, code | Conçu pour les tâches agentiques et liées au code, avec de solides capacités de planification et d'exécution de tâches complexes d'appel d'outils. | fiche de modèle |
| Qwen3 235B | Langue | Modèle à pondération ouverte avec une capacité de "réflexion hybride" permettant de basculer entre un raisonnement méthodique et une conversation rapide. | fiche de modèle |
| Qwen3 Coder | Langue, code | Modèle à pondération ouverte développé pour les tâches avancées de développement de logiciels. | fiche de modèle |
| Qwen3-Next-80B Instruct | Langue, code | Modèle de la famille de modèles Qwen3-Next, spécialisé dans le suivi de commandes spécifiques. | fiche de modèle |
| Qwen3-Next-80B Thinking | Langue, code | Modèle de la famille de modèles Qwen3-Next, spécialisé dans la résolution de problèmes complexes et le raisonnement approfondi. | fiche de modèle |
Les modèles d'embedding ouverts suivants sont proposés en tant qu'API gérées sur Gemini Enterprise Agent Platform Model Garden (MaaS) :
| Nom du modèle | Description | Dimensions de sortie | Longueur maximale de séquence | Langues de texte compatibles | Guide de démarrage rapide |
|---|---|---|---|---|---|
| multilingual-e5-small | Fait partie de la famille de modèles d'embedding textuel E5. La petite variante contient 12 couches. | Jusqu'à 384 | 512 jetons | Langues disponibles | fiche de modèle |
| multilingual-e5-large | Fait partie de la famille de modèles d'embedding textuel E5. La grande variante contient 24 couches. | Jusqu'à 1 024 | 512 jetons | Langues disponibles | fiche de modèle |
Conformité réglementaire des modèles ouverts
Les certifications pour l'IA générative sur Gemini Enterprise Agent Platform continuent de s'appliquer lorsque des modèles ouverts sont utilisés en tant qu'API gérée à l'aide de Gemini Enterprise Agent Platform. Si vous avez besoin d'informations sur les modèles eux-mêmes, vous pouvez consulter la fiche de modèle correspondante ou contacter l'éditeur du modèle concerné.
Vos données sont stockées au repos dans la région ou la zone multirégionale sélectionnée pour les modèles ouverts sur Gemini Enterprise Agent Platform, mais la régionalisation du traitement des données peut varier. Pour obtenir une liste détaillée des engagements de traitement des données des modèles ouverts, consultez Résidence des données pour les modèles ouverts.
Les requêtes client et les réponses du modèle ne sont pas partagées avec des tiers lorsque vous utilisez l'API Gemini Enterprise, y compris les modèles ouverts. Google ne traite les données client que conformément aux instructions du client, comme décrit plus en détail dans notre Avenant relatif au traitement des données dans le cloud.
mise en cache du contexte
La mise en cache du contexte permet de réduire le coût et la latence des requêtes adressées aux modèles ouverts qui contiennent du contenu répété. Cette fonctionnalité n'est activée que lorsque vous utilisez le trafic en paiement à l'usage et n'est pas compatible avec d'autres types de trafic, tels que le débit provisionné et le traitement par lot.Le type de mise en cache compatible est la mise en cache implicite, qui est une mise en cache automatique activée par défaut dans tous les Google Cloud projets et qui offre une remise de 90 % sur les jetons mis en cache par rapport aux jetons d'entrée standards lorsque des résultats de cache sont trouvés. Avec ce type de mise en cache, vous ne définissez pas et n'appelez pas explicitement les caches. Au lieu de cela, notre backend extrait les données de ces caches une fois qu'un contexte répété est détecté.
Modèles compatibles
- qwen3-coder-480b-a35b-instruct-maas
- kimi-k2-thinking-maas
- minimax-m2-maas
- gpt-oss-20b-maas
- deepseek-v3.1-maas
- deepseek-v3.2-maas
- gemma-4-26b-a4b-it-maas
Le cachedContentTokenCount
champ des métadonnées de votre réponse indique le nombre de jetons dans la partie mise en cache
de votre entrée. Les requêtes de mise en cache doivent contenir au moins 4 096 jetons (ce minimum est susceptible d'être modifié pendant l'aperçu).
Lorsque cette fonctionnalité est activée, les économies de coûts liées succès de cache (hit) implicites vous sont automatiquement transmises. Les résultats de cache ne sont pas garantis et dépendent des requêtes envoyées et d'autres facteurs. Pour augmenter les chances d'obtenir un succès de cache (hit) implicite, procédez comme suit :
- Placez les contenus volumineux et courants au début de votre requête.
- Envoyez des requêtes avec un préfixe similaire dans un court laps de temps.
Étape suivante
- Avant d'utiliser des modèles ouverts, accordez aux utilisateurs l'accès aux modèles ouverts.
- Découvrez comment appeler des API de modèles ouverts.