Modèles Google

Modèles Gemini à la une

3.1 Pro

Conçu pour une compréhension multimodale complète et la résolution de problèmes complexes

Fenêtre de contexte d'un million de jetons
Amélioration des performances pour les workflows agentiques et les tâches de codage autonomes
Conçu pour les tâches multimodales complexes et le raisonnement avancé

3 Flash

Notre modèle agentique et de codage le plus puissant, avec les meilleures capacités de compréhension multimodale

Le dernier modèle de notre gamme Gemini
Fonctionnalités multimodales et de codage améliorées
Inclut notre nouvelle option de niveau de réflexion "Presque zéro"

3.1 Flash-Lite

Notre modèle le plus économique, optimisé pour les cas d'utilisation à faible latence pour le trafic LLM à volume élevé et sensible aux coûts

Optimisé pour une faible latence et un trafic à volume élevé
Amélioration de la qualité des réponses et du respect des instructions
Amélioration de la qualité de l'entrée audio pour les tâches de reconnaissance vocale automatique

2.5 Flash Image

Boostez votre workflow créatif grâce à la génération d'images et à la retouche conversationnelle

Générer des images de haute qualité
Capable de retouche conversationnelle au tour par tour
Équilibre entre rapidité et prix identique à celui de Gemini 2.5 Flash

Modèles Gemini en disponibilité générale

diamond Gemini 2.5 Pro Notre modèle très performant pour le raisonnement complexe et le codage. Il dispose de capacités de réflexion adaptative pour résoudre des problèmes complexes d'agentivité et de multimodalité avec un contexte d'un million de jetons.

spark Gemini 2.5 Flash Rapide comme l'éclair et très performant. Offre un équilibre entre intelligence et latence avec des budgets de réflexion contrôlables pour des applications polyvalentes.

🍌 Gemini 2.5 Flash Image Transformez vos idées en assets prêts pour la production. Il propose la retouche conversationnelle, la fusion de plusieurs images et la cohérence des personnages pour les workflows créatifs avancés.

performance_auto Gemini 2.5 Flash-Lite Conçu pour une évolutivité massive. Équilibre le coût et les performances pour les tâches à haut débit, optimisé pour l'efficacité sans sacrifier la compréhension multimodale.

audio_spark Gemini 2.5 Flash avec l'API Gemini Live Conçu pour le streaming bidirectionnel en temps réel. Il offre des fonctionnalités audio et de dialogue affectif intégrées à faible latence pour des interactions conversationnelles naturelles.

spark Gemini 2.0 Flash Performances multimodales pour les développeurs ayant besoin d'un modèle économique pour les tâches à usage général.

performance_auto Gemini 2.0 Flash-Lite Rationalisé et ultra-efficace pour les tâches simples et fréquentes où la rapidité et le prix sont prioritaires.

Aperçu des modèles Gemini

preview Gemini 3.1 Flash-Lite Notre modèle le plus économique, optimisé pour les cas d'utilisation à faible latence pour le trafic LLM à fort volume et sensible aux coûts.

preview Gemini 3.1 Flash Image Transformez vos idées en assets prêts à être diffusés. Il propose la retouche conversationnelle, la fusion de plusieurs images et la cohérence des personnages pour les workflows créatifs avancés.

preview Gemini 3.1 Pro Notre dernier modèle axé sur le raisonnement, optimisé pour les workflows agentiques complexes et le codage. Il est doté d'une pensée adaptative, d'une fenêtre de contexte de 1 million de jetons et d'un ancrage intégré pour résoudre des problèmes multimodaux complexes.

preview Gemini 3 Flash Notre meilleur modèle pour la compréhension multimodale complexe, conçu pour résoudre les problèmes agentifs les plus difficiles grâce à de solides capacités de codage et de raisonnement de pointe.

preview Gemini 3 Pro Image Génération d'images haute fidélité avec composition améliorée par le raisonnement. Il permet de rendre le texte lisible, d'effectuer des modifications multitours complexes et d'assurer la cohérence des personnages à l'aide d'un maximum de 14 entrées de référence.

Modèles Gemma

Gemma 4 Modèle ouvert adapté aux tâches telles que la génération de texte, le codage et le raisonnement, et prenant en charge les entrées multimodales (texte et image pour toutes les variantes, et audio en plus pour les variantes E2B et E4B).

Gemma 3n Modèle ouvert conçu pour une exécution efficace sur les appareils à faibles ressources, prenant en charge les entrées multimodales (texte, image, vidéo et audio) et les sorties de texte dans plus de 140 langues.

Gemma 3 Modèle ouvert avec entrée de texte et d'image, compatible avec plus de 140 langues et avec une fenêtre contextuelle de 128 K.

Gemma 2 Modèle ouvert permettant la génération, la synthèse et l'extraction de texte.

Gemma Modèle ouvert léger et de petite taille compatible avec la génération, la synthèse et l'extraction de texte.

ShieldGemma 2 Modèles ajustés aux instructions pour évaluer la sécurité du texte et des images par rapport aux règles définies.

PaliGemma Un modèle open source de vision et de langage combinant SigLIP et Gemma.

CodeGemma Un modèle ouvert puissant et léger pour les tâches de codage, y compris la complétion, la génération et la compréhension de code.

TxGemma Modèle qui génère des prédictions, des classifications ou du texte en fonction de données liées à la thérapie, pour créer des modèles d'IA avec moins de données et de puissance de calcul.

MedGemma Collection de variantes de Gemma 3 entraînées pour comprendre les textes et les images médicaux.

MedSigLIP Variante de SigLIP entraînée pour encoder des images et du texte médicaux dans un espace d'embedding commun.

T5Gemma Une famille de modèles de recherche d'encodeur-décodeur légers.

Modèles d'embeddings

width_normal Représentations vectorielles continues pour le texte Convertit les données textuelles en représentations vectorielles pour la recherche sémantique, la classification et le clustering.

width_normal Embeddings multimodaux Génère des vecteurs à partir d'images, pour des tâches telles que la classification et la recherche d'images.

Modèles Imagen

photo_spark Imagen 4 pour la génération Utilisez des requêtes textuelles pour générer des images inédites de meilleure qualité que celles de nos modèles de génération d'images précédents.

photo_spark Imagen 4 pour la génération rapide Utilisez des requêtes textuelles pour générer des images inédites de meilleure qualité et avec une latence plus faible que celles de nos modèles de génération d'images précédents.

photo_spark Imagen 4 pour la génération Ultra Utilisez des requêtes textuelles pour générer des images inédites de meilleure qualité et avec une meilleure conformité aux requêtes que celles de nos modèles de génération d'images précédents.

photo_spark Imagen 3 pour la génération 002 Utilisez des requêtes textuelles pour générer des images inédites.

photo_spark Imagen 3 pour la génération 001 Utilisez des requêtes textuelles pour générer des images inédites.

photo_spark Imagen 3 pour la génération rapide Utilisez des requêtes textuelles pour générer des images inédites avec une latence plus faible que celles de nos autres modèles de génération d'images.

image_edit_auto Imagen 3 pour l'édition et la personnalisation Modifie des images existantes ou en génère de nouvelles en fonction des requêtes textuelles et du contexte fourni.

photo_spark Essai virtuel Génère des images de personnes portant des vêtements.

Modèles Veo

movie Veo 2 Generate Génère des vidéos à partir de requêtes textuelles et d'images.

movie Veo 3 Generate Génère des vidéos de haute qualité à partir de requêtes textuelles et d'images.

movie Veo 3 Fast Génère des vidéos à partir de requêtes textuelles et d'images de haute qualité et à faible latence.

movie Veo 3.1 Generate Génère des vidéos de haute qualité à partir de prompts textuels et d'images.

movie Veo 3.1 Fast Génère des vidéos à partir de requêtes textuelles et d'images de haute qualité avec une faible latence.

Prévisualiser les modèles Veo

movie Aperçu de Veo 3.1 Lite Générez des vidéos à partir de requêtes textuelles et d'images de haute qualité à faible coût.

movie Veo 3 Generate preview Génère des vidéos de haute qualité à partir de requêtes textuelles et d'images.

movie Aperçu de Veo 3 Fast Génère des vidéos à partir de requêtes textuelles et d'images de haute qualité et à faible latence.

movie Veo 3.1 Générer un aperçu Génère des vidéos de haute qualité à partir de requêtes textuelles et d'images.

movie Aperçu de Veo 3.1 Fast Génère des vidéos à partir de requêtes textuelles et d'images de haute qualité avec une faible latence.

movie Aperçu de Veo 2 Génère des vidéos à partir de requêtes textuelles et d'images, et prend en charge l'inpainting et l'outpainting.

Modèles Veo expérimentaux

movie Veo 2 (expérimental) Modèle expérimental avec des fonctionnalités en test.

Modèles Lyria

music_note_spark Lyria 3 Pro (Aperçu) Génère des morceaux de musique complets à partir de requêtes textuelles et d'images.

music_note_spark Lyria 3 Clip (Aperçu) Génère des extraits audio de 30 secondes à partir de requêtes textuelles et d'images.

audio_spark Lyria 2 Génère de la musique à partir de requêtes textuelles.

Modèles MedLM

medical_information MedLM-medium Modèle conforme à la loi HIPAA pour répondre à des questions médicales et résumer des documents de santé.

clinical_notes medlm-large-large Modèle conforme à la loi HIPAA pour répondre à des questions médicales et résumer des documents de santé.

Langues acceptées

Gemini

Tous les modèles Gemini peuvent comprendre et répondre dans les langues suivantes :

Afrikaans (af), Albanais (sq), Amharique (am), Arabe (ar), Arménien (hy), Assamais (as), Azerbaïdjanais (az), Basque (eu), Biélorusse (be), Bengali (bn), Bosnien (bs), Bulgare (bg), Catalan (ca), Cebuano (ceb), Chinois (simplifié et traditionnel) (zh), Corse (co), Croate (hr), Tchèque (cs), Danois (da), Divehi (dv), Néerlandais (nl), Anglais (en), Espéranto (eo), Estonien (et), Filipino (Tagalog) (fil), Finnois (fi), Français (fr), Frison (fy), Galicien (gl), Géorgien (ka), Allemand (de), Grec (el), Gourmandji (gu), Créole haïtien (ht), Haoussa (ha), Hawaïen (haw), Hébreu (iw), Hindi (hi), Hmong (hmn), Hongrois (hu), Islandais (is), Igbo (ig), Indonésien (id), Irlandais (ga), Italien (it), Japonais (ja), Javanais (jv), Kannada (kn), Kazakh (kk), Khmer (km), Coréen (ko), Krio (kri), Kurde (ku), Kirghize (ky), Laotien (lo), Latin (la), Letton (lv), Lituanien (lt), Luxembourgeois (lb), Macédonien (mk), Malgache (mg), Malais (ms), Malayalam (ml), Maltais (mt), Maori (mi), Marathi (mr), Meiteilon (Manipuri) (mni-Mtei), Mongol (mn), Birman (my), Népalais (ne), Norvégien (no), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Pachtou (ps), Persan (fa), Polonais (pl), Portugais (pt), Pendjabi (pa), Roumain (ro), Russe (ru), Samoan (sm), Gaélique écossais (gd), Serbe (sr), Sesotho (st), Shona (sn), Sindhi (sd), Cingalais (si), Slovaque (sk), Slovène (sl), Somali (so), Espagnol (es), Soundanais (su), Swahili (sw), Suédois (sv), Tadjik (tg), Tamoul (ta), Télougou (te), Thaï (th), Turc (tr), Ukrainien (uk), Ourdou (ur), Ouïghour (ug), Ouzbek (uz), Vietnamien (vi), Gallois (cy), Xhosa (xh), Yiddish (yi), Yoruba (yo), et Zoulou (zu).

Gemma

Gemma et Gemma 2 ne sont disponibles qu'en anglais (en). Gemma 3 et Gemma 3n sont disponibles dans plus de 140 langues.

Embeddings

Les modèles d'embeddings textuels multilingues sont compatibles avec les langues suivantes :

Afrikaans (af), Albanais (sq), Amharique (am), Arabe (ar), Arménien (hy), Azerbaïdjanais (az), Basque (eu), Biélorusse (be), Bengali (bn), Bulgare (bg), Catalan (ca), Cebuano (ceb), Chinois (simplifié et traditionnel) (zh), Corse (co), Tchèque (cs), Danois (da), Néerlandais (nl), Anglais (en), Espéranto (eo), Estonien (et), Filipino (Tagalog) (fil), Finnois (fi), Français (fr), Frison (fy), Galicien (gl), Géorgien (ka), Allemand (de), Grec (el), Goudjarati (gu), Créole haïtien (ht), Haoussa (ha), Hawaïen (haw), Hébreu (iw), Hindi (hi), Hmong (hmn), Hongrois (hu), Islandais (is), Igbo (ig), Indonésien (id), Irlandais (ga), Italien (it), Japonais (ja), Javanais (jv), Kannada (kn), Kazakh (kk), Khmer (km), Coréen (ko), Kurde (ku), Kirghize (ky), Laotien (lo), Latin (la), Letton (lv), Lituanien (lt), Luxembourgeois (lb), Macédonien (mk), Malgache (mg), Malais (ms), Malayalam (ml), Maltais (mt), Maori (mi), Marathi (mr), Mongol (mn), Birman (my), Népalais (ne), Nyanja (Chichewa) (ny), Norvégien (no), Pachtou (ps), Persan (fa), Polonais (pl), Portugais (pt), Pendjabi (pa), Roumain (ro), Russe (ru), Samoan (sm), Gaélique écossais (gd), Serbe (sr), Sotho (st), Shona (sn), Sindhi (sd), Cingalais (si), Slovaque (sk), Slovène (sl), Somali (so), Espagnol (es), Soundanais (su), Swahili (sw), Suédois (sv), Tadjik (tg), Tamil (ta), Télougou (te), Thaï (th), Turc (tr), Ukrainien (uk), Ourdou (ur), Ouzbek (uz), Vietnamien (vi), Gallois (cy), Xhosa (xh), Yiddish (hmn), Yoruba (yo), et Zoulou (zu).yi

Imagen 3

Imagen 3 est compatible avec les langues suivantes :

Anglais (en), chinois (simplifié et traditionnel) (zh), hindi (hi), japonais (ja), coréen (ko), portugais (pt) et espagnol (es).

MedLM

Le modèle MedLM est compatible avec l'anglais (en).

Explorer tous les modèles dans Model Garden

Model Garden est une plate-forme qui vous permet de découvrir, de tester, de personnaliser et de déployer des modèles de Google, puis de sélectionner des modèles et des éléments OSS. Pour explorer les modèles d'IA générative et les API disponibles sur Vertex AI, accédez à Model Garden dans la console Google Cloud .

Accéder à la page "Jardin de modèles"

Pour en savoir plus sur Model Garden, y compris sur les modèles et fonctionnalités disponibles, consultez la page Explorer les modèles d'IA dans Model Garden.

Versions de modèle

Pour afficher toutes les versions de modèle, y compris les modèles anciens et abandonnés, consultez Versions et cycle de vie des modèles.

Étapes suivantes

Suivez un tutoriel de démarrage rapide sur Vertex AI Studio ou sur l'API Vertex AI.
Découvrez les modèles pré-entraînés dans Model Garden.
Découvrez comment contrôler l'accès à des modèles spécifiques dans Model Garden à l'aide d'une règle d'administration Model Garden.
En savoir plus sur les tarifs.