Modelos do Google

Modelos do Gemini em destaque

Modelos do Gemini disponíveis ao público geral

diamond Gemini 2.5 Pro Nosso modelo de alta capacidade para raciocínio e programação complexos. Apresenta recursos de pensamento adaptável para resolver desafios agênticos e multimodais complexos com um contexto de 1 milhão de tokens.
spark Gemini 2.5 Flash Rápido e altamente capaz. Oferece um equilíbrio de inteligência e latência com orçamentos de pensamento controláveis para aplicações versáteis.
🍌 Criação de imagens do Gemini 2.5 Flash Transforme ideias em recursos prontos para produção. Apresenta edição conversacional, fusão de várias imagens e consistência de caracteres para fluxos de trabalho criativos avançados.
performance_auto Gemini 2.5 Flash-Lite Criado para escala massiva. Equilibra custo e desempenho para tarefas de alta capacidade, otimizado para eficiência sem sacrificar a compreensão multimodal.
audio_spark Gemini 2.5 Flash com a API Gemini Live Projetado para streaming bidirecional em tempo real. Apresenta recursos de áudio e diálogo afetivo integrados de baixa latência para interações conversacionais naturais.
spark Gemini 2.0 Flash Desempenho multimodal para desenvolvedores que precisam de um modelo econômico para tarefas de uso geral.
performance_auto Gemini 2.0 Flash-Lite Simplificado e ultraeficiente para tarefas simples e de alta frequência em que velocidade e preço são a prioridade.

Modelos de pré-lançamento do Gemini

preview Gemini 3.1 Flash-Lite Nosso modelo mais econômico, otimizado para casos de uso de baixa latência para tráfego de LLM de alto volume e sensível a custos.
preview Criação de imagens do Gemini 3.1 Flash Transforme ideias em recursos prontos para produção. Apresenta edição conversacional, fusão de várias imagens e consistência de caracteres para fluxos de trabalho criativos avançados.
preview Gemini 3.1 Pro Nosso modelo mais recente, otimizado para fluxos de trabalho agênticos e programação complexos. Apresenta pensamento adaptável, uma janela de contexto de 1 milhão de tokens e embasamento integrado para resolução de problemas multimodais sofisticados.
preview Gemini 3 Flash Nosso melhor modelo para compreensão multimodal complexa, projetado para resolver os problemas agênticos mais desafiadores com recursos de programação e raciocínio de ponta.
preview Criação de imagens do Gemini 3 Pro Geração de imagens de alta fidelidade com composição aprimorada pelo raciocínio. Oferece suporte à renderização de texto legível, edição complexa de várias etapas e consistência de caracteres usando até 14 entradas de referência.

Modelos Gemma

Gemma 4 Um modelo aberto adequado para tarefas como geração de texto, programação e raciocínio, e que oferece suporte a entrada multimodal (texto e imagem para todas as variantes e, além disso, áudio para as variantes E2B e E4B).
Gemma 3n Um modelo aberto projetado para execução eficiente em dispositivos com poucos recursos, que oferece suporte a entrada multimodal (texto, imagem, vídeo e áudio) e saída de texto em mais de 140 idiomas.
Gemma 3 Um modelo aberto com entrada de texto e imagem, suporte para mais de 140 idiomas e uma janela de contexto de 128 mil.
Gemma 2 Um modelo aberto que oferece suporte à geração, resumo e extração de textos.
Gemma Um modelo aberto pequeno e leve que oferece suporte à geração, resumo e extração de textos.
ShieldGemma 2 Modelos ajustados por instrução para avaliar a segurança de texto e imagem em relação a políticas definidas.
PaliGemma Um modelo aberto de linguagem visual que combina SigLIP e Gemma.
CodeGemma Um modelo aberto poderoso e leve para tarefas de programação, incluindo conclusão, geração e compreensão de código.
TxGemma Um modelo que gera previsões, classificações ou texto com base em dados terapêuticos para criar modelos de IA com menos dados e computação.
MedGemma Uma coleção de variantes do Gemma 3 treinadas para desempenho na compreensão de texto e imagem médica.
MedSigLIP Uma variante do SigLIP treinada para codificar imagens e textos médicos em um espaço de embedding comum.
T5Gemma Uma família de modelos de pesquisa de codificador-decodificador leves.

Modelos de embeddings

width_normal Embeddings para texto Converte dados de texto em representações vetoriais para pesquisa semântica, classificação e clustering.
width_normal Embeddings multimodais Gera vetores com base em imagens para tarefas como classificação e pesquisa de imagens.

Modelos do Imagen

photo_spark Imagen 4 para geração Use comandos de texto para gerar imagens novas com maior qualidade do que nossos modelos anteriores de geração de imagens
photo_spark Imagen 4 para geração rápida Use comandos de texto para gerar imagens novas com maior qualidade e menor latência do que nossos modelos anteriores de geração de imagens
photo_spark Imagen 4 para geração ultra Use comandos de texto para gerar imagens novas com maior qualidade e melhor aderência de comandos do que nossos modelos anteriores de geração de imagens
photo_spark Imagen 3 para geração 002 Use comandos de texto para gerar imagens novas
photo_spark Imagen 3 para geração 001 Use comandos de texto para gerar imagens novas
photo_spark Imagen 3 para geração rápida Use comandos de texto para gerar imagens novas com menor latência do que nossos outros modelos de geração de imagens
image_edit_auto Imagen 3 para edição e personalização Edita imagens atuais ou gera novas imagens com base em comandos de texto e contexto fornecido.
photo_spark Simulador Virtual Gera imagens de pessoas usando produtos de vestuário.

Modelos do Veo

movie Veo 2 Generate Gera vídeos a partir de comandos de texto e imagens.
movie Veo 3 Gerar Gera vídeos a partir de comandos de texto e imagens com alta qualidade.
filme Veo 3 Fast Gera vídeos a partir de comandos de texto e imagens com alta qualidade e baixa latência.
movie Veo 3.1 Gerar Gera vídeos a partir de comandos de texto e imagens com alta qualidade.
movie Veo 3.1 Rápido Gera vídeos a partir de comandos de texto e imagens com alta qualidade e baixa latência.

Modelos de pré-lançamento do Veo

movie Pré-lançamento do Veo 3.1 Lite Gera vídeos a partir de comandos de texto e imagens com alta qualidade e baixo custo.
movie Pré-lançamento do Veo 3 Gerar Gera vídeos a partir de comandos de texto e imagens com alta qualidade.
movie Veo 3 Fast preview Gera vídeos a partir de comandos de texto e imagens com alta qualidade e baixa latência.
movie Pré-lançamento do Veo 3.1 Gerar Gera vídeos a partir de comandos de texto e imagens com alta qualidade.
movie Pré-lançamento do Veo 3.1 Rápido Gera vídeos a partir de comandos de texto e imagens com alta qualidade e baixa latência.
movie Pré-lançamento do Veo 2 Gera vídeos a partir de comandos de texto e imagens, com suporte para inpaint e outpaint.

Modelos experimentais do Veo

movie Veo 2 Experimental Um modelo experimental com recursos em teste.

Modelos do Lyria

music_note_spark Lyria 3 Pro (pré-lançamento) Gera faixas de música completas a partir de comandos de texto e imagem.
music_note_spark Lyria 3 Clip (pré-lançamento) Gera clipes de áudio de 30 segundos a partir de comandos de texto e imagem.
audio_spark Lyria 2 Gera músicas a partir de comandos de texto.

Modelos MedLM

medical_information MedLM-medium Um modelo em conformidade com a HIPAA para resposta a perguntas médicas e resumo de documentos de saúde.
clinical_notes MedLM-large-large Um modelo em conformidade com a HIPAA para resposta a perguntas médicas e resumo de documentos de saúde.

Suporte ao idioma

Gemini

Todos os modelos do Gemini podem entender e responder nos seguintes idiomas:

Africâner (af), albanês (sq), amárico (am), árabe (ar), armênio (hy), assamês (as), azerbaijano (az), basco (eu), bielorrusso (be), bengali (bn), bósnio (bs), búlgaro (bg), catalão (ca), cebuano (ceb), chinês (simplificado e tradicional) (zh), corso (co), croata (hr), tcheco (cs), dinamarquês (da), divehi (dv), holandês (nl), inglês (en), esperanto (eo), estoniano (et), filipino (tagalo) (fil), finlandês (fi), francês (fr), frísio (fy), galego (gl), georgiano (ka), alemão (de), grego (el), gujarati (gu), crioulo haitiano (ht), hausa (ha), havaiano (haw), hebraico (iw), hindi (hi), hmong (hmn), húngaro (hu), islandês (is), igbo (ig), indonésio (id), irlandês (ga), italiano (it), japonês (ja), javanês (jv), canarês (kn), cazaque (kk), khmer (km), coreano (ko), krio (kri), curdo (ku), quirguiz (ky), laosiano (lo), latim (la), letão (lv), lituano (lt), luxemburguês (lb), macedônio (mk), malgaxe (mg), malaio (ms), malaiala (ml), maltês (mt), maori (mi), marata (mr), meiteilon (manipuri) (mni-Mtei), mongol (mn), mianmar (birmanês) (my), nepalês (ne), norueguês (no), nyanja (chichewa) (ny), odia (oriya) (or), pashto (ps), persa (fa), polonês (pl), português (pt), punjabi (pa), romeno (ro), russo (ru), samoano (sm), gaélico escocês (gd), sérvio (sr), sesoto (st), shona (sn), sindi (sd), cingalês (si), eslovaco (sk), esloveno (sl), somali (so), espanhol (es), sundanês (su), suaíli (sw), sueco (sv), tadjique (tg), tâmil (ta), telugu (te), tailandês (th), turco (tr), ucraniano (uk), urdu (ur), uigur (ug), uzbeque (uz), vietnamita (vi), galês (cy), xhosa (xh), iídiche (yi), iorubá (yo) e zulu (zu).

Gemma

O Gemma e o Gemma 2 oferecem suporte apenas ao idioma inglês (en). O Gemma 3 e o Gemma 3n oferecem suporte multilíngue em mais de 140 idiomas.

Embeddings

Os modelos de embedding de texto multilíngue oferecem suporte aos seguintes idiomas:

Africâner (af), albanês (sq), amárico (am), árabe (ar), armênio (hy), azerbaijano (az), basco (eu), bielorrusso (be), bengali (bn), búlgaro (bg), catalão (ca), cebuano (ceb), chinês (simplificado e tradicional) (zh), corso (co), tcheco (cs), dinamarquês (da), holandês (nl), inglês (en), esperanto (eo), estoniano (et), filipino (tagalo) (fil), finlandês (fi), francês (fr), frísio (fy), galego (gl), georgiano (ka), alemão (de), grego (el), gujarati (gu), crioulo haitiano (ht), hausa (ha), havaiano (haw), hebraico (iw), hindi (hi), hmong (hmn), húngaro (hu), islandês (is), igbo (ig), indonésio (id), irlandês (ga), italiano (it), japonês (ja), javanês (jv), canarês (kn), cazaque (kk), khmer (km), coreano (ko), curdo (ku), quirguiz (ky), laosiano (lo), latim (la), letão (lv), lituano (lt), luxemburguês (lb), macedônio (mk), malgaxe (mg), malaio (ms), malaiala (ml), maltês (mt), maori (mi), marata (mr), mongol (mn), mianmar (birmanês) (my), nepalês (ne), nyanja (chichewa) (ny), norueguês (no), pashto (ps), persa (fa), polonês (pl), português (pt), punjabi (pa), romeno (ro), russo (ru), samoano (sm), gaélico escocês (gd), sérvio (sr), sesoto (st), shona (sn), sindi (sd), cingalês (si), eslovaco (sk), esloveno (sl), somali (so), espanhol (es), sundanês (su), suaíli (sw), sueco (sv), tadjique (tg), tâmil (ta), telugu (te), tailandês (th), turco (tr), ucraniano (uk), urdu (ur), uzbeque (uz), vietnamita (vi), galês (cy), xhosa (xh), iídiche (yi), iorubá (yo) e zulu (zu).

Imagen 3

O Imagen 3 oferece suporte aos seguintes idiomas:

Inglês (en), chinês (simplificado e tradicional) (zh), hindi (hi), japonês (ja), coreano (ko), português (pt) e espanhol (es).

MedLM

O modelo MedLM oferece suporte ao inglês (en).

Explorar todos os modelos no Model Garden

O Model Garden é uma plataforma que ajuda a descobrir, testar, personalizar e implantar modelos e recursos proprietários do Google e OSS selecionados. Para conferir os modelos de IA generativa e as APIs disponíveis na Vertex AI, acesse o Model Garden no Google Cloud console.

Acessar o Model Garden

Para saber mais sobre o Model Garden, incluindo modelos e recursos disponíveis, consulte Explorar modelos de IA no Model Garden.

Versões do modelo

Para conferir todas as versões do modelo, incluindo modelos legados e desativados, consulte Versões e ciclo de vida do modelo.

A seguir