Modelos de Google

Modelos de Gemini destacados

Modelos de Gemini disponibles de forma general

diamond Gemini 2.5 Pro Nuestro modelo de alto rendimiento para tareas complejas de razonamiento y programación. Incluye capacidades de pensamiento adaptativo para resolver retos complejos de agentes y multimodales con un contexto de un millón de tokens.
spark Gemini 2.5 Flash Extremadamente rápido y con grandes capacidades. Ofrece un equilibrio entre inteligencia y latencia con presupuestos de pensamiento controlables para aplicaciones versátiles.
🍌 Gemini 2.5 Flash Image Convierte tus ideas en recursos listos para la producción. Incluye edición conversacional, fusión de varias imágenes y coherencia de los personajes para flujos de trabajo creativos avanzados.
performance_auto Gemini 2.5 Flash-Lite Diseñado para ofrecer un rendimiento a gran escala. Equilibra el coste y el rendimiento en tareas de alto rendimiento, optimizada para la eficiencia sin sacrificar la comprensión multimodal.
spark Gemini 2.0 Flash Rendimiento multimodal para desarrolladores que necesiten un modelo rentable para tareas de uso general.
performance_auto Gemini 2.0 Flash-Lite Optimizado y ultraeficiente para tareas sencillas y de alta frecuencia en las que la velocidad y el precio son prioritarios.

Previsualizar modelos de Gemini

vista previa Gemini 3 Pro Nuestro modelo más reciente, centrado en el razonamiento y optimizado para flujos de trabajo de agentes y programación complejos. Incluye pensamiento adaptativo, una ventana de contexto de 1 millón de tokens y una fundamentación integrada para resolver problemas multimodales complejos.
vista previa Imagen de Gemini 3 Pro Generación de imágenes de alta fidelidad con composición mejorada mediante razonamiento. Admite la representación de texto legible, la edición compleja de varios turnos y la coherencia de los personajes con hasta 14 entradas de referencia.
versión preliminar API Gemini 2.5 Flash Live Diseñada para el streaming bidireccional en tiempo real. Incluye audio integrado de baja latencia y funciones de diálogo afectivo para ofrecer interacciones naturales y conversacionales.

Modelos de Gemma

Gemma 3n Un modelo abierto diseñado para ejecutarse de forma eficiente en dispositivos con pocos recursos, que admite entradas multimodales (texto, imagen, vídeo y audio) y salidas de texto en más de 140 idiomas.
Gemma 3 Un modelo abierto que admite texto e imágenes como entrada, más de 140 idiomas y una ventana de contexto de 128.000 tokens.
Gemma 2 Un modelo abierto que admite la generación, la extracción y el resumen de texto.
Gemma Un modelo abierto pequeño y ligero que admite la generación, la extracción y la creación de resúmenes de texto.
ShieldGemma 2 Modelos ajustados para seguir instrucciones que evalúan la seguridad de textos e imágenes en función de políticas definidas.
PaliGemma Un modelo de visión y lenguaje abierto que combina SigLIP y Gemma.
CodeGemma Un modelo abierto potente y ligero para tareas de programación, como completar, generar y comprender código.
TxGemma Un modelo que genera predicciones, clasificaciones o texto a partir de datos relacionados con terapias para crear modelos de IA con menos datos y recursos computacionales.
MedGemma Una colección de variantes de Gemma 3 entrenadas para ofrecer un buen rendimiento en la comprensión de textos e imágenes médicos.
MedSigLIP Una variante de SigLIP entrenada para codificar imágenes y texto médicos en un espacio de inserción común.
T5Gemma Una familia de modelos de investigación ligeros de codificador-decodificador.

Modelos de inserciones

width_normal Incrustaciones de texto Convierte datos de texto en representaciones vectoriales para la búsqueda semántica, la clasificación y la agrupación en clústeres.
width_normal Incrustaciones multimodales Genera vectores basados en imágenes para tareas como la clasificación y la búsqueda de imágenes.

Modelos de Imagen

photo_spark Imagen 4 para la generación Usa peticiones de texto para generar imágenes originales con una calidad superior a la de nuestros modelos de generación de imágenes anteriores.
photo_spark Imagen 4 para la generación rápida Usa peticiones de texto para generar imágenes originales con una calidad superior y una latencia inferior a las de nuestros modelos de generación de imágenes anteriores.
photo_spark Imagen 4 para la generación ultra Usa peticiones de texto para generar imágenes originales con una calidad superior y una mayor adecuación a las peticiones que nuestros modelos de generación de imágenes anteriores.
photo_spark Imagen 3 para la generación 002 Usa peticiones de texto para generar imágenes originales.
photo_spark Imagen 3 para la generación 001 Usa peticiones de texto para generar imágenes originales.
photo_spark Imagen 3 para la generación rápida Usa peticiones de texto para generar imágenes originales con una latencia inferior a la de nuestros otros modelos de generación de imágenes.
image_edit_auto Imagen 3 para la edición y la personalización Edita imágenes o genera imágenes nuevas a partir de peticiones de texto y del contexto proporcionado.

Vista previa de los modelos de Imagen

photo_spark Probador virtual Genera imágenes de personas que llevan prendas de ropa.
image_edit_auto Imagen product recontext on Vertex AI Edita imágenes de productos para colocarlos en diferentes escenas o fondos en función de las peticiones de texto.

Modelos de Veo

Película Generar con Veo 2 Genera vídeos a partir de peticiones de texto e imágenes.
película Generar con Veo 3 Genera vídeos de alta calidad a partir de peticiones de texto e imágenes.
Película Veo 3 Fast Genera vídeos a partir de peticiones de texto e imágenes con alta calidad y baja latencia.
Película Veo 3.1 Generar Genera vídeos de alta calidad a partir de peticiones de texto e imágenes.
Película Veo 3.1 Fast Genera vídeos a partir de peticiones de texto e imágenes con alta calidad y baja latencia.

Previsualizar modelos de Veo

Película Veo 3 Generar vista previa Genera vídeos de alta calidad a partir de peticiones de texto e imágenes.
Película Vista previa de Veo 3 Fast Genera vídeos a partir de peticiones de texto e imágenes con alta calidad y baja latencia.
Película Veo 3.1 Generar vista previa Genera vídeos de alta calidad a partir de peticiones de texto e imágenes.
Película Vista previa rápida de Veo 3.1 Genera vídeos a partir de peticiones de texto e imágenes con alta calidad y baja latencia.
Película Vista previa de Veo 2 Genera vídeos a partir de peticiones de texto e imágenes, y admite la función de pintar y despintar.

Modelos experimentales de Veo

Película Veo 2 Experimental Un modelo experimental con funciones en fase de prueba.

Modelos de MedLM

medical_information MedLM-medium Un modelo que cumple la ley HIPAA para responder preguntas médicas y resumir documentos sanitarios.
clinical_notes MedLM-large-large Un modelo que cumple la ley HIPAA para responder preguntas médicas y resumir documentos sanitarios.

Idiomas disponibles

Gemini

Todos los modelos de Gemini pueden entender y responder en los siguientes idiomas:

Afrikáans (af), albanés (sq), amárico (am), árabe (ar), armenio (hy), assamés (as), azerí (az), euskera (eu), bielorruso (be), bengalí (bn), bosnio (bs), búlgaro (bg), catalán (ca), cebuano (ceb), chino (simplificado y tradicional) (zh), corso (co), croata (hr), checo (cs), danés (da), dhivehi (dv), neerlandés (nl), inglés (en), esperanto (eo), estonio (et), filipino (tagalo) (fil), finés (fi), francés (fr), frisón (fy), gallego (gl), georgiano (ka), alemán (de), griego (el), guyaratí (gu), criollo haitiano (ht), hausa (ha), hawaiano (haw), hebreo (iw), hindi (hi), hmong (hmn), húngaro (hu), islandés (is), igbo (ig), indonesio (id), irlandés (ga), italiano (it), japonés (ja), javanés (jv), canarés (kn), kazajo (kk), jemer (km), coreano (ko), krio (kri), kurdo (ku), kirguís (ky), laosiano (lo), latín (la), letón (lv), lituano (lt), luxemburgués (lb), macedonio (mk), malgache (mg), malayo (ms), malayalam (ml), maltés (mt), maorí (mi), maratí (mr), meiteilon (manipuri) (mni-Mtei), mongol (mn), birmano (my), nepalí (ne), noruego (no), nyanja (chichewa) (ny), oriya (or), pashto (ps), persa (fa), polaco (pl), portugués (pt), punyabí (pa), rumano (ro), ruso (ru), samoano (sm), gaélico escocés (gd), serbio (sr), sesotho (st), shona (sn), sindhi (sd), cingalés (si), eslovaco (sk), esloveno (sl), somalí (so), español (fr), sundanés (su), suajili (sw), sueco (sv), tayiko (tg), tamil (ta), telugu (te), tailandés (th), turco (tr), ucraniano (uk), urdu (ur), uigur (ug), uzbeko (uz), vietnamita (vi), galés (is), xhosa (ig), yidis (id), yoruba (ga) y zulú (it).escyxhyiyozu

Gemma

Gemma y Gemma 2 solo admiten el inglés (en). Gemma 3 y Gemma 3n admiten más de 140 idiomas.

Inserciones

Los modelos de inserción de texto multilingües admiten los siguientes idiomas:

Afrikáans (af), albanés (sq), amárico (am), árabe (ar), armenio (hy), azerí (az), euskera (eu), bielorruso (be), bengalí (bn), búlgaro (bg), catalán (ca), cebuano (ceb), chino (simplificado y tradicional) (zh), corso (co), checo (cs), danés (da), neerlandés (nl), inglés (en), esperanto (eo), estonio (et), filipino (tagalo) (fil), finés (fi), francés (fr), frisón (fy), gallego (gl), georgiano (ka), alemán (de), griego (el), guyaratí (gu), criollo haitiano (ht), hausa (ha), hawaiano (haw), hebreo (iw), hindi (hi), hmong (hmn), húngaro (hu), islandés (is), igbo (ig), indonesio (id), irlandés (ga), italiano (it), japonés (ja), javanés (jv), canarés (kn), kazajo (kk), jemer (km), coreano (ko), kurdo (ku), kirguís (ky), laosiano (lo), latín (la), letón (lv), lituano (lt), luxemburgués (lb), macedonio (mk), malgache (mg), malayo (ms), malayalam (ml), maltés (mt), maorí (mi), maratí (mr), mongol (mn), birmano (my), nepalí (ne), nyanja (chichewa) (ny), noruego (no), pashto (ps), persa (fa), polaco (pl), portugués (pt), punyabí (pa), rumano (ro), ruso (ru), samoano (sm), gaélico escocés (gd), serbio (sr), sesotho (st), shona (sn), sindhi (sd), cingalés (si), eslovaco (sk), esloveno (sl), somalí (so), español (es), sundanés (su), suajili (sw), sueco (sv), tayiko (tg), tamil (ta), telugu (te), tailandés (th), turco (tr), ucraniano (uk), urdu (ur), uzbeko (uz), vietnamita (vi), galés (cy), xhosa (xh), yidis (yi), yoruba (yo) y zulú (zu).

Imagen 3

Imagen 3 admite los siguientes idiomas:

Alemán (en), chino (simplificado y tradicional) (zh), español (hi), francés (ja), inglés (ko), italiano (pt), japonés (es), coreano (), portugués () y ruso ().

MedLM

El modelo MedLM admite el idioma inglés (en).

Explorar todos los modelos de Model Garden

Model Garden es una plataforma que te ayuda a descubrir, probar, personalizar y desplegar modelos y recursos propios de Google, así como modelos y recursos de código abierto. Para descubrir los modelos de IA generativa y las APIs disponibles en Vertex AI, ve a Model Garden en la Google Cloud consola.

Ir a Model Garden

Para obtener más información sobre Model Garden, incluidos los modelos y las funciones disponibles, consulta el artículo Descubrir modelos de IA en Model Garden.

Versiones del modelo

Para ver todas las versiones de los modelos, incluidos los antiguos y los retirados, consulta Versiones y ciclo de vida de los modelos.

Siguientes pasos