Modelos de Google

Modelos destacados de Gemini

Modelos de Gemini disponibles de forma general

diamond Gemini 2.5 Pro Nuestro modelo de alta capacidad para razonamiento y programación complejos. Cuenta con capacidades de pensamiento adaptativo para resolver desafíos complejos de agentes y multimodales con un contexto de 1 millón de tokens.
spark Gemini 2.5 Flash Rápido y muy capaz. Ofrece un equilibrio entre inteligencia y latencia con presupuestos de pensamiento controlables para aplicaciones versátiles.
🍌 Gemini 2.5 Flash Image Convierte ideas en recursos listos para la producción. Incluye edición conversacional, fusión de varias imágenes y coherencia de personajes para flujos de trabajo creativos avanzados.
performance_auto Gemini 2.5 Flash-Lite Creado para una escala masiva. Equilibra el costo y el rendimiento para tareas de alta capacidad de procesamiento, optimizado para la eficiencia sin sacrificar la comprensión multimodal.
audio_spark Gemini 2.5 Flash con la API de Gemini Live Diseñado para la transmisión bidireccional en tiempo real. Incluye capacidades de diálogo afectivo y audio integrado de baja latencia para interacciones conversacionales naturales.
spark Gemini 2.0 Flash Rendimiento multimodal para desarrolladores que necesitan un modelo rentable para tareas de uso general.
performance_auto Gemini 2.0 Flash-Lite Optimizado y muy eficiente para tareas simples y de alta frecuencia en las que la velocidad y el precio son la prioridad.

Modelos de Gemini en versión preliminar

preview Gemini 3.1 Flash-Lite Nuestro modelo más rentable, optimizado para casos de uso de latencia baja para tráfico de LLM de gran volumen y sensible a los costos.
preview Gemini 3.1 Flash Image Convierte ideas en recursos listos para la producción. Incluye edición conversacional, fusión de varias imágenes y coherencia de personajes para flujos de trabajo creativos avanzados.
preview Gemini 3.1 Pro Nuestro modelo más reciente, que prioriza el razonamiento, optimizado para flujos de trabajo y programación complejos con agentes. Incluye pensamiento adaptativo, una ventana de contexto de 1 millón de tokens y fundamentación integrada para la resolución de problemas multimodales sofisticada.
vista previa Gemini 3 Flash Nuestro mejor modelo para la comprensión multimodal compleja, diseñado para abordar los problemas de agentes más desafiantes con sólidas capacidades de programación y razonamiento de vanguardia.
preview Gemini 3 Pro Image Generación de imágenes de alta fidelidad con composición mejorada por el razonamiento. Admite la renderización de texto legible, la edición compleja de varios turnos y la coherencia de personajes con hasta 14 entradas de referencia.

Modelos de Gemma

Gemma 4 Un modelo abierto adecuado para tareas como la generación de texto, la programación y el razonamiento, y que admite la entrada multimodal (texto e imagen para todas las variantes, y audio adicional para las variantes E2B y E4B).
Gemma 3n Un modelo abierto diseñado para una ejecución eficiente en dispositivos con pocos recursos, que admite la entrada multimodal (texto, imagen, video y audio) y la salida de texto en más de 140 idiomas.
Gemma 3 Un modelo abierto que incluye entrada de texto e imagen, compatibilidad con más de 140 idiomas y una ventana de contexto de 128, 000.
Gemma 2 Un modelo abierto que admite la generación, el resumen y la extracción de texto.
Gemma Un modelo abierto pequeño y liviano que admite la generación, el resumen y la extracción de texto.
ShieldGemma 2 Modelos ajustados con instrucciones para evaluar la seguridad de texto e imágenes en función de políticas definidas.
PaliGemma Un modelo abierto de visión y lenguaje que combina SigLIP y Gemma.
CodeGemma Un modelo abierto potente y liviano para tareas de programación, como la finalización, la generación y la comprensión de código.
TxGemma Un modelo que genera predicciones, clasificaciones o texto en función de datos relacionados con la terapia, para crear modelos de IA con menos datos y procesamiento.
MedGemma Una colección de variantes de Gemma 3 entrenadas para el rendimiento en la comprensión de texto e imágenes médicas.
MedSigLIP Una variante de SigLIP entrenada para codificar imágenes y texto médicos en un espacio de incorporación común.
T5Gemma Una familia de modelos de investigación de codificador-decodificador livianos.

Modelos de embeddings

width_normal Embeddings para texto Convierte datos de texto en representaciones vectoriales para la búsqueda semántica, la clasificación y el agrupamiento en clústeres.
width_normal Incorporaciones multimodales Genera vectores basados en imágenes para tareas como la clasificación y la búsqueda de imágenes.

Modelos de Imagen

photo_spark Imagen 4 para la generación Usa instrucciones de texto para generar imágenes nuevas con mayor calidad que nuestros modelos anteriores de generación de imágenes
photo_spark Imagen 4 para la generación rápida Usa instrucciones de texto para generar imágenes nuevas con mayor calidad y menor latencia que nuestros modelos anteriores de generación de imágenes
photo_spark Imagen 4 para la generación ultra Usa instrucciones de texto para generar imágenes nuevas con mayor calidad y mejor cumplimiento de las instrucciones que nuestros modelos anteriores de generación de imágenes
photo_spark Imagen 3 para la generación 002 Usa instrucciones de texto para generar imágenes nuevas
photo_spark Imagen 3 para la generación 001 Usa instrucciones de texto para generar imágenes nuevas
photo_spark Imagen 3 para la generación rápida Usa instrucciones de texto para generar imágenes nuevas con menor latencia que nuestros otros modelos de generación de imágenes
image_edit_auto Imagen 3 para la edición y la personalización Edita imágenes existentes o genera imágenes nuevas en función de las instrucciones de texto y el contexto proporcionado.
photo_spark Prueba virtual Genera imágenes de personas que usan productos de indumentaria.

Modelos de Veo

movie Veo 2 Generar Genera videos a partir de instrucciones de texto e imágenes.
película Veo 3 Generar Genera videos a partir de instrucciones de texto e imágenes con alta calidad.
película Veo 3 Rápido Genera videos a partir de instrucciones de texto e imágenes con alta calidad y baja latencia.
movie Veo 3.1 Generar Genera videos a partir de instrucciones de texto e imágenes con alta calidad.
movie Veo 3.1 Rápido Genera videos a partir de instrucciones de texto e imágenes con alta calidad y baja latencia.

Modelos de Veo en versión preliminar

película Veo 3.1 Lite versión preliminar Genera videos a partir de instrucciones de texto e imágenes con alta calidad y bajo costo.
película Veo 3 Generar versión preliminar Genera videos a partir de instrucciones de texto e imágenes con alta calidad.
película Veo 3 Rápido versión preliminar Genera videos a partir de instrucciones de texto e imágenes con alta calidad y baja latencia.
película Veo 3.1 Generar versión preliminar Genera videos a partir de instrucciones de texto e imágenes con alta calidad.
película Veo 3.1 Rápido versión preliminar Genera videos a partir de instrucciones de texto e imágenes con alta calidad y baja latencia.
película Veo 2 Versión preliminar Genera videos a partir de instrucciones de texto e imágenes, y admite la pintura interior y exterior.

Modelos experimentales de Veo

movie Veo 2 Experimental Un modelo experimental con funciones en prueba.

Modelos de Lyria

music_note_spark Lyria 3 Pro (versión preliminar) Genera pistas de música completas a partir de instrucciones de texto e imágenes.
music_note_spark Lyria 3 Clip (versión preliminar) Genera clips de audio de 30 segundos a partir de instrucciones de texto e imágenes.
audio_spark Lyria 2 Genera música a partir de instrucciones de texto.

Modelos de MedLM

medical_information MedLM-medium Un modelo que cumple con la HIPAA para la búsqueda de respuestas médicas y la creación de resúmenes de documentos de atención de la salud.
clinical_notes MedLM-large-large Un modelo que cumple con la HIPAA para la búsqueda de respuestas médicas y la creación de resúmenes de documentos de atención de la salud.

Idiomas admitidos

Gemini

Todos los modelos de Gemini pueden comprender y responder en los siguientes idiomas:

afrikáans (af), albanés (sq), amhárico (am), árabe (ar), armenio (hy), asamés (as), azerbaiyano (az), vasco (eu), bielorruso (be), bengalí (bn), bosnio (bs), búlgaro (bg), catalán (ca), cebuano (ceb), chino (simplificado y tradicional) (zh), corso (co), croata (hr), checo (cs), danés (da), dhivehi (dv), neerlandés (nl), inglés (en), esperanto (eo), estonio (et), filipino (tagalo) (fil), finlandés (fi), francés (fr), frisio (fy), gallego (gl), georgiano (ka), alemán (de), griego (el), guyaratí (gu), criollo haitiano (ht), hausa (ha), hawaiano (haw), hebreo (iw), hindi (hi), hmong (hmn), húngaro (hu), islandés (is), igbo (ig), indonesio (id), irlandés (ga), italiano (it), japonés (ja), javanés (jv), canarés (kn), kazajo (kk), jemer (km), coreano (ko), krio (kri), kurdo (ku), kirguís (ky), laosiano (lo), latín (la), letón (lv), lituano (lt), luxemburgués (lb), macedonio (mk), malgache (mg), malayo (ms), malayalam (ml), maltés (mt), maorí (mi), maratí (mr), meiteilon (manipuri) (mni-Mtei), mongol (mn), birmano (my), nepalí (ne), noruego (no), nyanja (chichewa) (ny), odia (oriya) (or), pastún (ps), persa (fa), (pl), portugués (pt), panyabí (pa), rumano (ro), ruso (ru), samoano (sm), gaélico escocés (gd), serbio (sr), sesotho (st), shona (sn), sindhi (sd), cingalés (si), eslovaco (sk), esloveno (sl), somalí (so), español (es), sondanés (su), suajili (sw), sueco (sv), tayiko (tg), tamil (ta), telugu (te), tailandés (th), turco (tr), ucraniano (uk), urdu (ur), uigur (ug), uzbeko (uz), vietnamita (vi), galés (cy), xhosa (xh), yidis (yi), yoruba (yo) y zulú (zu).

Gemma

Gemma y Gemma 2 solo admiten el idioma inglés (en). Gemma 3 y Gemma 3n proporcionan compatibilidad multilingüe en más de 140 idiomas.

Incorporaciones

Los modelos de incorporación de texto multilingüe admiten los siguientes idiomas:

Afrikaans (af), albanés (sq), amhárico (am), árabe (ar), armenio (hy), azerbaiyano (az), vasco (eu), bielorruso (be), bengalí (bn), búlgaro (bg), catalán (ca), cebuano (ceb), chino (simplificado y tradicional) (zh), corso (co), checo (cs), danés (da), neerlandés (nl), inglés (en), esperanto (eo), estonio (et), filipino (tagalo) (fil), finlandés (fi), francés (fr), frisio (fy), gallego (gl), georgiano (ka), alemán (de), griego (el), guyaratí (gu), criollo haitiano (ht), hausa (ha), hawaiano (haw), hebreo (iw), hindi (hi), hmong (hmn), húngaro (hu), islandés (is), igbo (ig), indonesio (id), irlandés (ga), italiano (it), japonés (ja), javanés (jv), canarés (kn), kazajo (kk), jemer (km), coreano (ko), kurdo (ku), kirguís (ky), laosiano (lo), latín (la), letón (lv), lituano (lt), luxemburgués (lb), macedonio (mk), malgache (mg), malayo (ms), malayalam (ml), maltés (mt), maorí (mi), maratí (mr), mongol (mn), birmano (my), nepalí (ne), nyanja (chichewa) (ny), noruego (no), pastún (ps), persa (fa), (pl), portugués (pt), panyabí (pa), rumano (ro), ruso (ru), samoano (sm), gaélico escocés (gd), serbio (sr), sesotho (st), shona (sn), sindhi (sd), cingalés (si), eslovaco (sk), esloveno (sl), somalí (so), español (es), sondanés (su), suajili (sw), sueco (sv), tayiko (tg), tamil (ta), telugu (te), tailandés (th), turco (tr), ucraniano (uk), urdu (ur), uzbeko (uz), vietnamita (vi), galés (cy), xhosa (xh), yidis (yi), yoruba (yo) y zulú (zu).

Imagen 3

Imagen 3 admite los siguientes idiomas:

Inglés (en), chino (simplificado y tradicional) (zh), hindi (hi), japonés (ja), coreano (ko), portugués (pt) y español (es).

MedLM

El modelo de MedLM admite el idioma inglés (en).

Explora todos los modelos en Model Garden

Model Garden es una plataforma que te ayuda a descubrir, probar, personalizar e implementar modelos de la propiedad de Google y elegir modelos y recursos de OSS. Para explorar los modelos y las APIs de IA generativa que están disponibles en Vertex AI, ve a Model Garden en la Google Cloud consola.

Ir a Model Garden

Para obtener más información sobre Model Garden, incluidos los modelos y las funciones disponibles, consulta Explora los modelos de IA en Model Garden.

Versiones del modelo

Para ver todas las versiones del modelo, incluidos los modelos heredados y retirados, consulta Versiones de modelo y ciclo de vida.

¿Qué sigue?