Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Modelos de Google

Modelos destacados de Gemini

3.5 Flash

Diseñado para ofrecer sólidas capacidades de agente (casi de nivel Pro) con una velocidad y un valor considerables.

Competencia de programación de nivel Pro y ejecución de agentes en paralelo
Cuenta con una ventana de contexto de 1 millón de tokens
Inteligencia casi de nivel Pro con el costo y la velocidad del nivel Flash

3.1 Flash-Lite

Nuestro modelo más rentable, optimizado para casos de uso de baja latencia y puede manejar un alto volumen de tráfico de LLM considerando los costos

Optimizado para una latencia baja y un tráfico de alto volumen
Mejora la calidad de las respuestas y el seguimiento de las instrucciones
Mejora la calidad de la entrada de audio para las tareas de ASR

3.1 Flash Image

Convierte ideas en recursos listos para producción

Genera imágenes de alta calidad
Capaz de realizar edición conversacional por turnos
Capaz de realizar fusión de varias imágenes y coherencia de personajes para flujos de trabajo creativos avanzados

Modelos de Gemini disponibles de forma general

🍌 Gemini 3.1 Flash-Lite Image (Nano Banana 2 Lite) Convierte ideas en recursos listos para producción. Diseñado para cargas de trabajo de alto volumen y sensibles a la latencia.

🍌 Gemini 3.1 Flash Image Convierte ideas en recursos listos para producción. Incluye edición conversacional, fusión de varias imágenes y coherencia de personajes para flujos de trabajo creativos avanzados.

🍌 Gemini 3 Pro Image Generación de imágenes de alta fidelidad con composición mejorada por razonamiento. Admite la renderización de texto legible, la edición conversacional continua compleja y la coherencia de personajes con hasta 14 entradas de referencia.

spark Gemini 3.5 Flash Gemini 3.5 Flash ofrece inteligencia casi de nivel Pro con el costo y la velocidad del nivel Flash: competencia de programación de nivel Pro, ejecución de agentes en paralelo, todo al mismo precio que un modelo Flash.

performance_auto Gemini 3.1 Flash-Lite Nuestro modelo más rentable, optimizado para casos de uso de baja latencia y puede manejar un alto volumen de tráfico de LLM considerando los costos.

diamond Gemini 2.5 Pro Nuestro modelo de alta capacidad para razonamiento y programación complejos. Incluye capacidades de pensamiento adaptativo para resolver desafíos complejos de agentes y multimodales con un contexto de 1 millón de tokens.

spark Gemini 2.5 Flash Rápido y muy capaz. Ofrece un equilibrio entre inteligencia y latencia con presupuestos de pensamiento controlables para aplicaciones versátiles.

🍌 Gemini 2.5 Flash Image Convierte ideas en recursos listos para producción. Incluye edición conversacional, fusión de varias imágenes y coherencia de personajes para flujos de trabajo creativos avanzados.

performance_auto Gemini 2.5 Flash-Lite Diseñado para una escala masiva. Equilibra el costo y el rendimiento para tareas de alta capacidad de procesamiento, optimizado para la eficiencia sin sacrificar la comprensión multimodal.

audio_spark Gemini 2.5 Flash con la API de Gemini Live Diseñado para la transmisión bidireccional en tiempo real. Incluye capacidades de diálogo afectivo y audio integrado de baja latencia para interacciones conversacionales naturales.

Modelos de Gemini en versión preliminar

preview Gemini Omni Flash Genera videos a partir de texto o recursos de referencia, o edita videos existentes.

preview Gemini 3.1 Flash Image Convierte ideas en recursos listos para producción. Incluye edición conversacional, fusión de varias imágenes y coherencia de personajes para flujos de trabajo creativos avanzados.

preview Gemini 3.1 Pro Nuestro modelo más reciente basado en el razonamiento, optimizado para flujos de trabajo y programación complejos de agentes. Incluye pensamiento adaptativo, una ventana de contexto de 1 millón de tokens y fundamentación integrada para la resolución de problemas multimodales sofisticada.

vista previa Gemini 3 Flash Nuestro mejor modelo para la comprensión multimodal compleja, diseñado para abordar los problemas de agentes más desafiantes con sólidas capacidades de programación y razonamiento de estado del arte.

preview Gemini 3 Pro Image Generación de imágenes de alta fidelidad con composición mejorada por razonamiento. Admite la renderización de texto legible, la edición conversacional continua compleja y la coherencia de personajes con hasta 14 entradas de referencia.

Modelos de Gemma

Gemma 4 Un modelo abierto adecuado para tareas como la generación de texto, la programación y el razonamiento, y que admite la entrada multimodal (texto e imagen para todas las variantes, y audio adicional para las variantes E2B y E4B).

Gemma 3n Un modelo abierto diseñado para una ejecución eficiente en dispositivos con pocos recursos, que admite la entrada multimodal (texto, imagen, video y audio) y la salida de texto en más de 140 idiomas.

Gemma 3 Un modelo abierto que incluye entrada de texto e imagen, compatibilidad con más de 140 idiomas y una ventana de contexto de 128, 000.

Gemma 2 Un modelo abierto que admite la generación, el resumen y la extracción de texto.

Gemma Un modelo abierto pequeño y liviano que admite la generación, el resumen y la extracción de texto.

ShieldGemma 2 Modelos ajustados con instrucciones para evaluar la seguridad de texto e imágenes en función de políticas definidas.

PaliGemma Un modelo abierto de visión y lenguaje que combina SigLIP y Gemma.

CodeGemma Un modelo abierto potente y liviano para tareas de programación, como la finalización, la generación y la comprensión de código.

TxGemma Un modelo que genera predicciones, clasificaciones o texto en función de datos relacionados con la terapia para crear modelos de IA con menos datos y procesamiento.

MedGemma Una colección de variantes de Gemma 3 entrenadas para el rendimiento en la comprensión de texto e imágenes médicas.

MedSigLIP Una variante de SigLIP entrenada para codificar imágenes y texto médicos en un espacio de embedding común.

T5Gemma Una familia de modelos de investigación de codificador-decodificador livianos.

Modelos de embeddings

width_normal Embeddings para texto Convierte datos de texto en representaciones vectoriales para la búsqueda semántica, la clasificación y la agrupación en clústeres.

width_normal Incorporaciones multimodales Genera vectores basados en imágenes para tareas como la clasificación y la búsqueda de imágenes.

Modelos de Veo

movie Veo 2 Generate Genera videos a partir de imágenes y mensajes de texto.

movie Veo 3 Generate Genera videos de alta calidad a partir de imágenes y mensajes de texto.

movie Veo 3 Fast Genera videos de alta calidad y baja latencia a partir de imágenes y mensajes de texto.

movie Veo 3.1 Generate Genera videos de alta calidad a partir de imágenes y mensajes de texto.

movie Veo 3.1 Fast Genera videos de alta calidad y baja latencia a partir de imágenes y mensajes de texto.

Modelos de Veo en versión preliminar

movie movie Veo 3.1 Lite preview Genera videos de alta calidad y bajo costo a partir de imágenes y mensajes de texto.

movie Veo 3 Generate preview Genera videos de alta calidad a partir de imágenes y mensajes de texto.

movie Veo 3 Fast preview Genera videos de alta calidad y baja latencia a partir de imágenes y mensajes de texto.

movie Veo 3.1 Generate preview Genera videos de alta calidad a partir de imágenes y mensajes de texto.

movie Veo 3.1 Fast preview Genera videos de alta calidad y baja latencia a partir de imágenes y mensajes de texto.

movie Veo 2 Preview Genera videos a partir de imágenes y mensajes de texto, y admite la pintura interior y exterior.

Modelos experimentales de Veo

movie Veo 2 Experimental Un modelo experimental con funciones en prueba.

Modelos de Lyria

music_note_spark Lyria 3 Pro (versión preliminar) Genera pistas de música completas a partir de imágenes y mensajes de texto.

music_note_spark Lyria 3 Clip (versión preliminar) Genera clips de audio de 30 segundos a partir de imágenes y mensajes de texto.

audio_spark Lyria 2 Genera música a partir de mensajes de texto.

Idiomas admitidos

Gemini

Todos los modelos de Gemini pueden comprender y responder en los siguientes idiomas:

Afrikaans (af), albanés (sq), amhárico (am), árabe (ar), armenio (hy), asamés (as), azerbaiyano (az), vasco (eu), bielorruso (be), bengalí (bn), bosnio (bs), búlgaro (bg), catalán (ca), cebuano (ceb), chino (simplificado y tradicional) (zh), corso (co), croata (hr), checo (cs), danés (da), divehi (dv), neerlandés (nl), inglés (en), esperanto (eo), estonio (et), filipino (tagalo) (fil), finlandés (fi), francés (fr), frisio (fy), gallego (gl), georgiano (ka), alemán (de), griego (el), gujarati (gu), criollo haitiano (ht), hausa (ha), hawaiano (haw), hebreo (iw), hindi (hi), hmong (hmn), húngaro (hu), islandés (is), igbo (ig), indonesio (id), irlandés (ga), italiano (it), japonés (ja), javanés (jv), kannada (kn), kazajo (kk), jemer (km), coreano (ko), krio (kri), kurdo (ku), kirguís (ky), laosiano (lo), latín (la), letón (lv), lituano (lt), luxemburgués (lb), macedonio (mk), malgache (mg), malayo (ms), malayalam (ml), maltés (mt), maorí (mi), maratí (mr), meiteilon (manipuri) (mni-Mtei), mongol (mn), birmano (my), nepalí (ne), noruego (no), nyanja (chichewa) (ny), odia (oriya) (or), pastún (ps), persa (fa), (pl), portugués (pt), panyabí (pa), rumano (ro), ruso (ru), samoano (sm), gaélico escocés (gd), serbio (sr), sesotho (st), shona (sn), sindhi (sd), cingalés (si), eslovaco (sk), esloveno (sl), somalí (so), español (es), sondanés (su), suajili (sw), sueco (sv), tayiko (tg), tamil (ta), telugu (te), tailandés (th), turco (tr), ucraniano (uk), urdu (ur), uigur (ug), uzbeko (uz), vietnamita (vi), galés (cy), xhosa (xh), yidis (yi), yoruba (yo) y zulú (zu).

Gemma

Gemma y Gemma 2 solo admiten el idioma inglés (en). Gemma 3 y Gemma 3n ofrecen compatibilidad multilingüe en más de 140 idiomas.

Incorporaciones

Los modelos de embedding de texto multilingüe admiten los siguientes idiomas:

Afrikaans (af), albanés (sq), amhárico (am), árabe (ar), armenio (hy), azerbaiyano (az), vasco (eu), bielorruso (be), bengalí (bn), búlgaro (bg), catalán (ca), cebuano (ceb), chino (simplificado y tradicional) (zh), corso (co), checo (cs), danés (da), neerlandés (nl), inglés (en), esperanto (eo), estonio (et), filipino (tagalo) (fil), finlandés (fi), francés (fr), frisio (fy), gallego (gl), georgiano (ka), alemán (de), griego (el), gujarati (gu), criollo haitiano (ht), hausa (ha), hawaiano (haw), hebreo (iw), hindi (hi), hmong (hmn), húngaro (hu), islandés (is), igbo (ig), indonesio (id), irlandés (ga), italiano (it), japonés (ja), javanés (jv), kannada (kn), kazajo (kk), jemer (km), coreano (ko), kurdo (ku), kirguís (ky), laosiano (lo), latín (la), letón (lv), lituano (lt), luxemburgués (lb), macedonio (mk), malgache (mg), malayo (ms), malayalam (ml), maltés (mt), maorí (mi), maratí (mr), mongol (mn), birmano (my), nepalí (ne), nyanja (chichewa) (ny), noruego (no), pastún (ps), persa (fa), (pl), portugués (pt), panyabí (pa), rumano (ro), ruso (ru), samoano (sm), gaélico escocés (gd), serbio (sr), sesotho (st), shona (sn), sindhi (sd), cingalés (si), eslovaco (sk), esloveno (sl), somalí (so), español (es), sondanés (su), suajili (sw), sueco (sv), tayiko (tg), tamil (ta), telugu (te), tailandés (th), turco (tr), ucraniano (uk), urdu (ur), uzbeko (uz), vietnamita (vi), galés (cy), xhosa (xh), yidis (yi), yoruba (yo), y zulú (zu).

Explora todos los modelos en Model Garden

Model Garden es una plataforma que te ayuda a descubrir, probar, personalizar e implementar modelos de la propiedad de Google y elegir modelos y recursos de OSS. Para explorar las APIs y los modelos de IA generativa que están disponibles en Gemini Enterprise Agent Platform, ve a Model Garden en la Google Cloud consola.

Ir a Model Garden

Para obtener más información sobre Model Garden, incluidos los modelos y las funciones disponibles, consulta Explora los modelos de IA en Model Garden.

Versiones del modelo

Para ver todas las versiones del modelo, incluidos los modelos heredados y retirados, consulta Versiones de modelo y ciclo de vida.

Modelos de Google Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.