Gemini 2.5 Flash con la API Gemini Live

Gemini 2.5 Flash con las funciones de audio nativas de la API de Gemini Live ofrece nuestra funcionalidad de audio nativa de vanguardia para la API de Gemini Live. Además de las funciones estándar de la API Gemini Live, este modelo incluye lo siguiente:

Calidad de audio mejorada: disfruta de una calidad de audio significativamente mejorada que te hará sentir como si estuvieras hablando con una persona.
Calidad de voz y adaptabilidad mejoradas: el audio nativo de la API Gemini Live ofrece interacciones de voz más naturales y enriquecidas con 30 voces en HD en 24 idiomas.
Presentamos Audio proactivo: (vista previa) Cuando Audio proactivo está habilitado, el modelo solo responde cuando es pertinente. El modelo genera transcripciones de texto y respuestas de audio de forma proactiva solo para las consultas dirigidas al dispositivo y no responde a las consultas que no se dirigen al dispositivo.
Presentamos Affective Dialog: los modelos que usan el audio nativo de la API Gemini Live pueden entender y responder adecuadamente a las expresiones emocionales de los usuarios para mantener conversaciones más matizadas.
Interrupción mejorada: interrumpe a Gemini de forma más natural y fiable, incluso en entornos ruidosos.
Llamadas a funciones sólidas: hemos mejorado la tasa de activación, lo que permite a Gemini ejecutar correctamente las funciones que definas para dar respuesta a tus casos prácticos.
Transcripción precisa: la precisión de la transcripción de audio a texto se ha mejorado significativamente.
Compatibilidad multilingüe fluida: habla con Gemini en varios idiomas y cambiará de uno a otro sin esfuerzo y sin necesidad de preconfiguración. El idioma ya no es un obstáculo.

Para obtener más información sobre la API Gemini Live, consulta los siguientes recursos:

Live 2.5 Flash Native Audio

Probar en Vertex AI

Especificaciones técnicas
ID del modelo	`gemini-live-2.5-flash-native-audio`
Entradas y salidas admitidas	Entradas: Texto, Imágenes, Audio, Vídeo Salidas: Texto Audio
Límites de tokens	Tokens de entrada máximos: 32.000 (valor predeterminado), actualizable a 128.000 Tokens de salida máximos: 64.000
Número máximo de sesiones simultáneas	1000
Funciones	Compatible Fundamentación con la Búsqueda de Google Instrucciones del sistema Llamadas a funciones API Gemini Live No compatible Ejecución de código Ajustes Salida estructurada Pensando Almacenamiento en caché de contexto implícito Almacenamiento en caché de contexto explícito Vertex AI RAG Engine Completaciones de chat
Tipos de uso	Compatible No compatible Capacidad de procesamiento aprovisionada Pago por uso estándar Predicción por lotes
	Imágenes	Número máximo de imágenes por petición: 3000 Tamaño máximo de archivo por archivo para datos insertados o subidas directas a través de la consola: 7 MB Tamaño máximo de archivo por archivo de Google Cloud Storage: 30 MB Tipos MIME admitidos: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Vídeo	Resolución estándar: 768x768 Tipos MIME admitidos: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Audio	Duración máxima de la conversación: 10 minutos de forma predeterminada, pero se puede ampliar. Formato de entrada de audio obligatorio: Audio PCM sin procesar de 16 bits a 16 kHz, little-endian Formato de salida de audio obligatorio: Audio PCM sin procesar de 16 bits a 24 kHz, little-endian Tipos MIME admitidos: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Valores predeterminados de los parámetros	Sensibilidad al inicio de la voz: baja Sensibilidad de fin de frase: alta Espacio de relleno del prefijo: 0 Tamaño máximo del contexto: 128 K
Regiones disponibles
	Disponibilidad del modelo	Estados Unidos us-central1 us‑east1 us‑east4 us-east5 us-south1 us‑west1 us-west4 Europa europe-central2 europe‑north1 europe-southwest1 europe‑west1 europe‑west4 europe-west8
	Para obtener más información, consulta Implementaciones y endpoints.
Versiones	`gemini-live-2.5-flash-native-audio` Fase de lanzamiento: GA Fecha de lanzamiento: 12 de diciembre del 2025 Fecha de discontinuación: 13 de diciembre del 2026
Controles de seguridad
	Predicción online	Residencia de datos CMEK Controles de Servicio de VPC AXT
	Para obtener más información, consulta Controles de seguridad.
Idiomas disponibles	Consulta los idiomas admitidos.
Precios	Consulta Precios.

Vista previa de audio nativo de 2.5 Flash en directo

Probar en Vertex AI

Especificaciones técnicas
ID del modelo	`gemini-live-2.5-flash-preview-native-audio-09-2025`
Entradas y salidas admitidas	Entradas: Texto, Imágenes, Audio, Vídeo Salidas: Texto Audio
Límites de tokens	Número máximo de tokens de entrada: 128.000 Tokens de salida máximos: 64.000 Ventana de contexto: 32.000 tokens (valor predeterminado), ampliable a 128.000 tokens
Número máximo de sesiones simultáneas	1000
Funciones	Compatible Fundamentación con la Búsqueda de Google Instrucciones del sistema Llamadas a funciones API Gemini Live No compatible Ejecución de código Ajustes Salida estructurada Pensando Almacenamiento en caché de contexto implícito Almacenamiento en caché de contexto explícito Vertex AI RAG Engine Completaciones de chat
Tipos de uso	Compatible Capacidad de procesamiento aprovisionada No compatible Pago por uso estándar Predicción por lotes
	Imágenes	Número máximo de imágenes por petición: 3000 Tamaño máximo de archivo por archivo para datos insertados o subidas directas a través de la consola: 7 MB Tamaño máximo de archivo por archivo de Google Cloud Storage: 30 MB Tipos MIME admitidos: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Vídeo	Resolución estándar: 768x768 Tipos MIME admitidos: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Audio	Duración máxima de la conversación: 10 minutos de forma predeterminada, pero se puede ampliar. Formato de entrada de audio obligatorio: Audio PCM sin procesar de 16 bits a 16 kHz, little-endian Formato de salida de audio obligatorio: Audio PCM sin procesar de 16 bits a 24 kHz, little-endian Tipos MIME admitidos: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Valores predeterminados de los parámetros	Sensibilidad al inicio de la voz: baja Sensibilidad de fin de frase: alta Espacio de relleno del prefijo: 0 Tamaño máximo del contexto: 128 K
Regiones disponibles
	Disponibilidad del modelo	Estados Unidos us-central1
	Para obtener más información, consulta Implementaciones y endpoints.
Fecha de corte de conocimiento	Agosto del 2025
Versiones	`gemini-live-2.5-flash-preview-native-audio-09-2025` Fase de lanzamiento: vista previa pública Fecha de lanzamiento: 25 de septiembre del 2025
Controles de seguridad
Controles de seguridad	Para obtener más información, consulta Controles de seguridad.
Idiomas disponibles	Consulta los idiomas admitidos.
Precios	Consulta Precios.

Gemini 2.5 Flash con la API Gemini Live Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Live 2.5 Flash Native Audio

Vista previa de audio nativo de 2.5 Flash en directo

Gemini 2.5 Flash con la API Gemini Live