Gemini 2.5 Flash con la API de Gemini Live

Gemini 2.5 Flash con funciones de audio nativo de la API de Gemini Live incluye nuestra funcionalidad de audio nativo de vanguardia para la API de Gemini Live. Además de las funciones estándar de la API de Gemini Live, este modelo incluye lo siguiente:

Calidad de audio mejorada: Experimenta una calidad de audio significativamente mejorada que se siente como hablar con una persona.
Calidad y adaptabilidad de voz mejoradas: El audio nativo de la API de Gemini Live proporciona interacciones de voz más naturales y enriquecidas con 30 voces en HD en 24 idiomas.
Presentamos Audio proactivo: (versión preliminar) Cuando se habilita el Audio proactivo, el modelo solo responde cuando es pertinente. El modelo genera transcripciones de texto y respuestas de audio de forma proactiva solo para las preguntas dirigidas al dispositivo, y no responde a las preguntas que no se dirigen al dispositivo.
Presentamos el diálogo afectivo: Los modelos que usan el audio nativo de la API de Gemini Live pueden comprender y responder de manera adecuada a las expresiones emocionales de los usuarios para tener conversaciones más matizadas.
Interrupción mejorada: Interrumpe a Gemini de forma más natural y confiable, incluso en entornos ruidosos.
Llamada a función sólida: Mejoramos la tasa de activación, lo que permite que Gemini ejecute correctamente las funciones que defines para admitir tus casos de uso.
Transcripción precisa: Se mejoró significativamente la precisión de la transcripción de audio a texto.
Compatibilidad multilingüe sin interrupciones: Habla con Gemini en varios idiomas, y cambiará entre ellos sin esfuerzo y sin necesidad de configuración previa. El idioma ya no es una barrera.

Para obtener más información sobre la API de Gemini Live, consulta los siguientes recursos:

Nuestra documentación independiente de la API de Gemini Live
Nuestros formatos de audio compatibles con la API de Gemini Live
Nuestros límites de sesiones simultáneas de la API de Gemini Live

Audio nativo de Live 2.5 Flash

Probar en Vertex AI

Especificaciones técnicas
ID de modelo	`gemini-live-2.5-flash-native-audio`
Entradas y salidas compatibles	Entradas: Texto, Imágenes, Audio, Video Resultados: Texto, Audio
Límites de tokens	Tokens de entrada máximos: 32,000 (predeterminado), actualizable a 128,000 Cantidad máxima de tokens de salida: 64,000
Cantidad máxima de sesiones simultáneas	1000
Funciones	Admitido Grounding with Google Search Instrucciones del sistema Llamada a función API de Gemini Live No compatible Ejecución de código Ajuste Resultados estructurados Pensamiento Almacenamiento implícito de contexto en caché Almacenamiento en caché de contexto explícito Vertex AI RAG Engine Completado de chat
Tipos de uso	Admitido No compatible Capacidad de procesamiento aprovisionada Standard PayGo Predicción por lotes
	Imágenes	Cantidad máxima de imágenes por instrucción: 3,000 Tamaño máximo de archivo por archivo para los datos intercalados o las cargas directas a través de la consola: 7 MB Tamaño máximo de archivo por archivo de Google Cloud Storage: 30 MB Tipos de MIME admitidos: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Video	Resolución estándar: 768 × 768 Tipos de MIME admitidos: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Audio	Duración máxima de la conversación: De forma predeterminada, 10 minutos que se pueden extender. Formato de entrada de audio requerido: Audio PCM sin procesar de 16 bits a 16 kHz, little-endian Formato de salida de audio requerido: Audio PCM sin procesar de 16 bits a 24 kHz, little-endian Tipos de MIME admitidos: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Valores predeterminados de los parámetros	Sensibilidad cuando comienza a escucharse una voz: Baja Sensibilidad cuando se deja de escuchar una voz: Alta Relleno de prefijo: 0 Tamaño máx. del contexto: 128 K
Regiones admitidas
	Disponibilidad del modelo	Estados Unidos us-central1 us-east1 us-east4 us-east5 us-south1 us-west1 us-west4 Europa europe-central2 europe-north1 europe-southwest1 europe-west1 europe-west4 europe-west8
	Consulta Implementaciones y endpoints para obtener más información.
Versiones	`gemini-live-2.5-flash-native-audio` Etapa de lanzamiento: DA Fecha de lanzamiento: 12 de diciembre de 2025 Fecha de descontinuación: 13 de diciembre de 2026
Controles de seguridad
	Predicción en línea	Residencia de los datos CMEK VPC-SC AXT
	Consulta Controles de seguridad para obtener más información.
Idiomas compatibles	Consulta Idiomas admitidos.
Precios	Consulta la sección de precios.

Vista previa de audio nativo de Live 2.5 Flash

Probar en Vertex AI

Especificaciones técnicas
ID de modelo	`gemini-live-2.5-flash-preview-native-audio-09-2025`
Entradas y salidas compatibles	Entradas: Texto, Imágenes, Audio, Video Resultados: Texto, Audio
Límites de tokens	Cantidad máxima de tokens de entrada: 128,000 Cantidad máxima de tokens de salida: 64,000 Ventana de contexto: 32,000 (predeterminada), actualizable a 128,000
Cantidad máxima de sesiones simultáneas	1000
Funciones	Admitido Grounding with Google Search Instrucciones del sistema Llamada a función API de Gemini Live No compatible Ejecución de código Ajuste Resultados estructurados Pensamiento Almacenamiento implícito de contexto en caché Almacenamiento en caché de contexto explícito Vertex AI RAG Engine Completado de chat
Tipos de uso	Admitido Capacidad de procesamiento aprovisionada No compatible Standard PayGo Predicción por lotes
	Imágenes	Cantidad máxima de imágenes por instrucción: 3,000 Tamaño máximo de archivo por archivo para los datos intercalados o las cargas directas a través de la consola: 7 MB Tamaño máximo de archivo por archivo de Google Cloud Storage: 30 MB Tipos de MIME admitidos: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Video	Resolución estándar: 768 × 768 Tipos de MIME admitidos: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Audio	Duración máxima de la conversación: De forma predeterminada, 10 minutos que se pueden extender. Formato de entrada de audio requerido: Audio PCM sin procesar de 16 bits a 16 kHz, little-endian Formato de salida de audio requerido: Audio PCM sin procesar de 16 bits a 24 kHz, little-endian Tipos de MIME admitidos: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Valores predeterminados de los parámetros	Sensibilidad cuando comienza a escucharse una voz: Baja Sensibilidad cuando se deja de escuchar una voz: Alta Relleno de prefijo: 0 Tamaño máx. del contexto: 128 K
Regiones admitidas
	Disponibilidad del modelo	Estados Unidos us-central1
	Consulta Implementaciones y endpoints para obtener más información.
Fecha límite de conocimiento	Agosto de 2025
Versiones	`gemini-live-2.5-flash-preview-native-audio-09-2025` Etapa de lanzamiento: Versión preliminar pública Fecha de lanzamiento: 25 de septiembre de 2025
Controles de seguridad
Controles de seguridad	Consulta Controles de seguridad para obtener más información.
Idiomas compatibles	Consulta Idiomas admitidos.
Precios	Consulta la sección de precios.

Gemini 2.5 Flash con la API de Gemini Live Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Audio nativo de Live 2.5 Flash

Vista previa de audio nativo de Live 2.5 Flash

Gemini 2.5 Flash con la API de Gemini Live