Audio nativo de la API de Gemini 2.5 Flash Live

Gemini 2.5 Flash con funciones de audio nativo de la API de Live ofrece nuestra funcionalidad de audio nativo de vanguardia para la API de Live. Además de las funciones estándar de la API de Live, este modelo de vista previa incluye lo siguiente:

  • Calidad de audio mejorada: Experimenta una calidad de audio significativamente mejorada que se siente como hablar con una persona.
  • Calidad y adaptabilidad de voz mejoradas: El audio nativo de la API de Live proporciona interacciones de voz más naturales y enriquecidas con 30 voces en HD en 24 idiomas.
  • Presentamos el Audio Proactivo: Cuando se habilita el Audio Proactivo, el modelo solo responde cuando es pertinente. El modelo genera transcripciones de texto y respuestas de audio de forma proactiva solo para las preguntas dirigidas al dispositivo, y no responde a las preguntas que no se dirigen al dispositivo.
  • Presentamos el diálogo afectivo: Los modelos que usan audio nativo de la API de Live pueden comprender y responder de manera adecuada a las expresiones emocionales de los usuarios para tener conversaciones más matizadas.
  • Interrupción mejorada: Interrumpe a Gemini de manera más natural y confiable, incluso en entornos ruidosos.
  • Llamada a función sólida: Mejoramos la tasa de activación, lo que permite que Gemini ejecute correctamente las funciones que defines para admitir tus casos de uso.
  • Transcripción precisa: Se mejoró significativamente la precisión de la transcripción de audio a texto.
  • Compatibilidad multilingüe sin interrupciones: Habla con Gemini en varios idiomas, y cambiará entre ellos sin esfuerzo y sin necesidad de configuración previa. El idioma ya no es una barrera.

Para obtener más información sobre la API de Live, consulta los siguientes recursos:

Probar en Vertex AI

ID de modelo gemini-live-2.5-flash-preview-native-audio-09-2025
Entradas y salidas compatibles
  • Entradas:
    Texto, Imágenes, Audio, Video
  • Resultados:
    Texto, Audio
Límites de tokens
  • Cantidad máxima de tokens de entrada: 128,000
  • Cantidad máxima de tokens de salida: 64,000
  • Ventana de contexto: 32,000 (predeterminada), actualizable a 128,000
Funciones
Tipos de uso
Especificaciones técnicas
Imágenes
  • Cantidad máxima de imágenes por instrucción: 3,000
  • Tamaño máximo de archivo por archivo para los datos intercalados o las cargas directas a través de la consola: 7 MB
  • Tamaño máximo de archivo por archivo de Google Cloud Storage: 30 MB
  • Tipos de MIME admitidos:
    image/png, image/jpeg, image/webp, image/heic, image/heif
Video
  • Resolución estándar: 768 × 768
  • Tipos de MIME admitidos:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Audio
  • Duración máxima de la conversación: De forma predeterminada, 10 minutos que se pueden extender.
  • Formato de entrada de audio requerido: Audio PCM sin procesar de 16 bits a 16 kHz, little-endian
  • Formato de salida de audio requerido: Audio PCM sin procesar de 16 bits a 24 kHz, little-endian
  • Tipos de MIME admitidos:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Valores predeterminados de los parámetros
  • Sensibilidad cuando comienza a escucharse una voz: Baja
  • Sensibilidad al final de la voz: Alta
  • Relleno de prefijo: 0
  • Tamaño máximo del contexto: 128 K
Regiones admitidas

Disponibilidad del modelo

  • Estados Unidos
    • us-central1
Consulta Residencia de datos para obtener más información.
Fecha límite de conocimiento Enero de 2025
Versiones
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • Etapa de lanzamiento: Versión preliminar pública
    • Fecha de lanzamiento: 18 de septiembre de 2025
  • gemini-live-2.5-flash-preview-native-audio
    • Etapa de lanzamiento: Versión preliminar pública
    • Fecha de lanzamiento: 17 de junio de 2025
    • Fecha de descontinuación: 18 de octubre de 2025
Controles de seguridad
Consulta Controles de seguridad para obtener más información.
Idiomas compatibles Consulta Idiomas admitidos.
Precios Consulta la sección de precios.