Audio nativo de la API Gemini 2.5 Flash Live

Gemini 2.5 Flash con funciones de audio nativas de Live API ofrece nuestra funcionalidad de audio nativa de vanguardia para Live API. Además de las funciones estándar de la API Live, este modelo de vista previa incluye lo siguiente:

  • Calidad de audio mejorada: disfruta de una calidad de audio significativamente mejorada que te hará sentir como si estuvieras hablando con una persona.
  • Calidad de voz y adaptabilidad mejoradas: la API Live de audio nativo ofrece interacciones de voz más naturales y enriquecidas con 30 voces en HD en 24 idiomas.
  • Presentamos Audio proactivo: Cuando Audio proactivo está habilitado, el modelo solo responde cuando es pertinente. El modelo genera transcripciones de texto y respuestas de audio de forma proactiva solo para las consultas dirigidas al dispositivo y no responde a las consultas que no se dirigen al dispositivo.
  • Presentamos Affective Dialog: los modelos que usan el audio nativo de la API Live pueden entender y responder adecuadamente a las expresiones emocionales de los usuarios para mantener conversaciones más matizadas.
  • Interrupción mejorada: interrumpe a Gemini de forma más natural y fiable, incluso en entornos ruidosos.
  • Llamadas a funciones sólidas: hemos mejorado la tasa de activación, lo que permite a Gemini ejecutar correctamente las funciones que definas para dar respuesta a tus casos prácticos.
  • Transcripción precisa: la precisión de la transcripción de audio a texto se ha mejorado significativamente.
  • Compatibilidad multilingüe fluida: habla con Gemini en varios idiomas y cambiará de uno a otro sin problemas y sin necesidad de preconfiguración. El idioma ya no es un obstáculo.

Para obtener más información sobre la API Live, consulta los siguientes artículos:

Probar en Vertex AI

ID del modelo gemini-live-2.5-flash-preview-native-audio-09-2025
Entradas y salidas admitidas
  • Entradas:
    Texto, Audio, Vídeo
  • Salidas:
    Texto Audio
Límites de tokens
  • Número máximo de tokens de entrada: 128.000
  • Tokens de salida máximos: 64.000
  • Ventana de contexto: 32.000 tokens (valor predeterminado), ampliable a 128.000 tokens
Funciones
Tipos de uso
Especificaciones técnicas
Vídeo
  • Resolución estándar: 768x768
  • Tipos MIME admitidos:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Audio
  • Duración máxima de la conversación: 10 minutos de forma predeterminada, pero se puede ampliar.
  • Formato de entrada de audio necesario: Audio PCM sin formato de 16 bits a 16 kHz, little-endian
  • Formato de salida de audio obligatorio: Audio PCM sin procesar de 16 bits a 24 kHz, little-endian
  • Tipos MIME admitidos:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Valores predeterminados de los parámetros
  • Sensibilidad al inicio de la voz: baja
  • Sensibilidad de fin de frase: alta
  • Espacio de relleno del prefijo: 0
  • Tamaño máximo del contexto: 128 K
Regiones disponibles

Disponibilidad del modelo

  • Estados Unidos
    • us-central1
Consulta más información sobre la residencia de los datos.
Fecha de corte de conocimiento Enero del 2025
Versiones
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • Fase de lanzamiento: vista previa pública
    • Fecha de lanzamiento: 18 de septiembre del 2025
  • gemini-live-2.5-flash-preview-native-audio
    • Fase de lanzamiento: vista previa pública
    • Fecha de lanzamiento: 17 de junio del 2025
    • Fecha de retirada: 18 de octubre del 2025
Controles de seguridad
Para obtener más información, consulta Controles de seguridad.
Idiomas disponibles Consulta los idiomas admitidos.
Precios Consulta Precios.