La API de Live permite interacciones de voz y video en tiempo real y de baja latencia con Gemini. Procesa flujos continuos de audio, video o texto para brindar respuestas habladas inmediatas y similares a las de un humano. Esto crea una experiencia de conversación natural para tus usuarios.
Características clave
La API de Live ofrece un conjunto integral de funciones para crear agentes de voz sólidos:
- Audio nativo: Proporciona voz natural y realista, y mejora el rendimiento en varios idiomas.
- Compatibilidad con varios idiomas: Conversa en 24 idiomas admitidos.
- Detección de actividad de voz (VAD): Maneja automáticamente las interrupciones y los turnos.
- Diálogo afectivo: Adapta el estilo y el tono de la respuesta para que coincidan con la expresión de entrada del usuario.
- Audio proactivo: Te permite controlar cuándo responde el modelo y en qué contextos.
- Pensamiento: Usa tokens de razonamiento ocultos para "pensar" antes de hablar en el caso de consultas complejas.
- Uso de herramientas: Integra herramientas como la llamada a funciones y la Búsqueda de Google para interacciones dinámicas.
- Transcripciones de audio: Proporciona transcripciones de texto de la entrada del usuario y la salida del modelo.
- Traducción de voz a voz: Se optimizó para la traducción de baja latencia entre idiomas.
Especificaciones técnicas
En la siguiente tabla, se describen las especificaciones técnicas de la API de Live:
| Categoría | Detalles |
|---|---|
| Modalidades de entrada | Audio (PCM 16 kHz), video (1 FPS), texto |
| Modalidades de salida | Audio (PCM de 24 kHz) y texto |
| Protocolo | Conexión de WebSocket con estado (WSS) |
| Latencia | Transmisión en tiempo real para obtener comentarios inmediatos |
Modelos compatibles
Los siguientes modelos admiten la API de Live. Selecciona el modelo adecuado según tus requisitos de interacción.
| ID de modelo | Disponibilidad | Caso de uso | Características clave |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Versión preliminar pública | Rentabilidad en agentes de voz en tiempo real |
Audio nativo Transcripciones de audio Detección de actividad de voz Diálogo afectivo Audio proactivo Uso de herramientas |
gemini-2.5-flash-s2st-exp-11-2025 |
Experimental pública | Traducción de voz a voz (experimental) Optimizado para tareas de traducción. |
Audio nativo Transcripciones de audio Uso de herramientas Traducción de voz a voz |
Arquitectura e integración
Existen dos formas principales de integrar la API de Live en tu aplicación: de servidor a servidor y de cliente a servidor. Elige el que se ajuste a tus requisitos de seguridad y plataforma.
De servidor a servidor
Se recomienda la arquitectura de servidor a servidor para los entornos de producción, como las apps para dispositivos móviles, las herramientas empresariales seguras y la integración de telefonía. Tu aplicación cliente transmite audio a tu servidor de backend seguro. Luego, tu servidor administra la conexión de WebSocket a Google.
Este método mantiene seguras tus claves de API y te permite modificar el audio o agregar lógica antes de enviarlo a Gemini. Sin embargo, agrega una pequeña cantidad de latencia de red.
Del cliente al servidor
La arquitectura cliente-servidor es adecuada para apps web, demostraciones rápidas y herramientas internas. El navegador web se conecta directamente a la API de Live con WebSockets.
Este método proporciona la menor latencia posible y una arquitectura más simple para las demostraciones. Ten en cuenta que este enfoque expone las claves de API al usuario del frontend, lo que genera un riesgo de seguridad. Para la producción, debes usar un proxy cuidadoso o una administración de tokens efímeros.
Comenzar
Selecciona la guía que coincida con tu entorno de desarrollo:
Instructivo del SDK de IA generativa
Conéctate a la API de Live con el SDK de IA generativa, envía un archivo de audio a Gemini y recibe audio como respuesta.
Tutorial de WebSocket
Conéctate a la API de Live con WebSockets, envía un archivo de audio a Gemini y recibe audio como respuesta.
Instructivo de ADK
Crea un agente y usa la transmisión del Kit de desarrollo de agentes (ADK) para habilitar la comunicación por voz y video.
Ejecuta una app web de demostración
Configura y ejecuta una aplicación web que te permita usar tu voz y tu cámara para hablar con Gemini a través de la API de Live.
Integraciones a socios
Si prefieres un proceso de desarrollo más simple, puedes usar Daily, LiveKit o Voximplant. Son plataformas de socios externos que ya integraron la API de Gemini Live a través del protocolo WebRTC para optimizar el desarrollo de aplicaciones de audio y video en tiempo real.
