La API Live permite interacciones de voz y vídeo en tiempo real y con baja latencia con Gemini. Procesa flujos continuos de audio, vídeo o texto para ofrecer respuestas inmediatas que parecen humanas. De esta forma, los usuarios disfrutarán de una experiencia conversacional natural.
Características principales
La API Live ofrece un conjunto completo de funciones para crear agentes de voz sólidos:
- Audio nativo: proporciona una voz natural y realista, y mejora el rendimiento multilingüe.
- Compatibilidad multilingüe: habla en 24 idiomas admitidos.
- Detección de actividad de voz (VAD): gestiona automáticamente las interrupciones y los turnos de conversación.
- Diálogo afectivo: adapta el estilo y el tono de las respuestas para que coincidan con la expresión de la entrada del usuario.
- Audio proactivo: te permite controlar cuándo responde el modelo y en qué contextos.
- Razonamiento: Usa tokens de razonamiento ocultos para "pensar" antes de hablar en consultas complejas.
- Uso de herramientas: integra herramientas como las llamadas a funciones y la Búsqueda de Google para ofrecer interacciones dinámicas.
- Transcripciones de audio: proporciona transcripciones de texto de las entradas de los usuarios y de las salidas del modelo.
- Traducción de voz a voz: se ha optimizado para ofrecer una traducción con baja latencia entre idiomas.
Especificaciones técnicas
En la siguiente tabla se indican las especificaciones técnicas de la API Live:
| Categoría | Detalles |
|---|---|
| Modalidades de entrada | Audio (PCM 16 kHz), vídeo (1 FPS) y texto |
| Modalidades de salida | Audio (PCM 24 kHz) y texto |
| Protocolo | Conexión WebSocket con estado (WSS) |
| Latencia | Streaming en tiempo real para recibir comentarios inmediatos |
Modelos admitidos
Los siguientes modelos admiten la API Live. Selecciona el modelo adecuado en función de tus requisitos de interacción.
| ID del modelo | Disponibilidad | Caso práctico | Características principales |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Vista previa pública | Rentabilidad de los agentes de voz en tiempo real. |
Audio nativo Transcripciones de audio Detección de actividad de voz Diálogo afectivo Audio proactivo Uso de herramientas |
gemini-2.5-flash-s2st-exp-11-2025 |
Público experimental | Traducción de voz a voz (experimental). Optimizada para tareas de traducción. |
Audio nativo Transcripciones de audio Uso de herramientas Traducción de voz a voz |
Arquitectura e integración
Hay dos formas principales de integrar la API Live en tu aplicación: de servidor a servidor y de cliente a servidor. Elige la que se ajuste a tus requisitos de seguridad y plataforma.
Servidor a servidor
Se recomienda la arquitectura de servidor a servidor para entornos de producción, como aplicaciones móviles, herramientas empresariales seguras e integración de telefonía. Tu aplicación cliente transmite audio a tu servidor backend seguro. A continuación, tu servidor gestiona la conexión WebSocket con Google.
Este método protege tus claves de API y te permite modificar el audio o añadir lógica antes de enviarlo a Gemini. Sin embargo, añade una pequeña cantidad de latencia de red.
Cliente a servidor
La arquitectura cliente-servidor es adecuada para aplicaciones web, demostraciones rápidas y herramientas internas. El navegador web se conecta directamente a la API Live mediante WebSockets.
Este método ofrece la latencia más baja posible y una arquitectura más sencilla para las demos. Ten en cuenta que este enfoque expone las claves de API al usuario del frontend, lo que supone un riesgo para la seguridad. En producción, debes usar un proxy con cuidado o una gestión de tokens efímeros.
Empezar
Selecciona la guía que se ajuste a tu entorno de desarrollo:
Tutorial del SDK de IA generativa
Conéctate a la API Live mediante el SDK de IA generativa, envía un archivo de audio a Gemini y recibe audio como respuesta.
Tutorial de WebSocket
Conéctate a la API Live mediante WebSockets, envía un archivo de audio a Gemini y recibe audio como respuesta.
Tutorial del ADK
Crea un agente y usa el streaming del kit de desarrollo de agentes (ADK) para habilitar la comunicación por voz y vídeo.
Ejecutar una aplicación web de demostración
Configura y ejecuta una aplicación web que te permita usar la voz y la cámara para hablar con Gemini a través de la API Live.
Integraciones con partners
Si prefieres un proceso de desarrollo más sencillo, puedes usar Daily, LiveKit o Voximplant. Se trata de plataformas de partners de terceros que ya han integrado la API Gemini Live a través del protocolo WebRTC para agilizar el desarrollo de aplicaciones de audio y vídeo en tiempo real.
