La API Gemini Live permite interacciones de voz y vídeo en tiempo real y con baja latencia con Gemini. Procesa flujos continuos de audio, vídeo o texto para ofrecer respuestas inmediatas y similares a las humanas. De esta forma, los usuarios disfrutarán de una experiencia conversacional natural.
Probar la API Gemini Live en Vertex AI Studio
Ejemplos de casos prácticos
La API Gemini Live se puede usar para crear agentes de voz y vídeo en tiempo real para una gran variedad de sectores, entre los que se incluyen los siguientes:
- Comercio electrónico y comercio minorista: asistentes de compras que ofrecen recomendaciones personalizadas y agentes de asistencia que resuelven los problemas de los clientes.
- Videojuegos: personajes no jugables (PNJs) interactivos, asistentes de ayuda en el juego y traducción en tiempo real del contenido del juego.
- Interfaces de nueva generación: experiencias con voz y vídeo en robótica, gafas inteligentes y vehículos.
- Salud: compañeros de salud para ofrecer asistencia y formación a los pacientes.
- Servicios financieros: asesores de IA para la gestión de patrimonio y la orientación sobre inversiones.
- Educación: mentores y compañeros de aprendizaje de IA que ofrecen instrucciones y comentarios personalizados.
Características principales
La API Gemini Live ofrece un conjunto completo de funciones para crear agentes de voz y vídeo sólidos:
- Audio de alta calidad: La API Gemini Live ofrece una voz natural y realista en varios idiomas.
- Compatibilidad con varios idiomas: habla en 24 idiomas.
- Interrupción: Los usuarios pueden interrumpir el modelo en cualquier momento para disfrutar de interacciones adaptadas.
- Diálogo afectivo: Adapta el estilo y el tono de las respuestas para que coincidan con la expresión de la entrada del usuario.
- Uso de herramientas: integra herramientas como la llamada a funciones y la Búsqueda de Google para ofrecer interacciones dinámicas.
- Transcripciones de audio: proporciona transcripciones de texto de las entradas de los usuarios y de las salidas del modelo.
- Traducción de voz a voz: (experimental y privada) Optimizado para la traducción de baja latencia entre idiomas.
- Audio proactivo: (vista previa) Te permite controlar cuándo responde el modelo y en qué contextos.
Especificaciones técnicas
En la siguiente tabla se indican las especificaciones técnicas de la API Gemini Live:
| Categoría | Detalles |
|---|---|
| Modalidades de entrada | Audio (audio PCM sin procesar de 16 bits, 16 kHz, little-endian), imágenes o vídeo (JPEG a 1 FPS) y texto |
| Modalidades de salida | Audio (audio PCM sin procesar de 16 bits, 24 kHz, little-endian) y texto |
| Protocolo | Conexión WebSocket con estado (WSS) |
Modelos admitidos
Los siguientes modelos admiten la API Gemini Live. Selecciona el modelo adecuado en función de tus requisitos de interacción.
| ID del modelo | Disponibilidad | Caso práctico | Características principales |
|---|---|---|---|
gemini-live-2.5-flash-native-audio |
Disponible de forma general | Recomendado. Agentes de voz con baja latencia. Permite cambiar de idioma y tono emocional sin problemas. |
|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Vista previa pública | Rentabilidad de los agentes de voz en tiempo real. |
|
gemini-2.5-flash-s2st-exp-11-2025 |
Private experimental | Traducción de voz a voz. Optimizado para tareas de traducción de voz en tiempo real. |
|
Empezar
Selecciona la guía que se ajuste a tu entorno de desarrollo:
Tutorial del SDK de IA generativa
Conéctate a la API Gemini Live mediante el SDK de IA generativa para crear una aplicación multimodal en tiempo real con un backend de Python.
Tutorial de WebSocket
Conéctate a la API Gemini Live mediante WebSockets para crear una aplicación multimodal en tiempo real con un frontend de JavaScript y un backend de Python.
Tutorial del ADK
Crea un agente y usa el streaming del kit de desarrollo de agentes (ADK) para habilitar la comunicación por voz y vídeo.
Integraciones con partners
Si quieres integrar Gemini Live con alguno de nuestros partners, estas plataformas ya han integrado la API de Gemini Live a través del protocolo WebRTC para optimizar el desarrollo de aplicaciones de audio y vídeo en tiempo real.
