La API de Gemini Live permite interacciones de voz y video en tiempo real y de baja latencia con Gemini. Procesa flujos continuos de audio, video o texto para brindar respuestas habladas inmediatas y similares a las de un humano. Esto crea una experiencia de conversación natural para tus usuarios.
Prueba la API de Gemini Live en Vertex AI Studio
Ejemplos de casos de uso
La API de Gemini Live se puede usar para crear agentes de voz y video en tiempo real para una variedad de industrias, incluidas las siguientes:
- Comercio electrónico y venta minorista: Asistentes de compras que ofrecen recomendaciones personalizadas y agentes de asistencia que resuelven los problemas de los clientes.
- Juegos: Personajes controlados por la máquina (NPC) interactivos, asistentes de ayuda en el juego y traducción en tiempo real del contenido del juego
- Interfaces de nueva generación: Experiencias habilitadas para voz y video en robótica, anteojos inteligentes y vehículos.
- Cuidado de la salud: Compañeros de salud para la asistencia y educación de los pacientes
- Servicios financieros: Asesores de IA para la administración de patrimonio y la orientación sobre inversiones
- Educación: Mentores y compañeros de aprendizaje basados en IA que brindan instrucción y comentarios personalizados.
Características clave
La API de Gemini Live ofrece un conjunto integral de funciones para crear agentes de voz y video sólidos:
- Alta calidad de audio: La API de Gemini Live proporciona un habla natural y realista en varios idiomas.
- Compatibilidad multilingüe: Conversa en 24 idiomas compatibles.
- Interrupción: Los usuarios pueden interrumpir el modelo en cualquier momento para tener interacciones responsivas.
- Diálogo afectivo: Adapta el estilo y el tono de la respuesta para que coincidan con la expresión de entrada del usuario.
- Uso de herramientas: Integra herramientas como las llamadas a funciones y la Búsqueda de Google para interacciones dinámicas.
- Transcripciones de audio: Proporciona transcripciones de texto de la entrada del usuario y la salida del modelo.
- Traducción de voz a voz: (Experimental privada) Se optimizó para la traducción de baja latencia entre idiomas.
- Audio proactivo: (versión preliminar) Te permite controlar cuándo responde el modelo y en qué contextos.
Especificaciones técnicas
En la siguiente tabla, se describen las especificaciones técnicas de la API de Gemini Live:
| Categoría | Detalles |
|---|---|
| Modalidades de entrada | Audio (audio PCM sin procesar de 16 bits, 16 kHz, little-endian), imágenes o video (JPEG de 1 FPS), texto |
| Modalidades de salida | Audio (audio PCM sin procesar de 16 bits, 24 kHz, little-endian), texto |
| Protocolo | Conexión de WebSocket con estado (WSS) |
Modelos compatibles
Los siguientes modelos admiten la API de Gemini Live. Selecciona el modelo adecuado según tus requisitos de interacción.
| ID de modelo | Disponibilidad | Caso de uso | Características clave |
|---|---|---|---|
gemini-live-2.5-flash-native-audio |
Disponible de manera general | Recomendada. Agentes de voz de baja latencia Admite el cambio de idioma y el tono emocional sin interrupciones. |
|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Versión preliminar pública | Rentabilidad en agentes de voz en tiempo real |
|
gemini-2.5-flash-s2st-exp-11-2025 |
Experimental privado | Traducción de voz a voz. Se optimizó para tareas de traducción de voz en tiempo real. |
|
Comenzar
Selecciona la guía que coincida con tu entorno de desarrollo:
Instructivo del SDK de IA generativa
Conéctate a la API de Gemini Live con el SDK de IA generativa para compilar una aplicación multimodal en tiempo real con un backend de Python.
Tutorial de WebSocket
Conéctate a la API de Gemini Live con WebSockets para compilar una aplicación multimodal en tiempo real con un frontend de JavaScript y un backend de Python.
Instructivo de ADK
Crea un agente y usa la transmisión del Kit de desarrollo de agentes (ADK) para habilitar la comunicación por voz y video.
Integraciones a socios
Si deseas realizar una integración con algunos de nuestros socios, estas plataformas ya integraron la API de Gemini Live a través del protocolo WebRTC para optimizar el desarrollo de aplicaciones de audio y video en tiempo real.
