Información general sobre la API Gemini Live

La API Gemini Live permite interacciones de voz y vídeo en tiempo real con baja latencia con Gemini. Procesa flujos continuos de audio, vídeo o texto para ofrecer respuestas inmediatas que parecen humanas. De esta forma, los usuarios disfrutarán de una experiencia conversacional natural.

Probar la API Gemini Live en Vertex AI Studio

Ejemplos de casos prácticos

La API Gemini Live se puede usar para crear agentes de voz y vídeo en tiempo real para una gran variedad de sectores, entre los que se incluyen los siguientes:

Comercio electrónico y comercio minorista: asistentes de compra que ofrecen recomendaciones personalizadas y agentes de asistencia que resuelven los problemas de los clientes.
Videojuegos: personajes no jugables (PNJs) interactivos, asistentes de ayuda en el juego y traducción en tiempo real del contenido del juego.
Interfaces de nueva generación: experiencias habilitadas por voz y vídeo en robótica, gafas inteligentes y vehículos.
Salud: compañeros de salud para ofrecer asistencia y formación a los pacientes.
Servicios financieros: asesores de IA para la gestión de patrimonio y el asesoramiento sobre inversiones.
Educación: mentores y compañeros de aprendizaje de IA que ofrecen instrucciones y comentarios personalizados.

Características principales

La API Gemini Live ofrece un conjunto completo de funciones para crear agentes de voz y vídeo sólidos:

Audio de alta calidad: La API Gemini Live ofrece una voz natural y realista en varios idiomas.
Compatibilidad con varios idiomas: puedes comunicarte en 24 idiomas.
Interrupción: los usuarios pueden interrumpir el modelo en cualquier momento para disfrutar de interacciones adaptadas.
Diálogo afectivo: adapta el estilo y el tono de las respuestas para que coincidan con la expresión de la entrada del usuario.
Uso de herramientas: integra herramientas como la llamada a funciones y la Búsqueda de Google para ofrecer interacciones dinámicas.
Transcripciones de audio: proporciona transcripciones de texto de las entradas de los usuarios y de las salidas del modelo.
Audio proactivo: (vista previa) Te permite controlar cuándo responde el modelo y en qué contextos.

Especificaciones técnicas

En la siguiente tabla se indican las especificaciones técnicas de la API Gemini Live:

Categoría	Detalles
Modalidades de entrada	Audio (audio PCM sin procesar de 16 bits, 16 kHz, little-endian), imágenes o vídeo (JPEG a 1 FPS) y texto
Modalidades de salida	Audio (audio PCM sin procesar de 16 bits, 24 kHz, little-endian) y texto
Protocolo	Conexión WebSocket con estado (WSS)

Modelos admitidos

Los siguientes modelos admiten la API Gemini Live. Selecciona el modelo adecuado en función de tus requisitos de interacción.

ID del modelo	Disponibilidad	Caso práctico	Características principales
`gemini-live-2.5-flash-native-audio`	Disponible de forma general	Recomendado. Agentes de voz con baja latencia. Permite cambiar de idioma y tono emocional sin problemas.	Audio nativo Transcripciones de audio Detección de actividad de voz Diálogo afectivo Audio proactivo Uso de herramientas
`gemini-live-2.5-flash-preview-native-audio-09-2025`	Vista previa pública	Rentabilidad de los agentes de voz en tiempo real.	Audio nativo Transcripciones de audio Detección de actividad de voz Diálogo afectivo Audio proactivo Uso de herramientas

Empezar

Selecciona la guía que se ajuste a tu entorno de desarrollo:

Recomendado por su facilidad de uso

Tutorial del SDK de IA generativa

Conéctate a la API Gemini Live mediante el SDK de IA generativa para crear una aplicación multimodal en tiempo real con un backend de Python.

Control de protocolo sin procesar

Tutorial de WebSocket

Conéctate a la API Gemini Live mediante WebSockets para crear una aplicación multimodal en tiempo real con un frontend de JavaScript y un backend de Python.

Agent Development Kit

Tutorial del ADK

Crea un agente y usa el streaming del kit de desarrollo de agentes (ADK) para habilitar la comunicación por voz y vídeo.

Integraciones con partners

Si quieres integrar Gemini Live con alguno de nuestros partners, estas plataformas ya han integrado la API de Gemini Live a través del protocolo WebRTC para optimizar el desarrollo de aplicaciones de audio y vídeo en tiempo real.

Información general sobre la API Gemini Live Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.