Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Descripción general de la API de Gemini Live

Precaución: gemini-live-2.5-flash-preview-native-audio-09-2025 dejará de estar disponible y se quitará el 19 de marzo de 2026. Migra cualquier flujo de trabajo a gemini-live-2.5-flash-native-audio.

La API de Gemini Live permite interacciones de voz y video en tiempo real y de baja latencia con Gemini. Procesa transmisiones continuas de audio, video o texto para entregar respuestas habladas inmediatas y similares a las de un humano. Esto crea una experiencia de conversación natural para tus usuarios.

Prueba la API de Gemini Live en Agent Platform Studio

Ejemplos de casos de uso

La API de Gemini Live se puede usar para compilar agentes de voz y video en tiempo real para una variedad de industrias, incluidas las siguientes:

Comercio electrónico y venta minorista: Asistentes de compras que ofrecen recomendaciones personalizadas y agentes de asistencia que resuelven los problemas de los clientes
Juegos: Personajes controlados por la máquina (NPC) interactivos, asistentes de ayuda en el juego y traducción en tiempo real del contenido del juego
Interfaces de próxima generación: Experiencias habilitadas para voz y video en robótica, anteojos inteligentes y vehículos
Cuidado de la salud: Compañeros de salud para la educación y la asistencia al paciente
Servicios financieros: Asesores de IA para la administración de patrimonio y la orientación sobre inversiones
Educación: Mentores de IA y compañeros de aprendizaje que proporcionan instrucción y comentarios personalizados

Características clave

La API de Gemini Live ofrece un conjunto integral de funciones para compilar agentes de voz y video sólidos:

Alta calidad de audio: La API de Gemini Live proporciona voz natural y de sonido realista en varios idiomas.
Compatibilidad multilingüe: Conversa en 24 idiomas compatibles.
Interrupción: Los usuarios pueden interrumpir el modelo en cualquier momento para obtener interacciones responsivas.
**Diálogo basado en emociones detectadas**: Adapta el estilo y el tono de la respuesta para que coincidan con la expresión de entrada del usuario.
Uso de herramientas: Integra herramientas como la llamada a funciones y la Búsqueda de Google para interacciones dinámicas.
Transcripciones de audio: Proporciona transcripciones de texto de la entrada del usuario y del resultado del modelo.
Audio proactivo: (Versión preliminar) Te permite controlar cuándo responde el modelo y en qué contextos.

Especificaciones técnicas

En la siguiente tabla, se describen las especificaciones técnicas de la API de Gemini Live:

Categoría	Detalles
Modalidades de entrada	Audio (audio PCM sin procesar de 16 bits, 16 kHz, little-endian), imágenes o video (JPEG 1 FPS) y texto
Modalidades de salida	Audio (audio PCM sin procesar de 16 bits, 24 kHz, little-endian) y texto
Protocolo	Conexión WebSocket con estado (WSS)

Modelos compatibles

Los siguientes modelos admiten la API de Gemini Live. Selecciona el modelo adecuado según tus requisitos de interacción.

ID de modelo	Disponibilidad	Caso de uso	Características clave
`gemini-live-2.5-flash-native-audio`	Disponible de manera general	Recomendado. Agentes de voz de baja latencia. Admite el cambio multilingüe sin interrupciones y el tono emocional.	Audio nativo Transcripción de audio Detección de actividad de voz Diálogo basado en emociones detectadas Audio proactivo Uso de herramientas
`gemini-live-2.5-flash-preview-native-audio-09-2025`	Versión preliminar pública	Rentabilidad en agentes de voz en tiempo real.	Audio nativo Transcripción de audio Detección de actividad de voz Diálogo basado en emociones detectadas Audio proactivo Uso de herramientas

Comenzar

Selecciona la guía que coincida con tu entorno de desarrollo:

Recomendado para facilitar el uso

Instructivo del SDK de IA generativa

Conéctate a la API de Gemini Live con el SDK de IA generativa para compilar una aplicación multimodal en tiempo real con un backend de Python.

Control de protocolo sin procesar

Instructivo de WebSocket

Conéctate a la API de Gemini Live con WebSockets para compilar una aplicación multimodal en tiempo real con un frontend de JavaScript y un backend de Python.

Kit de desarrollo de agentes

Instructivo de ADK

Crea un agente y usa la transmisión del Kit de desarrollo de agentes (ADK) para habilitar la comunicación de voz y video.

Integraciones a socios

Si deseas realizar una integración con algunos de nuestros socios, estas plataformas ya integraron la API de Gemini Live a través del protocolo WebRTC para optimizar el desarrollo de aplicaciones de audio y video en tiempo real.

Descripción general de la API de Gemini Live Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Ejemplos de casos de uso

Características clave

Especificaciones técnicas

Modelos compatibles

Comenzar

Instructivo del SDK de IA generativa

Instructivo de WebSocket

Instructivo de ADK

Integraciones a socios

Descripción general de la API de Gemini Live