Información general sobre la API Gemini Live

La API Gemini Live permite interacciones de voz y vídeo en tiempo real y con baja latencia con Gemini. Procesa flujos continuos de audio, vídeo o texto para ofrecer respuestas inmediatas y similares a las humanas. De esta forma, los usuarios disfrutarán de una experiencia conversacional natural.

Probar la API Gemini Live en Vertex AI Studio

Ejemplos de casos prácticos

La API Gemini Live se puede usar para crear agentes de voz y vídeo en tiempo real para una gran variedad de sectores, entre los que se incluyen los siguientes:

  • Comercio electrónico y comercio minorista: asistentes de compras que ofrecen recomendaciones personalizadas y agentes de asistencia que resuelven los problemas de los clientes.
  • Videojuegos: personajes no jugables (PNJs) interactivos, asistentes de ayuda en el juego y traducción en tiempo real del contenido del juego.
  • Interfaces de nueva generación: experiencias con voz y vídeo en robótica, gafas inteligentes y vehículos.
  • Salud: compañeros de salud para ofrecer asistencia y formación a los pacientes.
  • Servicios financieros: asesores de IA para la gestión de patrimonio y la orientación sobre inversiones.
  • Educación: mentores y compañeros de aprendizaje de IA que ofrecen instrucciones y comentarios personalizados.

Características principales

La API Gemini Live ofrece un conjunto completo de funciones para crear agentes de voz y vídeo sólidos:

  • Audio de alta calidad: La API Gemini Live ofrece una voz natural y realista en varios idiomas.
  • Compatibilidad con varios idiomas: habla en 24 idiomas.
  • Interrupción: Los usuarios pueden interrumpir el modelo en cualquier momento para disfrutar de interacciones adaptadas.
  • Diálogo afectivo: Adapta el estilo y el tono de las respuestas para que coincidan con la expresión de la entrada del usuario.
  • Uso de herramientas: integra herramientas como la llamada a funciones y la Búsqueda de Google para ofrecer interacciones dinámicas.
  • Transcripciones de audio: proporciona transcripciones de texto de las entradas de los usuarios y de las salidas del modelo.
  • Traducción de voz a voz: (experimental y privada) Optimizado para la traducción de baja latencia entre idiomas.
  • Audio proactivo: (vista previa) Te permite controlar cuándo responde el modelo y en qué contextos.

Especificaciones técnicas

En la siguiente tabla se indican las especificaciones técnicas de la API Gemini Live:

Categoría Detalles
Modalidades de entrada Audio (audio PCM sin procesar de 16 bits, 16 kHz, little-endian), imágenes o vídeo (JPEG a 1 FPS) y texto
Modalidades de salida Audio (audio PCM sin procesar de 16 bits, 24 kHz, little-endian) y texto
Protocolo Conexión WebSocket con estado (WSS)

Modelos admitidos

Los siguientes modelos admiten la API Gemini Live. Selecciona el modelo adecuado en función de tus requisitos de interacción.

ID del modelo Disponibilidad Caso práctico Características principales
gemini-live-2.5-flash-native-audio Disponible de forma general Recomendado. Agentes de voz con baja latencia. Permite cambiar de idioma y tono emocional sin problemas.
  • Audio nativo
  • Transcripciones de audio
  • Detección de actividad de voz
  • Diálogo afectivo
  • Audio proactivo
  • Uso de herramientas
gemini-live-2.5-flash-preview-native-audio-09-2025 Vista previa pública Rentabilidad de los agentes de voz en tiempo real.
  • Audio nativo
  • Transcripciones de audio
  • Detección de actividad de voz
  • Diálogo afectivo
  • Audio proactivo
  • Uso de herramientas
gemini-2.5-flash-s2st-exp-11-2025 Private experimental Traducción de voz a voz. Optimizado para tareas de traducción de voz en tiempo real.
  • Traducción de voz a voz

Empezar

Selecciona la guía que se ajuste a tu entorno de desarrollo:

Recomendado por su facilidad de uso

Conéctate a la API Gemini Live mediante el SDK de IA generativa para crear una aplicación multimodal en tiempo real con un backend de Python.

Control de protocolo sin procesar

Conéctate a la API Gemini Live mediante WebSockets para crear una aplicación multimodal en tiempo real con un frontend de JavaScript y un backend de Python.

Agent Development Kit

Crea un agente y usa el streaming del kit de desarrollo de agentes (ADK) para habilitar la comunicación por voz y vídeo.

Integraciones con partners

Si quieres integrar Gemini Live con alguno de nuestros partners, estas plataformas ya han integrado la API de Gemini Live a través del protocolo WebRTC para optimizar el desarrollo de aplicaciones de audio y vídeo en tiempo real.