Información general sobre la API Gemini Live

La API Gemini Live permite interacciones de voz y vídeo en tiempo real y con baja latencia con Gemini. Procesa flujos continuos de audio, vídeo o texto para ofrecer respuestas inmediatas que parecen humanas. De esta forma, los usuarios disfrutarán de una experiencia conversacional natural.

Prueba la API Gemini Live en la Google Cloud consola

Características principales

La API Gemini Live ofrece un conjunto completo de funciones para crear agentes de voz y vídeo eficaces:

  • Audio de alta calidad: la API de Gemini Live ofrece una voz natural y realista en varios idiomas.
  • Compatibilidad multilingüe: habla en 24 idiomas admitidos.
  • Interrupción: Los usuarios pueden interrumpir el modelo en cualquier momento para disfrutar de interacciones adaptadas.
  • Diálogo afectivo: adapta el estilo y el tono de las respuestas para que coincidan con la expresión de la entrada del usuario.
  • Audio proactivo: te permite controlar cuándo responde el modelo y en qué contextos.
  • Uso de herramientas: integra herramientas como las llamadas a funciones y la Búsqueda de Google para ofrecer interacciones dinámicas.
  • Transcripciones de audio: proporciona transcripciones de texto de las entradas de los usuarios y de las salidas del modelo.
  • Traducción de voz a voz: (experimental) Optimizado para la traducción de baja latencia entre idiomas.

Especificaciones técnicas

En la siguiente tabla se indican las especificaciones técnicas de la API Gemini Live:

Categoría Detalles
Modalidades de entrada Audio (audio PCM sin procesar de 16 bits, 16 kHz, little-endian), imágenes o vídeo (JPEG a 1 FPS) y texto
Modalidades de salida Audio (audio PCM sin procesar de 16 bits, 24 kHz, little-endian) y texto
Protocolo Conexión WebSocket con estado (WSS)

Modelos admitidos

Los siguientes modelos admiten la API Gemini Live. Selecciona el modelo adecuado en función de tus requisitos de interacción.

ID del modelo Disponibilidad Caso práctico Características principales
gemini-live-2.5-flash-preview-native-audio-09-2025 Vista previa pública Rentabilidad de los agentes de voz en tiempo real. Audio nativo
Transcripciones de audio
Detección de actividad de voz
Diálogo afectivo
Audio proactivo
Uso de herramientas
gemini-2.5-flash-s2st-exp-11-2025 Experimental privada Traducción de voz a voz (experimental). Optimizada para tareas de traducción. Audio nativo
Transcripciones de audio
Uso de herramientas
Traducción de voz a voz

Arquitectura e integración

Hay dos formas principales de integrar la API Gemini Live en tu aplicación: de servidor a servidor y de cliente a servidor. Elige la que se ajuste a tus requisitos de seguridad y plataforma.

Servidor a servidor

Se recomienda la arquitectura de servidor a servidor para entornos de producción, como aplicaciones móviles, herramientas empresariales seguras e integración de telefonía. Tu aplicación cliente transmite audio a tu servidor backend seguro. A continuación, tu servidor gestiona la conexión WebSocket con Google.

Este método protege tus claves de API y te permite modificar el audio o añadir lógica antes de enviarlo a Gemini. Sin embargo, añade una pequeña cantidad de latencia de red.

Cliente a servidor

La arquitectura cliente-servidor es adecuada para aplicaciones web, demostraciones rápidas y herramientas internas. El navegador web se conecta directamente a la API de Gemini Live mediante WebSockets.

Este método ofrece la latencia más baja posible y una arquitectura más sencilla para las demos. Ten en cuenta que este enfoque expone las claves de API al usuario del frontend, lo que supone un riesgo para la seguridad. En producción, debes usar un proxy con cuidado o una gestión de tokens efímeros.

Empezar

Selecciona la guía que se ajuste a tu entorno de desarrollo:

Recomendado por su facilidad de uso

Conéctate a la API Gemini Live mediante el SDK de IA generativa, envía un archivo de audio a Gemini y recibe audio como respuesta.

Control de protocolo sin procesar

Conéctate a la API Gemini Live mediante WebSockets, envía un archivo de audio a Gemini y recibe audio como respuesta.

Agent Development Kit

Crea un agente y usa el streaming del kit de desarrollo de agentes (ADK) para habilitar la comunicación por voz y vídeo.

Integraciones con partners

Si prefieres un proceso de desarrollo más sencillo, puedes usar una de nuestras plataformas asociadas. Estas plataformas ya han integrado la API Gemini Live a través del protocolo WebRTC para agilizar el desarrollo de aplicaciones de audio y vídeo en tiempo real.