Información general sobre la API Live

La API Live permite interacciones de voz y vídeo en tiempo real y con baja latencia con Gemini. Procesa flujos continuos de audio, vídeo o texto para ofrecer respuestas inmediatas que parecen humanas. De esta forma, los usuarios disfrutarán de una experiencia conversacional natural.

Características principales

La API Live ofrece un conjunto completo de funciones para crear agentes de voz sólidos:

Especificaciones técnicas

En la siguiente tabla se indican las especificaciones técnicas de la API Live:

Categoría Detalles
Modalidades de entrada Audio (PCM 16 kHz), vídeo (1 FPS) y texto
Modalidades de salida Audio (PCM 24 kHz) y texto
Protocolo Conexión WebSocket con estado (WSS)
Latencia Streaming en tiempo real para recibir comentarios inmediatos

Modelos admitidos

Los siguientes modelos admiten la API Live. Selecciona el modelo adecuado en función de tus requisitos de interacción.

ID del modelo Disponibilidad Caso práctico Características principales
gemini-live-2.5-flash-preview-native-audio-09-2025 Vista previa pública Rentabilidad de los agentes de voz en tiempo real. Audio nativo
Transcripciones de audio
Detección de actividad de voz
Diálogo afectivo
Audio proactivo
Uso de herramientas
gemini-2.5-flash-s2st-exp-11-2025 Público experimental Traducción de voz a voz (experimental). Optimizada para tareas de traducción. Audio nativo
Transcripciones de audio
Uso de herramientas
Traducción de voz a voz

Arquitectura e integración

Hay dos formas principales de integrar la API Live en tu aplicación: de servidor a servidor y de cliente a servidor. Elige la que se ajuste a tus requisitos de seguridad y plataforma.

Servidor a servidor

Se recomienda la arquitectura de servidor a servidor para entornos de producción, como aplicaciones móviles, herramientas empresariales seguras e integración de telefonía. Tu aplicación cliente transmite audio a tu servidor backend seguro. A continuación, tu servidor gestiona la conexión WebSocket con Google.

Este método protege tus claves de API y te permite modificar el audio o añadir lógica antes de enviarlo a Gemini. Sin embargo, añade una pequeña cantidad de latencia de red.

Cliente a servidor

La arquitectura cliente-servidor es adecuada para aplicaciones web, demostraciones rápidas y herramientas internas. El navegador web se conecta directamente a la API Live mediante WebSockets.

Este método ofrece la latencia más baja posible y una arquitectura más sencilla para las demos. Ten en cuenta que este enfoque expone las claves de API al usuario del frontend, lo que supone un riesgo para la seguridad. En producción, debes usar un proxy con cuidado o una gestión de tokens efímeros.

Empezar

Selecciona la guía que se ajuste a tu entorno de desarrollo:

Recomendado por su facilidad de uso

Conéctate a la API Live mediante el SDK de IA generativa, envía un archivo de audio a Gemini y recibe audio como respuesta.

Control de protocolo sin procesar

Conéctate a la API Live mediante WebSockets, envía un archivo de audio a Gemini y recibe audio como respuesta.

Agent Development Kit

Crea un agente y usa el streaming del kit de desarrollo de agentes (ADK) para habilitar la comunicación por voz y vídeo.

Integración de React/js

Configura y ejecuta una aplicación web que te permita usar la voz y la cámara para hablar con Gemini a través de la API Live.

Integraciones con partners

Si prefieres un proceso de desarrollo más sencillo, puedes usar Daily, LiveKit o Voximplant. Se trata de plataformas de partners de terceros que ya han integrado la API Gemini Live a través del protocolo WebRTC para agilizar el desarrollo de aplicaciones de audio y vídeo en tiempo real.