Visão geral da API Live

A API Live permite interações de voz e vídeo em tempo real e de baixa latência com o Gemini. Ele processa fluxos contínuos de áudio, vídeo ou texto para fornecer respostas faladas imediatas e semelhantes às humanas. Isso cria uma experiência de conversa natural para os usuários.

Principais recursos

A API Live oferece um conjunto abrangente de recursos para criar agentes de voz robustos:

Especificações técnicas

A tabela a seguir descreve as especificações técnicas da API Live:

Categoria Detalhes
Modalidades de entrada Áudio (PCM 16 kHz), vídeo (1 QPS), texto
Modalidades de saída Áudio (PCM 24 kHz), texto
Protocolo Conexão WebSocket com estado (WSS)
Latência Streaming em tempo real para feedback imediato

Modelos compatíveis

Os seguintes modelos são compatíveis com a API Live. Selecione o modelo adequado com base nos seus requisitos de interação.

ID do modelo Disponibilidade Caso de uso Principais recursos
gemini-live-2.5-flash-preview-native-audio-09-2025 Pré-lançamento público Custo-benefício em agentes de voz em tempo real. Áudio nativo
Transcrição de áudio
Detecção de atividade de voz
Diálogo afetivo
Áudio proativo
Uso de ferramentas
gemini-2.5-flash-s2st-exp-11-2025 Experimento público Tradução de voz para voz (experimental). Otimizado para tarefas de tradução. Áudio nativo
Transcrição de áudio
Uso de ferramentas
Tradução de fala para fala

Arquitetura e integração

Há duas maneiras principais de integrar a API Live ao seu aplicativo: servidor para servidor e cliente para servidor. Escolha a opção que atenda aos seus requisitos de segurança e plataforma.

De servidor para servidor

A arquitetura de servidor para servidor é recomendada para ambientes de produção, como apps móveis, ferramentas empresariais seguras e integração de telefonia. O aplicativo cliente transmite áudio para o servidor de back-end seguro. Em seguida, o servidor gerencia a conexão WebSocket com o Google.

Esse método mantém suas chaves de API seguras e permite modificar o áudio ou adicionar lógica antes de enviá-lo ao Gemini. No entanto, ele adiciona uma pequena quantidade de latência de rede.

Cliente para servidor

A arquitetura cliente-servidor é adequada para apps da Web, demonstrações rápidas e ferramentas internas. O navegador da Web se conecta diretamente à API Live usando WebSockets.

Esse método oferece a menor latência possível e uma arquitetura mais simples para demonstrações. Essa abordagem expõe as chaves de API ao usuário do front-end, o que cria um risco de segurança. Para produção, use proxying cuidadoso ou gerenciamento de tokens efêmeros.

Primeiros passos

Selecione o guia que corresponde ao seu ambiente de desenvolvimento:

Recomendado para facilitar o uso

Conecte-se à API Live usando o SDK de IA generativa, envie um arquivo de áudio para o Gemini e receba áudio em resposta.

Controle de protocolo bruto

Conecte-se à API Live usando WebSockets, envie um arquivo de áudio para o Gemini e receba áudio em resposta.

Kit de desenvolvimento de agente

Crie um agente e use o Streaming do Kit de Desenvolvimento de Agentes (ADK) para ativar a comunicação por voz e vídeo.

Integração do React/js

Configure e execute um aplicativo da Web que permite usar sua voz e câmera para conversar com o Gemini pela API Live.

Integrações com parceiros

Se preferir um processo de desenvolvimento mais simples, use o Daily, LiveKit ou Voximplant. São plataformas de parceiros terceirizados que já integraram a API Gemini Live ao protocolo WebRTC para simplificar o desenvolvimento de aplicativos de áudio e vídeo em tempo real.