Vista geral da API Live

A API Live permite interações de voz e vídeo em tempo real e com baixa latência com o Gemini. Processa streams contínuas de áudio, vídeo ou texto para fornecer respostas faladas imediatas e semelhantes às humanas. Isto cria uma experiência de conversa natural para os seus utilizadores.

Funcionalidades principais

A API Live oferece um conjunto abrangente de funcionalidades para criar agentes de voz robustos:

Especificações técnicas

A tabela seguinte descreve as especificações técnicas da API Live:

Categoria Detalhes
Modalidades de entrada Áudio (PCM 16 kHz), vídeo (1 FPS), texto
Modalidades de saída Áudio (PCM 24 kHz), texto
Protocolo Ligação WebSocket com estado (WSS)
Latência Streaming em tempo real para feedback imediato

Modelos suportados

Os seguintes modelos suportam a API Live. Selecione o modelo adequado com base nos seus requisitos de interação.

ID do modelo Disponibilidade Exemplo de utilização Funcionalidades principais
gemini-live-2.5-flash-preview-native-audio-09-2025 Pré-visualização pública Rentabilidade nos agentes de voz em tempo real. Áudio nativo
Transcrição de áudio
Deteção de atividade de voz
Diálogo afetivo
Áudio proativo
Utilização de ferramentas
gemini-2.5-flash-s2st-exp-11-2025 Público experimental Tradução de voz para voz (experimental). Otimizado para tarefas de tradução. Áudio nativo
Transcrição de áudio
Utilização de ferramentas
Tradução de voz para voz

Arquitetura e integração

Existem duas formas principais de integrar a API Live na sua aplicação: servidor a servidor e cliente a servidor. Escolha o que se adequa aos seus requisitos de segurança e de plataforma.

Servidor a servidor

A arquitetura servidor a servidor é recomendada para ambientes de produção, como apps para dispositivos móveis, ferramentas empresariais seguras e integração de telefonia. A aplicação cliente transmite áudio para o seu servidor de back-end seguro. Em seguida, o seu servidor gere a ligação WebSocket ao Google.

Este método mantém as suas chaves da API seguras e permite-lhe modificar o áudio ou adicionar lógica antes de o enviar para o Gemini. No entanto, adiciona uma pequena quantidade de latência de rede.

Cliente a servidor

A arquitetura cliente-servidor é adequada para apps Web, demonstrações rápidas e ferramentas internas. O navegador de Internet liga-se diretamente à API Live através de WebSockets.

Este método oferece a latência mais baixa possível e uma arquitetura mais simples para as demonstrações. Tenha em atenção que esta abordagem expõe as chaves da API ao utilizador do front-end, o que cria um risco de segurança. Para a produção, tem de usar um proxy cuidadoso ou uma gestão de tokens efémeros.

Começar

Selecione o guia que corresponde ao seu ambiente de desenvolvimento:

Recomendado pela facilidade de utilização

Ligue-se à API Live através do SDK de IA gen, envie um ficheiro de áudio para o Gemini e receba áudio em resposta.

Controlo do protocolo não processado

Estabelecer ligação à API Live através de WebSockets, enviar um ficheiro de áudio para o Gemini e receber áudio em resposta.

Agent development kit

Crie um agente e use o kit de desenvolvimento de agentes (ADK) de streaming para ativar a comunicação de voz e vídeo.

Integração de React/js

Configurar e executar uma aplicação Web que lhe permite usar a voz e a câmara para falar com o Gemini através da API Live.

Integrações de parceiros

Se preferir um processo de desenvolvimento mais simples, pode usar o Daily, LiveKit ou o Voximplant. Estas são plataformas de parceiros de terceiros que já integraram a API Gemini Live através do protocolo WebRTC para simplificar o desenvolvimento de aplicações de áudio e vídeo em tempo real.