Vista geral da API Gemini Live

A API Gemini Live permite interações de voz e vídeo em tempo real e com baixa latência com o Gemini. Processa streams contínuas de áudio, vídeo ou texto para fornecer respostas faladas imediatas e semelhantes às humanas. Isto cria uma experiência de conversa natural para os seus utilizadores.

Experimente a API Gemini Live na Google Cloud consola

Funcionalidades principais

A API Gemini Live oferece um conjunto abrangente de funcionalidades para criar agentes de voz e vídeo robustos:

Especificações técnicas

A tabela seguinte descreve as especificações técnicas da Gemini Live API:

Categoria Detalhes
Modalidades de entrada Áudio (áudio PCM de 16 bits não processado, 16 kHz, little-endian), imagens/vídeo (JPEG 1 FPS), texto
Modalidades de saída Áudio (áudio PCM de 16 bits não processado, 24 kHz, little-endian), texto
Protocolo Ligação WebSocket com estado (WSS)

Modelos suportados

Os seguintes modelos suportam a API Gemini Live. Selecione o modelo adequado com base nos seus requisitos de interação.

ID do modelo Disponibilidade Exemplo de utilização Funcionalidades principais
gemini-live-2.5-flash-preview-native-audio-09-2025 Pré-visualização pública Rentabilidade nos agentes de voz em tempo real. Áudio nativo
Transcrição de áudio
Deteção de atividade de voz
Diálogo afetivo
Áudio proativo
Utilização de ferramentas
gemini-2.5-flash-s2st-exp-11-2025 Experimental privado Tradução de voz para voz (experimental). Otimizado para tarefas de tradução. Áudio nativo
Transcrição de áudio
Utilização de ferramentas
Tradução de voz para voz

Arquitetura e integração

Existem duas formas principais de integrar a API Gemini Live na sua aplicação: servidor a servidor e cliente a servidor. Escolha o que se adequa aos seus requisitos de segurança e de plataforma.

Servidor a servidor

A arquitetura servidor a servidor é recomendada para ambientes de produção, como apps para dispositivos móveis, ferramentas empresariais seguras e integração de telefonia. A aplicação cliente transmite áudio para o seu servidor de back-end seguro. Em seguida, o seu servidor gere a ligação WebSocket ao Google.

Este método mantém as suas chaves da API seguras e permite-lhe modificar o áudio ou adicionar lógica antes de o enviar para o Gemini. No entanto, adiciona uma pequena quantidade de latência de rede.

Cliente a servidor

A arquitetura cliente-servidor é adequada para apps Web, demonstrações rápidas e ferramentas internas. O navegador de Internet liga-se diretamente à API Gemini Live através de WebSockets.

Este método oferece a latência mais baixa possível e uma arquitetura mais simples para as demonstrações. Tenha em atenção que esta abordagem expõe as chaves da API ao utilizador do front-end, o que cria um risco de segurança. Para a produção, tem de usar um proxy cuidadoso ou uma gestão de tokens efémeros.

Começar

Selecione o guia que corresponde ao seu ambiente de desenvolvimento:

Recomendado pela facilidade de utilização

Estabeleça ligação à API Gemini Live através do SDK de IA gen., envie um ficheiro de áudio para o Gemini e receba áudio em resposta.

Controlo do protocolo não processado

Estabeleça ligação à API Gemini Live através de WebSockets, envie um ficheiro de áudio para o Gemini e receba áudio em resposta.

Agent development kit

Crie um agente e use o kit de desenvolvimento de agentes (ADK) de streaming para ativar a comunicação de voz e vídeo.

Integrações de parceiros

Se preferir um processo de desenvolvimento mais simples, pode usar uma das nossas plataformas parceiras. Estas plataformas já integraram a API Gemini Live através do protocolo WebRTC para simplificar o desenvolvimento de aplicações de áudio e vídeo em tempo real.