Esta página foi traduzida pela API Cloud Translation.

Visão geral da API Gemini Live

A API Gemini Live permite interações de voz e vídeo em tempo real e de baixa latência com o Gemini. Ele processa fluxos contínuos de áudio, vídeo ou texto para fornecer respostas faladas imediatas e semelhantes às humanas. Isso cria uma experiência de conversa natural para os usuários.

Teste a API Gemini Live no Google Cloud console

Principais recursos

A API Gemini Live oferece um conjunto abrangente de recursos para criar agentes de voz e vídeo robustos:

Alta qualidade de áudio: a API Gemini Live oferece fala natural e realista em vários idiomas.
Suporte multilíngue: converse em 24 idiomas disponíveis.
Interrupção: os usuários podem interromper o modelo a qualquer momento para interações responsivas.
Diálogo afetivo: adapta o estilo e o tom da resposta para corresponder à expressão da entrada do usuário.
Áudio proativo: permite controlar quando e em quais contextos o modelo responde.
Uso de ferramentas: integra ferramentas como chamadas de função e a Pesquisa Google para interações dinâmicas.
Transcrição de áudio: fornece transcrições de texto da entrada do usuário e da saída do modelo.
Tradução de fala para fala: (experimental) otimizada para tradução de baixa latência entre idiomas.

Especificações técnicas

A tabela a seguir descreve as especificações técnicas da API Gemini Live:

Categoria	Detalhes
Modalidades de entrada	Áudio (áudio PCM bruto de 16 bits, 16 kHz, little-endian), imagens/vídeo (JPEG 1FPS), texto
Modalidades de saída	Áudio (áudio PCM bruto de 16 bits, 24 kHz, little-endian), texto
Protocolo	Conexão WebSocket com estado (WSS)

Modelos compatíveis

Os seguintes modelos são compatíveis com a API Gemini Live. Selecione o modelo adequado com base nos seus requisitos de interação.

ID do modelo	Disponibilidade	Caso de uso	Principais recursos
`gemini-live-2.5-flash-preview-native-audio-09-2025`	Pré-lançamento público	Custo-benefício em agentes de voz em tempo real.	Áudio nativo Transcrição de áudio Detecção de atividade de voz Diálogo afetivo Áudio proativo Uso de ferramentas
`gemini-2.5-flash-s2st-exp-11-2025`	Experimental particular	Tradução de voz para voz (experimental). Otimizado para tarefas de tradução.	Áudio nativo Transcrição de áudio Uso de ferramentas Tradução de fala para fala

Arquitetura e integração

Há duas maneiras principais de integrar a API Gemini Live ao seu aplicativo: de servidor para servidor e de cliente para servidor. Escolha a opção que atenda aos seus requisitos de segurança e plataforma.

De servidor para servidor

A arquitetura de servidor para servidor é recomendada para ambientes de produção, como apps móveis, ferramentas empresariais seguras e integração de telefonia. O aplicativo cliente transmite áudio para o servidor de back-end seguro. Em seguida, o servidor gerencia a conexão WebSocket com o Google.

Esse método mantém suas chaves de API seguras e permite modificar o áudio ou adicionar lógica antes de enviá-lo ao Gemini. No entanto, ele adiciona uma pequena quantidade de latência de rede.

Cliente para servidor

A arquitetura cliente-servidor é adequada para apps da Web, demonstrações rápidas e ferramentas internas. O navegador da Web se conecta diretamente à API Gemini Live usando WebSockets.

Esse método oferece a menor latência possível e uma arquitetura mais simples para demonstrações. Essa abordagem expõe as chaves de API ao usuário do front-end, o que cria um risco de segurança. Para produção, use proxying cuidadoso ou gerenciamento de tokens efêmeros.

Primeiros passos

Selecione o guia que corresponde ao seu ambiente de desenvolvimento:

Recomendado para facilitar o uso

Tutorial do SDK da IA generativa

Conecte-se à API Gemini Live usando o SDK de IA generativa, envie um arquivo de áudio para o Gemini e receba áudio em resposta.

Controle de protocolo bruto

Tutorial do WebSocket

Conecte-se à API Gemini Live usando WebSockets, envie um arquivo de áudio para o Gemini e receba áudio em resposta.

Kit de desenvolvimento de agente

Tutorial do ADK

Crie um agente e use o Streaming do Kit de Desenvolvimento de Agentes (ADK) para ativar a comunicação por voz e vídeo.

Integrações com parceiros

Se você preferir um processo de desenvolvimento mais simples, use uma das plataformas parceiras. Essas plataformas já integraram a API Gemini Live ao protocolo WebRTC para simplificar o desenvolvimento de aplicativos de áudio e vídeo em tempo real.

Visão geral da API Gemini Live Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.