Esta página foi traduzida pela API Cloud Translation.

Vista geral da API Gemini Live

A API Gemini Live permite interações de voz e vídeo em tempo real e com baixa latência com o Gemini. Processa streams contínuas de áudio, vídeo ou texto para fornecer respostas faladas imediatas e semelhantes às humanas. Isto cria uma experiência de conversa natural para os seus utilizadores.

Experimente a API Gemini Live na Google Cloud consola

Funcionalidades principais

A API Gemini Live oferece um conjunto abrangente de funcionalidades para criar agentes de voz e vídeo robustos:

Qualidade de áudio elevada: a API Gemini Live oferece uma fala natural e com som realista em vários idiomas.
Suporte multilingue: converse em 24 idiomas suportados.
Interrupção: Os utilizadores podem interromper o modelo em qualquer altura para interações responsivas.
Afetivo diálogo: adapta o estilo e o tom da resposta para corresponder à expressão de entrada do utilizador.
Áudio proativo: permite-lhe controlar quando o modelo responde e em que contextos.
Utilização de ferramentas: integra ferramentas como a chamada de funções e a Pesquisa Google para interações dinâmicas.
Transcrição de áudio: fornece transcrições de texto da entrada do utilizador e da saída do modelo.
Tradução de voz para voz: (experimental) Otimizada para tradução de baixa latência entre idiomas.

Especificações técnicas

A tabela seguinte descreve as especificações técnicas da Gemini Live API:

Categoria	Detalhes
Modalidades de entrada	Áudio (áudio PCM de 16 bits não processado, 16 kHz, little-endian), imagens/vídeo (JPEG 1 FPS), texto
Modalidades de saída	Áudio (áudio PCM de 16 bits não processado, 24 kHz, little-endian), texto
Protocolo	Ligação WebSocket com estado (WSS)

Modelos suportados

Os seguintes modelos suportam a API Gemini Live. Selecione o modelo adequado com base nos seus requisitos de interação.

ID do modelo	Disponibilidade	Exemplo de utilização	Funcionalidades principais
`gemini-live-2.5-flash-preview-native-audio-09-2025`	Pré-visualização pública	Rentabilidade nos agentes de voz em tempo real.	Áudio nativo Transcrição de áudio Deteção de atividade de voz Diálogo afetivo Áudio proativo Utilização de ferramentas
`gemini-2.5-flash-s2st-exp-11-2025`	Experimental privado	Tradução de voz para voz (experimental). Otimizado para tarefas de tradução.	Áudio nativo Transcrição de áudio Utilização de ferramentas Tradução de voz para voz

Arquitetura e integração

Existem duas formas principais de integrar a API Gemini Live na sua aplicação: servidor a servidor e cliente a servidor. Escolha o que se adequa aos seus requisitos de segurança e de plataforma.

Servidor a servidor

A arquitetura servidor a servidor é recomendada para ambientes de produção, como apps para dispositivos móveis, ferramentas empresariais seguras e integração de telefonia. A aplicação cliente transmite áudio para o seu servidor de back-end seguro. Em seguida, o seu servidor gere a ligação WebSocket ao Google.

Este método mantém as suas chaves da API seguras e permite-lhe modificar o áudio ou adicionar lógica antes de o enviar para o Gemini. No entanto, adiciona uma pequena quantidade de latência de rede.

Cliente a servidor

A arquitetura cliente-servidor é adequada para apps Web, demonstrações rápidas e ferramentas internas. O navegador de Internet liga-se diretamente à API Gemini Live através de WebSockets.

Este método oferece a latência mais baixa possível e uma arquitetura mais simples para as demonstrações. Tenha em atenção que esta abordagem expõe as chaves da API ao utilizador do front-end, o que cria um risco de segurança. Para a produção, tem de usar um proxy cuidadoso ou uma gestão de tokens efémeros.

Começar

Selecione o guia que corresponde ao seu ambiente de desenvolvimento:

Recomendado pela facilidade de utilização

Tutorial do SDK Gen AI

Estabeleça ligação à API Gemini Live através do SDK de IA gen., envie um ficheiro de áudio para o Gemini e receba áudio em resposta.

Controlo do protocolo não processado

Tutorial do WebSocket

Estabeleça ligação à API Gemini Live através de WebSockets, envie um ficheiro de áudio para o Gemini e receba áudio em resposta.

Agent development kit

Tutorial do ADK

Crie um agente e use o kit de desenvolvimento de agentes (ADK) de streaming para ativar a comunicação de voz e vídeo.

Integrações de parceiros

Se preferir um processo de desenvolvimento mais simples, pode usar uma das nossas plataformas parceiras. Estas plataformas já integraram a API Gemini Live através do protocolo WebRTC para simplificar o desenvolvimento de aplicações de áudio e vídeo em tempo real.

Vista geral da API Gemini Live Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.