A API Gemini Live permite interações de voz e vídeo em tempo real e com baixa latência com o Gemini. Processa streams contínuas de áudio, vídeo ou texto para fornecer respostas faladas imediatas e semelhantes às humanas. Isto cria uma experiência de conversa natural para os seus utilizadores.
Experimente a API Gemini Live na Google Cloud consola
Funcionalidades principais
A API Gemini Live oferece um conjunto abrangente de funcionalidades para criar agentes de voz e vídeo robustos:
- Qualidade de áudio elevada: a API Gemini Live oferece uma fala natural e com som realista em vários idiomas.
- Suporte multilingue: converse em 24 idiomas suportados.
- Interrupção: Os utilizadores podem interromper o modelo em qualquer altura para interações responsivas.
- Afetivo diálogo: adapta o estilo e o tom da resposta para corresponder à expressão de entrada do utilizador.
- Áudio proativo: permite-lhe controlar quando o modelo responde e em que contextos.
- Utilização de ferramentas: integra ferramentas como a chamada de funções e a Pesquisa Google para interações dinâmicas.
- Transcrição de áudio: fornece transcrições de texto da entrada do utilizador e da saída do modelo.
- Tradução de voz para voz: (experimental) Otimizada para tradução de baixa latência entre idiomas.
Especificações técnicas
A tabela seguinte descreve as especificações técnicas da Gemini Live API:
| Categoria | Detalhes |
|---|---|
| Modalidades de entrada | Áudio (áudio PCM de 16 bits não processado, 16 kHz, little-endian), imagens/vídeo (JPEG 1 FPS), texto |
| Modalidades de saída | Áudio (áudio PCM de 16 bits não processado, 24 kHz, little-endian), texto |
| Protocolo | Ligação WebSocket com estado (WSS) |
Modelos suportados
Os seguintes modelos suportam a API Gemini Live. Selecione o modelo adequado com base nos seus requisitos de interação.
| ID do modelo | Disponibilidade | Exemplo de utilização | Funcionalidades principais |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Pré-visualização pública | Rentabilidade nos agentes de voz em tempo real. |
Áudio nativo Transcrição de áudio Deteção de atividade de voz Diálogo afetivo Áudio proativo Utilização de ferramentas |
gemini-2.5-flash-s2st-exp-11-2025 |
Experimental privado | Tradução de voz para voz (experimental). Otimizado para tarefas de tradução. |
Áudio nativo Transcrição de áudio Utilização de ferramentas Tradução de voz para voz |
Arquitetura e integração
Existem duas formas principais de integrar a API Gemini Live na sua aplicação: servidor a servidor e cliente a servidor. Escolha o que se adequa aos seus requisitos de segurança e de plataforma.
Servidor a servidor
A arquitetura servidor a servidor é recomendada para ambientes de produção, como apps para dispositivos móveis, ferramentas empresariais seguras e integração de telefonia. A aplicação cliente transmite áudio para o seu servidor de back-end seguro. Em seguida, o seu servidor gere a ligação WebSocket ao Google.
Este método mantém as suas chaves da API seguras e permite-lhe modificar o áudio ou adicionar lógica antes de o enviar para o Gemini. No entanto, adiciona uma pequena quantidade de latência de rede.
Cliente a servidor
A arquitetura cliente-servidor é adequada para apps Web, demonstrações rápidas e ferramentas internas. O navegador de Internet liga-se diretamente à API Gemini Live através de WebSockets.
Este método oferece a latência mais baixa possível e uma arquitetura mais simples para as demonstrações. Tenha em atenção que esta abordagem expõe as chaves da API ao utilizador do front-end, o que cria um risco de segurança. Para a produção, tem de usar um proxy cuidadoso ou uma gestão de tokens efémeros.
Começar
Selecione o guia que corresponde ao seu ambiente de desenvolvimento:
Tutorial do SDK Gen AI
Estabeleça ligação à API Gemini Live através do SDK de IA gen., envie um ficheiro de áudio para o Gemini e receba áudio em resposta.
Tutorial do WebSocket
Estabeleça ligação à API Gemini Live através de WebSockets, envie um ficheiro de áudio para o Gemini e receba áudio em resposta.
Tutorial do ADK
Crie um agente e use o kit de desenvolvimento de agentes (ADK) de streaming para ativar a comunicação de voz e vídeo.
Integrações de parceiros
Se preferir um processo de desenvolvimento mais simples, pode usar uma das nossas plataformas parceiras. Estas plataformas já integraram a API Gemini Live através do protocolo WebRTC para simplificar o desenvolvimento de aplicações de áudio e vídeo em tempo real.
