A API Live permite interações de voz e vídeo em tempo real e com baixa latência com o Gemini. Processa streams contínuas de áudio, vídeo ou texto para fornecer respostas faladas imediatas e semelhantes às humanas. Isto cria uma experiência de conversa natural para os seus utilizadores.
Funcionalidades principais
A API Live oferece um conjunto abrangente de funcionalidades para criar agentes de voz robustos:
- Áudio nativo: oferece uma voz natural e realista, bem como um desempenho multilingue melhorado.
- Suporte multilingue: converse em 24 idiomas suportados.
- Deteção de atividade de voz (VAD): processa automaticamente as interrupções e a alternância de turnos.
- Afetivo diálogo: adapta o estilo e o tom da resposta para corresponder à expressão de entrada do utilizador.
- Áudio proativo: permite-lhe controlar quando o modelo responde e em que contextos.
- Raciocínio: usa tokens de raciocínio ocultos para "pensar" antes de falar em consultas complexas.
- Utilização de ferramentas: integra ferramentas como a chamada de funções e a Pesquisa Google para interações dinâmicas.
- Transcrição de áudio: fornece transcrições de texto da entrada do utilizador e da saída do modelo.
- Tradução de voz para voz: Otimizada para tradução de baixa latência entre idiomas.
Especificações técnicas
A tabela seguinte descreve as especificações técnicas da API Live:
| Categoria | Detalhes |
|---|---|
| Modalidades de entrada | Áudio (PCM 16 kHz), vídeo (1 FPS), texto |
| Modalidades de saída | Áudio (PCM 24 kHz), texto |
| Protocolo | Ligação WebSocket com estado (WSS) |
| Latência | Streaming em tempo real para feedback imediato |
Modelos suportados
Os seguintes modelos suportam a API Live. Selecione o modelo adequado com base nos seus requisitos de interação.
| ID do modelo | Disponibilidade | Exemplo de utilização | Funcionalidades principais |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Pré-visualização pública | Rentabilidade nos agentes de voz em tempo real. |
Áudio nativo Transcrição de áudio Deteção de atividade de voz Diálogo afetivo Áudio proativo Utilização de ferramentas |
gemini-2.5-flash-s2st-exp-11-2025 |
Público experimental | Tradução de voz para voz (experimental). Otimizado para tarefas de tradução. |
Áudio nativo Transcrição de áudio Utilização de ferramentas Tradução de voz para voz |
Arquitetura e integração
Existem duas formas principais de integrar a API Live na sua aplicação: servidor a servidor e cliente a servidor. Escolha o que se adequa aos seus requisitos de segurança e de plataforma.
Servidor a servidor
A arquitetura servidor a servidor é recomendada para ambientes de produção, como apps para dispositivos móveis, ferramentas empresariais seguras e integração de telefonia. A aplicação cliente transmite áudio para o seu servidor de back-end seguro. Em seguida, o seu servidor gere a ligação WebSocket ao Google.
Este método mantém as suas chaves da API seguras e permite-lhe modificar o áudio ou adicionar lógica antes de o enviar para o Gemini. No entanto, adiciona uma pequena quantidade de latência de rede.
Cliente a servidor
A arquitetura cliente-servidor é adequada para apps Web, demonstrações rápidas e ferramentas internas. O navegador de Internet liga-se diretamente à API Live através de WebSockets.
Este método oferece a latência mais baixa possível e uma arquitetura mais simples para as demonstrações. Tenha em atenção que esta abordagem expõe as chaves da API ao utilizador do front-end, o que cria um risco de segurança. Para a produção, tem de usar um proxy cuidadoso ou uma gestão de tokens efémeros.
Começar
Selecione o guia que corresponde ao seu ambiente de desenvolvimento:
Tutorial do SDK Gen AI
Ligue-se à API Live através do SDK de IA gen, envie um ficheiro de áudio para o Gemini e receba áudio em resposta.
Tutorial do WebSocket
Estabelecer ligação à API Live através de WebSockets, enviar um ficheiro de áudio para o Gemini e receber áudio em resposta.
Tutorial do ADK
Crie um agente e use o kit de desenvolvimento de agentes (ADK) de streaming para ativar a comunicação de voz e vídeo.
Execute uma app Web de demonstração
Configurar e executar uma aplicação Web que lhe permite usar a voz e a câmara para falar com o Gemini através da API Live.
Integrações de parceiros
Se preferir um processo de desenvolvimento mais simples, pode usar o Daily, LiveKit ou o Voximplant. Estas são plataformas de parceiros de terceiros que já integraram a API Gemini Live através do protocolo WebRTC para simplificar o desenvolvimento de aplicações de áudio e vídeo em tempo real.
