A API Live permite interações de voz e vídeo em tempo real e de baixa latência com o Gemini. Ele processa fluxos contínuos de áudio, vídeo ou texto para fornecer respostas faladas imediatas e semelhantes às humanas. Isso cria uma experiência de conversa natural para os usuários.
Principais recursos
A API Live oferece um conjunto abrangente de recursos para criar agentes de voz robustos:
- Áudio nativo: oferece fala natural e realista, além de melhorar a performance em vários idiomas.
- Suporte multilíngue: converse em 24 idiomas disponíveis.
- Detecção de atividade de voz (VAD): lida automaticamente com interrupções e alternância de turnos.
- Diálogo afetivo: adapta o estilo e o tom da resposta para corresponder à expressão da entrada do usuário.
- Áudio proativo: permite controlar quando e em quais contextos o modelo responde.
- Pensamento: usa tokens de raciocínio ocultos para "pensar" antes de falar em consultas complexas.
- Uso de ferramentas: integra ferramentas como chamadas de função e a Pesquisa Google para interações dinâmicas.
- Transcrição de áudio: fornece transcrições de texto da entrada do usuário e da saída do modelo.
- Tradução de voz para voz: otimizada para tradução de baixa latência entre idiomas.
Especificações técnicas
A tabela a seguir descreve as especificações técnicas da API Live:
| Categoria | Detalhes |
|---|---|
| Modalidades de entrada | Áudio (PCM 16 kHz), vídeo (1 QPS), texto |
| Modalidades de saída | Áudio (PCM 24 kHz), texto |
| Protocolo | Conexão WebSocket com estado (WSS) |
| Latência | Streaming em tempo real para feedback imediato |
Modelos compatíveis
Os seguintes modelos são compatíveis com a API Live. Selecione o modelo adequado com base nos seus requisitos de interação.
| ID do modelo | Disponibilidade | Caso de uso | Principais recursos |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Pré-lançamento público | Custo-benefício em agentes de voz em tempo real. |
Áudio nativo Transcrição de áudio Detecção de atividade de voz Diálogo afetivo Áudio proativo Uso de ferramentas |
gemini-2.5-flash-s2st-exp-11-2025 |
Experimento público | Tradução de voz para voz (experimental). Otimizado para tarefas de tradução. |
Áudio nativo Transcrição de áudio Uso de ferramentas Tradução de fala para fala |
Arquitetura e integração
Há duas maneiras principais de integrar a API Live ao seu aplicativo: servidor para servidor e cliente para servidor. Escolha a opção que atenda aos seus requisitos de segurança e plataforma.
De servidor para servidor
A arquitetura de servidor para servidor é recomendada para ambientes de produção, como apps móveis, ferramentas empresariais seguras e integração de telefonia. O aplicativo cliente transmite áudio para o servidor de back-end seguro. Em seguida, o servidor gerencia a conexão WebSocket com o Google.
Esse método mantém suas chaves de API seguras e permite modificar o áudio ou adicionar lógica antes de enviá-lo ao Gemini. No entanto, ele adiciona uma pequena quantidade de latência de rede.
Cliente para servidor
A arquitetura cliente-servidor é adequada para apps da Web, demonstrações rápidas e ferramentas internas. O navegador da Web se conecta diretamente à API Live usando WebSockets.
Esse método oferece a menor latência possível e uma arquitetura mais simples para demonstrações. Essa abordagem expõe as chaves de API ao usuário do front-end, o que cria um risco de segurança. Para produção, use proxying cuidadoso ou gerenciamento de tokens efêmeros.
Primeiros passos
Selecione o guia que corresponde ao seu ambiente de desenvolvimento:
Tutorial do SDK da IA generativa
Conecte-se à API Live usando o SDK de IA generativa, envie um arquivo de áudio para o Gemini e receba áudio em resposta.
Tutorial do WebSocket
Conecte-se à API Live usando WebSockets, envie um arquivo de áudio para o Gemini e receba áudio em resposta.
Tutorial do ADK
Crie um agente e use o Streaming do Kit de Desenvolvimento de Agentes (ADK) para ativar a comunicação por voz e vídeo.
Executar um app da Web de demonstração
Configure e execute um aplicativo da Web que permite usar sua voz e câmera para conversar com o Gemini pela API Live.
Integrações com parceiros
Se preferir um processo de desenvolvimento mais simples, use o Daily, LiveKit ou Voximplant. São plataformas de parceiros terceirizados que já integraram a API Gemini Live ao protocolo WebRTC para simplificar o desenvolvimento de aplicativos de áudio e vídeo em tempo real.
