A API Gemini Live permite interações de voz e vídeo em tempo real e com baixa latência com o Gemini. Processa streams contínuas de áudio, vídeo ou texto para fornecer respostas faladas imediatas e semelhantes às humanas. Isto cria uma experiência de conversa natural para os seus utilizadores.
Experimente a API Gemini Live no Vertex AI Studio
Exemplos de utilização
A API Gemini Live pode ser usada para criar agentes de voz e vídeo em tempo real para uma variedade de setores, incluindo:
- Comércio eletrónico e retalho: assistentes de compras que oferecem recomendações personalizadas e agentes de apoio técnico que resolvem problemas dos clientes.
- Videojogos: personagens não jogáveis (NPCs) interativas, assistentes de ajuda no jogo e tradução em tempo real do conteúdo do jogo.
- Interfaces de nova geração: experiências ativadas por voz e vídeo em robótica, óculos inteligentes e veículos.
- Cuidados de saúde: companheiros de saúde para apoio e educação dos pacientes.
- Serviços financeiros: consultores de IA para gestão de património e orientações de investimento.
- Educação: mentores de IA e assistentes de aprendizagem que oferecem instruções e feedback personalizados.
Funcionalidades principais
A API Gemini Live oferece um conjunto abrangente de funcionalidades para criar agentes de voz e vídeo robustos:
- Qualidade de áudio elevada: A API Gemini Live oferece uma fala natural e realista em vários idiomas.
- Apoio técnico multilingue: Converse em 24 idiomas suportados.
- Interrupção: Os utilizadores podem interromper o modelo em qualquer altura para interações responsivas.
- Diálogo afetivo: Adapta o estilo e o tom da resposta para corresponder à expressão de entrada do utilizador.
- Utilização de ferramentas: integra ferramentas como a Chamada de funções e a Pesquisa Google para interações dinâmicas.
- Transcrição de áudio: fornece transcrições de texto da entrada do utilizador e da saída do modelo.
- Tradução de voz para voz: (experimental privada) Otimizada para tradução de baixa latência entre idiomas.
- Áudio proativo: (pré-visualização) Permite-lhe controlar quando o modelo responde e em que contextos.
Especificações técnicas
A tabela seguinte descreve as especificações técnicas da Gemini Live API:
| Categoria | Detalhes |
|---|---|
| Modalidades de entrada | Áudio (áudio PCM de 16 bits não processado, 16 kHz, little-endian), imagens/vídeo (JPEG 1 FPS), texto |
| Modalidades de saída | Áudio (áudio PCM de 16 bits não processado, 24 kHz, little-endian), texto |
| Protocolo | Ligação WebSocket com estado (WSS) |
Modelos suportados
Os seguintes modelos são compatíveis com a API Gemini Live. Selecione o modelo adequado com base nos seus requisitos de interação.
| ID do modelo | Disponibilidade | Exemplo de utilização | Funcionalidades principais |
|---|---|---|---|
gemini-live-2.5-flash-native-audio |
Disponível de forma geral | Recomendado. Agentes de voz de baixa latência. Suporta a mudança multilingue perfeita e o tom emocional. |
|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Pré-visualização pública | Rentabilidade nos agentes de voz em tempo real. |
|
gemini-2.5-flash-s2st-exp-11-2025 |
Experimental privado | Tradução de voz para voz. Otimizado para tarefas de tradução de voz em tempo real. |
|
Começar
Selecione o guia que corresponde ao seu ambiente de desenvolvimento:
Tutorial do SDK Gen AI
Estabeleça ligação à API Gemini Live através do SDK de IA gen para criar uma aplicação multimodal em tempo real com um back-end Python.
Tutorial do WebSocket
Estabeleça ligação à API Gemini Live através de WebSockets para criar uma aplicação multimodal em tempo real com uma interface (de utilizador) JavaScript e um back-end Python.
Tutorial do ADK
Crie um agente e use o kit de desenvolvimento de agentes (ADK) de streaming para ativar a comunicação de voz e vídeo.
Integrações de parceiros
Se quiser fazer a integração com alguns dos nossos parceiros, estas plataformas já integraram a API Gemini Live através do protocolo WebRTC para simplificar o desenvolvimento de aplicações de áudio e vídeo em tempo real.
