Esta página foi traduzida pela API Cloud Translation.

Vista geral da API Gemini Live

A API Gemini Live permite interações de voz e vídeo em tempo real e com baixa latência com o Gemini. Processa streams contínuas de áudio, vídeo ou texto para fornecer respostas faladas imediatas e semelhantes às humanas. Isto cria uma experiência de conversa natural para os seus utilizadores.

Experimente a API Gemini Live no Vertex AI Studio

Exemplos de utilização

A API Gemini Live pode ser usada para criar agentes de voz e vídeo em tempo real para uma variedade de setores, incluindo:

Comércio eletrónico e retalho: assistentes de compras que oferecem recomendações personalizadas e agentes de apoio técnico que resolvem problemas dos clientes.
Videojogos: personagens não jogáveis (NPCs) interativas, assistentes de ajuda no jogo e tradução em tempo real do conteúdo do jogo.
Interfaces de nova geração: experiências ativadas por voz e vídeo em robótica, óculos inteligentes e veículos.
Cuidados de saúde: companheiros de saúde para apoio e educação dos pacientes.
Serviços financeiros: consultores de IA para gestão de património e orientações de investimento.
Educação: mentores de IA e assistentes de aprendizagem que oferecem instruções e feedback personalizados.

Funcionalidades principais

A API Gemini Live oferece um conjunto abrangente de funcionalidades para criar agentes de voz e vídeo robustos:

Qualidade de áudio elevada: A API Gemini Live oferece uma fala natural e realista em vários idiomas.
Apoio técnico multilingue: Converse em 24 idiomas suportados.
Interrupção: Os utilizadores podem interromper o modelo em qualquer altura para interações responsivas.
Diálogo afetivo: Adapta o estilo e o tom da resposta para corresponder à expressão de entrada do utilizador.
Utilização de ferramentas: integra ferramentas como a Chamada de funções e a Pesquisa Google para interações dinâmicas.
Transcrição de áudio: fornece transcrições de texto da entrada do utilizador e da saída do modelo.
Tradução de voz para voz: (experimental privada) Otimizada para tradução de baixa latência entre idiomas.
Áudio proativo: (pré-visualização) Permite-lhe controlar quando o modelo responde e em que contextos.

Especificações técnicas

A tabela seguinte descreve as especificações técnicas da Gemini Live API:

Categoria	Detalhes
Modalidades de entrada	Áudio (áudio PCM de 16 bits não processado, 16 kHz, little-endian), imagens/vídeo (JPEG 1 FPS), texto
Modalidades de saída	Áudio (áudio PCM de 16 bits não processado, 24 kHz, little-endian), texto
Protocolo	Ligação WebSocket com estado (WSS)

Modelos suportados

Os seguintes modelos são compatíveis com a API Gemini Live. Selecione o modelo adequado com base nos seus requisitos de interação.

ID do modelo	Disponibilidade	Exemplo de utilização	Funcionalidades principais
`gemini-live-2.5-flash-native-audio`	Disponível de forma geral	Recomendado. Agentes de voz de baixa latência. Suporta a mudança multilingue perfeita e o tom emocional.	Áudio nativo Transcrições de áudio Deteção de atividade de voz Diálogo afetivo Áudio proativo Utilização de ferramentas
`gemini-live-2.5-flash-preview-native-audio-09-2025`	Pré-visualização pública	Rentabilidade nos agentes de voz em tempo real.	Áudio nativo Transcrições de áudio Deteção de atividade de voz Diálogo afetivo Áudio proativo Utilização de ferramentas
`gemini-2.5-flash-s2st-exp-11-2025`	Experimental privado	Tradução de voz para voz. Otimizado para tarefas de tradução de voz em tempo real.	Tradução de voz para voz

Começar

Selecione o guia que corresponde ao seu ambiente de desenvolvimento:

Recomendado pela facilidade de utilização

Tutorial do SDK Gen AI

Estabeleça ligação à API Gemini Live através do SDK de IA gen para criar uma aplicação multimodal em tempo real com um back-end Python.

Controlo do protocolo não processado

Tutorial do WebSocket

Estabeleça ligação à API Gemini Live através de WebSockets para criar uma aplicação multimodal em tempo real com uma interface (de utilizador) JavaScript e um back-end Python.

Agent development kit

Tutorial do ADK

Crie um agente e use o kit de desenvolvimento de agentes (ADK) de streaming para ativar a comunicação de voz e vídeo.

Integrações de parceiros

Se quiser fazer a integração com alguns dos nossos parceiros, estas plataformas já integraram a API Gemini Live através do protocolo WebRTC para simplificar o desenvolvimento de aplicações de áudio e vídeo em tempo real.

Vista geral da API Gemini Live Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.