Vista geral da API Gemini Live

A API Gemini Live permite interações de voz e vídeo em tempo real e com baixa latência com o Gemini. Processa streams contínuas de áudio, vídeo ou texto para fornecer respostas faladas imediatas e semelhantes às humanas. Isto cria uma experiência de conversa natural para os seus utilizadores.

Experimente a API Gemini Live no Vertex AI Studio

Exemplos de utilização

A API Gemini Live pode ser usada para criar agentes de voz e vídeo em tempo real para uma variedade de setores, incluindo:

  • Comércio eletrónico e retalho: assistentes de compras que oferecem recomendações personalizadas e agentes de apoio técnico que resolvem problemas dos clientes.
  • Videojogos: personagens não jogáveis (NPCs) interativas, assistentes de ajuda no jogo e tradução em tempo real do conteúdo do jogo.
  • Interfaces de nova geração: experiências ativadas por voz e vídeo em robótica, óculos inteligentes e veículos.
  • Cuidados de saúde: companheiros de saúde para apoio e educação dos pacientes.
  • Serviços financeiros: consultores de IA para gestão de património e orientações de investimento.
  • Educação: mentores de IA e assistentes de aprendizagem que oferecem instruções e feedback personalizados.

Funcionalidades principais

A API Gemini Live oferece um conjunto abrangente de funcionalidades para criar agentes de voz e vídeo robustos:

Especificações técnicas

A tabela seguinte descreve as especificações técnicas da Gemini Live API:

Categoria Detalhes
Modalidades de entrada Áudio (áudio PCM de 16 bits não processado, 16 kHz, little-endian), imagens/vídeo (JPEG 1 FPS), texto
Modalidades de saída Áudio (áudio PCM de 16 bits não processado, 24 kHz, little-endian), texto
Protocolo Ligação WebSocket com estado (WSS)

Modelos suportados

Os seguintes modelos são compatíveis com a API Gemini Live. Selecione o modelo adequado com base nos seus requisitos de interação.

ID do modelo Disponibilidade Exemplo de utilização Funcionalidades principais
gemini-live-2.5-flash-native-audio Disponível de forma geral Recomendado. Agentes de voz de baixa latência. Suporta a mudança multilingue perfeita e o tom emocional.
  • Áudio nativo
  • Transcrições de áudio
  • Deteção de atividade de voz
  • Diálogo afetivo
  • Áudio proativo
  • Utilização de ferramentas
gemini-live-2.5-flash-preview-native-audio-09-2025 Pré-visualização pública Rentabilidade nos agentes de voz em tempo real.
  • Áudio nativo
  • Transcrições de áudio
  • Deteção de atividade de voz
  • Diálogo afetivo
  • Áudio proativo
  • Utilização de ferramentas
gemini-2.5-flash-s2st-exp-11-2025 Experimental privado Tradução de voz para voz. Otimizado para tarefas de tradução de voz em tempo real.
  • Tradução de voz para voz

Começar

Selecione o guia que corresponde ao seu ambiente de desenvolvimento:

Recomendado pela facilidade de utilização

Estabeleça ligação à API Gemini Live através do SDK de IA gen para criar uma aplicação multimodal em tempo real com um back-end Python.

Controlo do protocolo não processado

Estabeleça ligação à API Gemini Live através de WebSockets para criar uma aplicação multimodal em tempo real com uma interface (de utilizador) JavaScript e um back-end Python.

Agent development kit

Crie um agente e use o kit de desenvolvimento de agentes (ADK) de streaming para ativar a comunicação de voz e vídeo.

Integrações de parceiros

Se quiser fazer a integração com alguns dos nossos parceiros, estas plataformas já integraram a API Gemini Live através do protocolo WebRTC para simplificar o desenvolvimento de aplicações de áudio e vídeo em tempo real.