Visão geral da API Gemini Live

A API Gemini Live permite interações de voz e vídeo em tempo real e de baixa latência com o Gemini. Ela processa fluxos contínuos de áudio, vídeo ou texto para oferecer respostas faladas imediatas e semelhantes às humanas. Isso cria uma experiência de conversa natural para os usuários.

Testar a API Gemini Live no Agent Platform Studio

Exemplos de casos de uso

A API Gemini Live pode ser usada para criar agentes de voz e vídeo em tempo real para vários setores, incluindo:

  • E-commerce e varejo:assistentes de compras que oferecem recomendações personalizadas e representantes de suporte ao cliente que resolvem problemas dos clientes.
  • Jogos:personagens não jogáveis (NPCs) interativos, assistentes de ajuda no jogo e tradução em tempo real do conteúdo do jogo.
  • Interfaces de última geração:experiências ativadas por voz e vídeo em robótica, óculos inteligentes e veículos.
  • Saúde:acompanhantes de saúde para suporte e educação de pacientes.
  • Serviços financeiros:consultores de IA para gestão de patrimônio e orientação de investimentos.
  • Educação:mentores de IA e acompanhantes de estudantes que oferecem instrução e feedback personalizados.

Principais recursos

A API Gemini Live oferece um conjunto abrangente de recursos para criar agentes de voz e vídeo robustos:

  • **Alta qualidade do áudio**: a API Gemini Live oferece fala natural e realista em vários idiomas.
  • Suporte multilíngue: Converse em 24 idiomas compatíveis.
  • Interrupção: os usuários podem interromper o modelo a qualquer momento para interações responsivas.
  • Diálogo afetivo: adapta o estilo e o tom da resposta para corresponder à expressão de entrada do usuário.
  • Uso de ferramentas: integra ferramentas como chamada de função e Pesquisa Google para interações dinâmicas.
  • Transcrições de áudio: fornece transcrições de texto da entrada do usuário e da saída do modelo.
  • Áudio proativo: (pré-lançamento) permite controlar quando o modelo responde e em quais contextos.

Especificações técnicas

A tabela a seguir descreve as especificações técnicas da API Gemini Live:

Categoria Detalhes
Modalidades de entrada Áudio (áudio PCM bruto de 16 bits, 16 kHz, little-endian), imagens/vídeo (JPEG 1 FPS), texto
Modalidades de saída Áudio (áudio PCM bruto de 16 bits, 24 kHz, little-endian), texto
Protocolo Conexão WebSocket com estado (WSS)

Modelos compatíveis

Os modelos a seguir são compatíveis com a API Gemini Live. Selecione o modelo apropriado com base nos requisitos de interação.

ID do modelo Disponibilidade Caso de uso Principais recursos
gemini-live-2.5-flash-native-audio Disponibilidade geral Recomendado. Agentes de voz de baixa latência. Oferece suporte à troca multilíngue integrada e ao tom emocional.
  • Native Audio
  • Transcrições de áudio
  • Detecção de atividade de voz
  • Computação afetiva
  • Áudio proativo
  • Uso de ferramentas
gemini-live-2.5-flash-preview-native-audio-09-2025 Pré-lançamento público Eficiência de custos em agentes de voz em tempo real.
  • Native Audio
  • Transcrições de áudio
  • Detecção de atividade de voz
  • Computação afetiva
  • Áudio proativo
  • Uso de ferramentas

Primeiros passos

Selecione o guia que corresponde ao seu ambiente de desenvolvimento:

Recomendado para facilidade de uso

Conecte-se à API Gemini Live usando o SDK de IA generativa para criar um aplicativo multimodal em tempo real com um back-end Python.

Controle de protocolo bruto

Conecte-se à API Gemini Live usando WebSockets para criar um aplicativo multimodal em tempo real com um front-end JavaScript e um back-end Python.

Kit de Desenvolvimento de Agente

Crie um agente e use o Kit de Desenvolvimento de Agente (ADK) Streaming para ativar a comunicação de voz e vídeo.

Integrações com parceiros

Se você quiser fazer a integração com alguns dos nossos parceiros, essas plataformas já terão integrado a API Gemini Live ao protocolo WebRTC para simplificar o desenvolvimento de aplicativos de áudio e vídeo em tempo real.