Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Visão geral da API Gemini Live

A API Gemini Live permite interações de voz e vídeo de baixa latência e em tempo real com o Gemini. Ela processa fluxos contínuos de áudio, vídeo ou texto para oferecer respostas faladas imediatas e semelhantes às humanas. Isso cria uma experiência de conversa natural para os usuários.

Testar a API Gemini Live no Agent Platform Studio

Exemplos de casos de uso

A API Gemini Live pode ser usada para criar agentes de voz e vídeo em tempo real para vários setores, incluindo:

Comércio eletrônico e varejo:assistentes de compras que oferecem recomendações personalizadas e agentes de suporte que resolvem problemas dos clientes.
Jogos:personagens não jogáveis (NPCs) interativos, assistentes de ajuda no jogo e tradução em tempo real do conteúdo do jogo.
Interfaces de última geração:experiências ativadas por voz e vídeo em robótica, óculos inteligentes e veículos.
Saúde:acompanhantes de saúde para suporte e educação de pacientes.
Serviços financeiros:consultores de IA para gestão de patrimônio e orientação de investimentos.
Educação:mentores de IA e acompanhantes de estudantes que oferecem instruções e feedback personalizados.

Principais recursos

A API Gemini Live oferece um conjunto abrangente de recursos para criar agentes de voz e vídeo robustos:

**Alta qualidade de áudio**: a API Gemini Live oferece fala natural e realista em vários idiomas.
Suporte multilíngue: Converse em 24 idiomas compatíveis.
Interrupção: os usuários podem interromper o modelo a qualquer momento para interações responsivas.
Diálogo afetivo: adapta o estilo e o tom da resposta para corresponder à expressão de entrada do usuário.
Uso de ferramentas: integra ferramentas como chamada de função e Pesquisa Google para interações dinâmicas.
Transcrições de áudio: fornece transcrições de texto da entrada do usuário e da saída do modelo.
Áudio proativo: (prévia) permite controlar quando o modelo responde e em quais contextos.

Especificações técnicas

A tabela a seguir descreve as especificações técnicas da API Gemini Live:

Categoria	Detalhes
Modalidades de entrada	Áudio (PCM bruto de 16 bits, 16 kHz, little-endian), imagens/vídeo (JPEG 1 FPS), texto
Modalidades de saída	Áudio (PCM bruto de 16 bits, 24 kHz, little-endian), texto
Protocolo	Conexão WebSocket com estado (WSS)

Modelos compatíveis

Os modelos a seguir são compatíveis com a API Gemini Live. Selecione o modelo apropriado com base nos requisitos de interação.

ID do modelo	Disponibilidade	Caso de uso	Principais recursos
`gemini-live-2.5-flash-native-audio`	Disponibilidade geral	Recomendado. Agentes de voz de baixa latência. Oferece suporte à troca multilíngue integrada e ao tom emocional.	Native Audio Transcrições de áudio Detecção de voz Computação afetiva Áudio proativo Uso de ferramentas

Primeiros passos

Selecione o guia que corresponde ao seu ambiente de desenvolvimento:

Recomendado para facilidade de uso

Tutorial do SDK de IA generativa

Conecte-se à API Gemini Live usando o SDK de IA generativa para criar um aplicativo multimodal em tempo real com um back-end Python.

Controle de protocolo bruto

Tutorial do WebSocket

Conecte-se à API Gemini Live usando WebSockets para criar um aplicativo multimodal em tempo real com um front-end JavaScript e um back-end Python.

Kit de Desenvolvimento de Agente

Tutorial do ADK

Crie um agente e use o Kit de Desenvolvimento de Agente (ADK) Streaming para ativar a comunicação de voz e vídeo.

Integrações com parceiros

Se você quiser fazer a integração com alguns dos nossos parceiros, essas plataformas já terão integrado a API Gemini Live ao protocolo WebRTC para simplificar o desenvolvimento de aplicativos de áudio e vídeo em tempo real.

Visão geral da API Gemini Live Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.