Áudio nativo da API Gemini 2.5 Flash Live

O Gemini 2.5 Flash com recursos de áudio nativo da API Live oferece nossa funcionalidade de áudio nativo de ponta para a API Live. Além dos recursos padrão da API Live, este modelo de prévia inclui:

  • Qualidade de áudio aprimorada:tenha uma qualidade de áudio muito melhor, como se estivesse falando com uma pessoa.
  • Qualidade e adaptabilidade de voz aprimoradas:o áudio nativo da API Live oferece interações de voz mais ricas e naturais com 30 vozes em HD em 24 idiomas.
  • Apresentamos o Áudio proativo:quando o Áudio proativo está ativado, o modelo só responde quando é relevante. O modelo gera transcrições de texto e respostas de áudio de forma proativa apenas para consultas direcionadas ao dispositivo e não responde a consultas não direcionadas ao dispositivo.
  • Apresentamos o diálogo afetivo:os modelos que usam o áudio nativo da API Live conseguem entender e responder adequadamente às expressões emocionais dos usuários para conversas mais sutis.
  • Melhoria na interrupção:interrompa o Gemini de forma mais natural e confiável, mesmo em ambientes barulhentos.
  • Chamada de função robusta:melhoramos a taxa de acionamento, permitindo que o Gemini execute com sucesso as funções definidas para oferecer suporte aos seus casos de uso.
  • Transcrição precisa:a precisão da transcrição de áudio em texto foi significativamente aprimorada.
  • Suporte multilíngue integrado:fale com o Gemini em vários idiomas, e ele vai alternar entre eles sem nenhuma pré-configuração. O idioma não é mais uma barreira.

Para mais informações sobre a API Live, consulte:

Teste na Vertex AI

ID do modelo gemini-live-2.5-flash-preview-native-audio-09-2025
Entradas e saídas compatíveis
  • Entradas:
    Texto, Áudio, Vídeo
  • Saídas:
    Texto, Áudio
Limites de tokens
  • Máximo de tokens de entrada: 128 mil
  • Máximo de tokens de saída: 64 mil
  • Janela de contexto: 32 mil (padrão), com upgrade para 128 mil
Recursos
Tipos de uso
Especificações técnicas
Vídeo
  • Resolução padrão: 768 x 768
  • Tipos MIME aceitos:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Áudio
  • Duração máxima da conversa: Padrão de 10 minutos, que pode ser estendido.
  • Formato de entrada de áudio obrigatório: Áudio PCM bruto de 16 bits a 16 kHz, little endian
  • Formato de saída de áudio obrigatório: Áudio PCM bruto de 16 bits a 24 kHz, little endian
  • Tipos MIME aceitos:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Padrões de parâmetros
  • Sensibilidade ao início da fala: baixa
  • Sensibilidade ao fim da fala: alta
  • Preenchimento de prefixo: 0
  • Tamanho máximo do contexto: 128K
Regiões compatíveis

Disponibilidade do modelo

  • Estados Unidos
    • us-central1
Consulte Residência de dados para mais informações.
Data do limite de conhecimento Janeiro de 2025
Versões
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • Estágio de lançamento: acesso antecipado
    • Data de lançamento: 18 de setembro de 2025
  • gemini-live-2.5-flash-preview-native-audio
    • Estágio de lançamento: acesso antecipado
    • Data de lançamento: 17 de junho de 2025
    • Data de descontinuação: 18 de outubro de 2025
Controles de segurança
Consulte Controles de segurança para mais informações.
Idiomas compatíveis Consulte Idiomas aceitos.
Preços Consulte a seção Preços.