Áudio nativo da API Gemini 2.5 Flash Live

O Gemini 2.5 Flash com funcionalidades de áudio nativas da API Live oferece a nossa funcionalidade de áudio nativa de vanguarda para a API Live. Além das funcionalidades da API Live padrão, este modelo de pré-visualização inclui:

  • Qualidade de áudio melhorada: desfrute de uma qualidade de áudio significativamente melhorada que lhe dá a sensação de estar a falar com uma pessoa.
  • Qualidade de voz e adaptabilidade melhoradas: o áudio nativo da API Live oferece interações de voz mais ricas e naturais com 30 vozes HD em 24 idiomas.
  • Apresentamos o Áudio proativo: Quando o Áudio proativo está ativado, o modelo só responde quando é relevante. O modelo gera transcrições de texto e respostas de áudio proativamente apenas para consultas dirigidas ao dispositivo e não responde a consultas não dirigidas ao dispositivo.
  • Apresentamos o diálogo afetivo: os modelos que usam o áudio nativo da API Live podem compreender e responder adequadamente às expressões emocionais dos utilizadores para conversas mais detalhadas.
  • Interrupção melhorada: interrompa o Gemini de forma mais natural e fiável, mesmo em ambientes ruidosos.
  • Chamada de funções robusta: melhorámos a taxa de acionamento, o que permite ao Gemini executar com êxito as funções que define para suportar os seus exemplos de utilização.
  • Transcrição precisa: a precisão da transcrição de áudio para texto foi significativamente melhorada.
  • Suporte multilingue integrado: fale com o Gemini em vários idiomas, e este alterna facilmente entre eles sem qualquer pré-configuração. O idioma já não é uma barreira.

Para mais informações sobre a API Live, consulte:

Experimentar no Vertex AI

ID do modelo gemini-live-2.5-flash-preview-native-audio-09-2025
Entradas e saídas suportadas
  • Entradas:
    Texto, Áudio, Vídeo
  • Saídas:
    Texto, Áudio
Limites de tokens
  • Tokens de entrada máximos: 128 000
  • Tokens de saída máximos: 64 mil
  • Capacidade de resposta: 32 000 (predefinição), atualizável para 128 000
Capacidades
Tipos de utilização
Especificações técnicas
Vídeo
  • Resolução padrão: 768 x 768
  • Tipos MIME suportados:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Áudio
  • Duração máxima da conversa: Predefinição de 10 minutos que pode ser prolongada.
  • Formato de entrada de áudio obrigatório: Áudio PCM de 16 bits não processado a 16 kHz, little-endian
  • Formato de saída de áudio necessário: Áudio PCM de 16 bits não processado a 24 kHz, little-endian
  • Tipos MIME suportados:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Predefinições de parâmetros
  • Início da sensibilidade da voz: baixa
  • Sensibilidade ao fim da fala: elevada
  • Preenchimento de prefixo: 0
  • Tamanho máximo do contexto: 128 K
Regiões suportadas

Disponibilidade do modelo

  • Estados Unidos
    • us-central1
Consulte o artigo Residência de dados para mais informações.
Data do limite de conhecimento Janeiro de 2025
Versões
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • Fase de lançamento: pré-visualização pública
    • Data de lançamento: 18 de setembro de 2025
  • gemini-live-2.5-flash-preview-native-audio
    • Fase de lançamento: pré-visualização pública
    • Data de lançamento: 17 de junho de 2025
    • Data de descontinuação: 18 de outubro de 2025
Controlos de segurança
Consulte os Controlos de segurança para mais informações.
Idiomas suportados Consulte os idiomas suportados.
Preços Consulte os preços.