Gemini 2.5 Flash com a API Gemini Live

O Gemini 2.5 Flash com as funcionalidades de áudio nativas da API Gemini Live apresenta a nossa funcionalidade de áudio nativa de vanguarda para a API Gemini Live. Além das funcionalidades padrão da API Gemini Live, este modelo inclui:

  • Qualidade de áudio melhorada: desfrute de uma qualidade de áudio significativamente melhorada que lhe dá a sensação de estar a falar com uma pessoa.
  • Qualidade de voz e adaptabilidade melhoradas: o áudio nativo da API Gemini Live oferece interações de voz mais ricas e naturais com 30 vozes HD em 24 idiomas.
  • Apresentamos o Áudio proativo: (pré-visualização) Quando o áudio proativo está ativado, o modelo só responde quando é relevante. O modelo gera transcrições de texto e respostas de áudio proativamente apenas para consultas dirigidas ao dispositivo e não responde a consultas não dirigidas ao dispositivo.
  • Apresentamos o diálogo afetivo: os modelos que usam o áudio nativo da API Gemini Live podem compreender e responder adequadamente às expressões emocionais dos utilizadores para conversas mais detalhadas.
  • Interrupção melhorada: interrompa o Gemini de forma mais natural e fiável, mesmo em ambientes ruidosos.
  • Chamada de funções robusta: melhorámos a taxa de acionamento, o que permite ao Gemini executar com êxito as funções que define para suportar os seus exemplos de utilização.
  • Transcrição precisa: a precisão da transcrição de áudio para texto foi significativamente melhorada.
  • Suporte multilingue integrado: fale com o Gemini em vários idiomas, e este alterna facilmente entre eles sem qualquer pré-configuração. O idioma já não é uma barreira.

Para mais informações sobre a API Gemini Live, consulte:

Áudio nativo do 2.5 Flash em direto

Experimentar no Vertex AI

ID do modelo gemini-live-2.5-flash-native-audio
Entradas e saídas suportadas
  • Entradas:
    Texto, Imagens, Áudio, Vídeo
  • Saídas:
    Texto, Áudio
Limites de tokens
  • Tokens de entrada máximos: 32 mil (predefinição), atualizáveis para 128 mil
  • Tokens de saída máximos: 64 mil
Capacidades
Tipos de utilização
Especificações técnicas
Imagens
  • Número máximo de imagens por comando: 3000
  • Tamanho máximo do ficheiro por ficheiro para dados incorporados ou carregamentos diretos através da consola: 7 MB
  • Tamanho máximo do ficheiro por ficheiro do Google Cloud Storage: 30 MB
  • Tipos MIME suportados:
    image/png, image/jpeg, image/webp, image/heic, image/heif
Vídeo
  • Resolução padrão: 768 x 768
  • Tipos MIME suportados:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Áudio
  • Duração máxima da conversa: Predefinição de 10 minutos que pode ser prolongada.
  • Formato de entrada de áudio obrigatório: Áudio PCM de 16 bits não processado a 16 kHz, little-endian
  • Formato de saída de áudio necessário: Áudio PCM de 16 bits não processado a 24 kHz, little-endian
  • Tipos MIME suportados:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Predefinições de parâmetros
  • Início da sensibilidade da voz: baixa
  • Sensibilidade ao fim da fala: elevada
  • Preenchimento do prefixo: 0
  • Tamanho máximo do contexto: 128 K
Regiões suportadas

Disponibilidade do modelo

  • Estados Unidos
    • us-central1
    • us-east1
    • us-east4
    • us-east5
    • us-south1
    • us-west1
    • us-west4
  • Europa
    • europe-central2
    • europe-north1
    • europe-southwest1
    • europe-west1
    • europe-west4
    • europe-west8
Consulte o artigo Implementações e pontos finais para mais informações.
Versões
  • gemini-live-2.5-flash-native-audio
    • Fase de lançamento: GA
    • Data de lançamento: 12 de dezembro de 2025
    • Data de descontinuação: 13 de dezembro de 2026
Controlos de segurança
Previsão online
  • Residência dos dados (em repouso) Compatível
  • Chaves de encriptação geridas pelo cliente (CMEK) Não suportado
  • VPC Service Controls Compatível
  • Transparência de acesso (AXT) Suportada
Consulte os Controlos de segurança para mais informações.
Idiomas suportados Consulte os idiomas suportados.
Preços Consulte os preços.

Pré-visualização de áudio nativo do 2.5 Flash em direto

Experimentar no Vertex AI

ID do modelo gemini-live-2.5-flash-preview-native-audio-09-2025
Entradas e saídas suportadas
  • Entradas:
    Texto, Imagens, Áudio, Vídeo
  • Saídas:
    Texto, Áudio
Limites de tokens
  • Tokens de entrada máximos: 128 000
  • Tokens de saída máximos: 64 mil
  • Capacidade de resposta: 32 000 tokens (predefinição), atualizável para 128 000 tokens
Capacidades
Tipos de utilização
Especificações técnicas
Imagens
  • Número máximo de imagens por comando: 3000
  • Tamanho máximo do ficheiro por ficheiro para dados incorporados ou carregamentos diretos através da consola: 7 MB
  • Tamanho máximo do ficheiro por ficheiro do Google Cloud Storage: 30 MB
  • Tipos MIME suportados:
    image/png, image/jpeg, image/webp, image/heic, image/heif
Vídeo
  • Resolução padrão: 768 x 768
  • Tipos MIME suportados:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Áudio
  • Duração máxima da conversa: Predefinição de 10 minutos que pode ser prolongada.
  • Formato de entrada de áudio obrigatório: Áudio PCM de 16 bits não processado a 16 kHz, little-endian
  • Formato de saída de áudio necessário: Áudio PCM de 16 bits não processado a 24 kHz, little-endian
  • Tipos MIME suportados:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Predefinições de parâmetros
  • Início da sensibilidade da voz: baixa
  • Sensibilidade ao fim da fala: elevada
  • Preenchimento do prefixo: 0
  • Tamanho máximo do contexto: 128 K
Regiões suportadas

Disponibilidade do modelo

  • Estados Unidos
    • us-central1
Consulte o artigo Implementações e pontos finais para mais informações.
Data do limite de conhecimento Agosto de 2025
Versões
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • Fase de lançamento: pré-visualização pública
    • Data de lançamento: 25 de setembro de 2025
Controlos de segurança
Consulte os Controlos de segurança para mais informações.
Idiomas suportados Consulte os idiomas suportados.
Preços Consulte os preços.