Gemini 2.5 Flash com a API Gemini Live

O Gemini 2.5 Flash com as funcionalidades de áudio nativas da API Gemini Live apresenta a nossa funcionalidade de áudio nativa de vanguarda para a API Gemini Live. Além das funcionalidades da API Gemini Live padrão, este modelo inclui:

Qualidade de áudio melhorada: desfrute de uma qualidade de áudio significativamente melhorada que lhe dá a sensação de estar a falar com uma pessoa.
Qualidade de voz e adaptabilidade melhoradas: o áudio nativo da API Gemini Live oferece interações de voz mais ricas e naturais com 30 vozes HD em 24 idiomas.
Apresentamos o áudio proativo: (pré-visualização) Quando o áudio proativo está ativado, o modelo só responde quando é relevante. O modelo gera transcrições de texto e respostas de áudio proativamente apenas para consultas dirigidas ao dispositivo e não responde a consultas não dirigidas ao dispositivo.
Apresentamos o diálogo afetivo: os modelos que usam o áudio nativo da API Gemini Live podem compreender e responder adequadamente às expressões emocionais dos utilizadores para conversas mais detalhadas.
Interrupção melhorada: interrompa o Gemini de forma mais natural e fiável, mesmo em ambientes ruidosos.
Chamada de funções robusta: melhorámos a taxa de acionamento, o que permite ao Gemini executar com êxito as funções que definir para suportar os seus exemplos de utilização.
Transcrição precisa: a precisão da transcrição de áudio para texto foi significativamente melhorada.
Suporte multilingue integrado: fale com o Gemini em vários idiomas, e este alterna facilmente entre eles sem qualquer pré-configuração. O idioma já não é uma barreira.

Para mais informações sobre a API Gemini Live, consulte:

A nossa documentação da API Gemini Live autónoma.
Os formatos de áudio suportados pela API Gemini Live.
Os nossos limites de sessões simultâneas da API Gemini Live.

Áudio nativo do Live 2.5 Flash

Experimentar no Vertex AI

Especificações técnicas
ID do modelo	`gemini-live-2.5-flash-native-audio`
Entradas e saídas suportadas	Entradas: Texto, Imagens, Áudio, Vídeo Saídas: Texto, Áudio
Limites de tokens	Tokens de entrada máximos: 32 mil (predefinição), atualizáveis para 128 mil Tokens de saída máximos: 64 mil
Sessões simultâneas máximas	1000
Capacidades	Suportado Fundamentação com a Pesquisa Google Instruções do sistema Chamada de funções API Gemini Live Não suportado Execução de código Ajuste Saída estruturada A pensar Colocação em cache de contexto implícito Colocação em cache de contexto explícito Vertex AI RAG Engine Conclusões de chat
Tipos de utilização	Suportado Não suportado Débito aprovisionado Standard PayGo Previsão em lote
	Imagens	Número máximo de imagens por comando: 3000 Tamanho máximo do ficheiro por ficheiro para dados incorporados ou carregamentos diretos através da consola: 7 MB Tamanho máximo do ficheiro por ficheiro do Google Cloud Storage: 30 MB Tipos MIME suportados: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Vídeo	Resolução padrão: 768 x 768 Tipos MIME suportados: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Áudio	Duração máxima da conversa: Predefinição de 10 minutos que pode ser prolongada. Formato de entrada de áudio obrigatório: Áudio PCM de 16 bits não processado a 16 kHz, little-endian Formato de saída de áudio obrigatório: Áudio PCM de 16 bits não processado a 24 kHz, little-endian Tipos MIME suportados: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Predefinições de parâmetros	Início da sensibilidade da voz: baixa Sensibilidade ao fim da fala: elevada Preenchimento do prefixo: 0 Tamanho máximo do contexto: 128 K
Regiões suportadas
	Disponibilidade do modelo	Estados Unidos us-central1 us-east1 us-east4 us-east5 us-south1 us-west1 us-west4 Europa europe-central2 europe-north1 europe-southwest1 europe-west1 europe-west4 europe-west8
	Consulte o artigo Implementações e pontos finais para mais informações.
Versões	`gemini-live-2.5-flash-native-audio` Fase de lançamento: GA Data de lançamento: 12 de dezembro de 2025 Data de descontinuação: 13 de dezembro de 2026
Controlos de segurança
	Previsão online	Residência de dados CMEK VPC-SC AXT
	Consulte os Controlos de segurança para mais informações.
Idiomas suportados	Consulte os idiomas suportados.
Preços	Consulte os preços.

Pré-visualização de áudio nativo do 2.5 Flash em direto

Experimentar no Vertex AI

Especificações técnicas
ID do modelo	`gemini-live-2.5-flash-preview-native-audio-09-2025`
Entradas e saídas suportadas	Entradas: Texto, Imagens, Áudio, Vídeo Saídas: Texto, Áudio
Limites de tokens	Máximo de tokens de entrada: 128 000 Tokens de saída máximos: 64 mil Capacidade de resposta: 32 000 tokens (predefinição), atualizável para 128 000 tokens
Sessões simultâneas máximas	1000
Capacidades	Suportado Fundamentação com a Pesquisa Google Instruções do sistema Chamada de funções API Gemini Live Não suportado Execução de código Ajuste Saída estruturada A pensar Colocação em cache de contexto implícito Colocação em cache de contexto explícito Vertex AI RAG Engine Conclusões de chat
Tipos de utilização	Suportado Débito aprovisionado Não suportado Standard PayGo Previsão em lote
	Imagens	Número máximo de imagens por comando: 3000 Tamanho máximo do ficheiro por ficheiro para dados incorporados ou carregamentos diretos através da consola: 7 MB Tamanho máximo do ficheiro por ficheiro do Google Cloud Storage: 30 MB Tipos MIME suportados: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Vídeo	Resolução padrão: 768 x 768 Tipos MIME suportados: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Áudio	Duração máxima da conversa: Predefinição de 10 minutos que pode ser prolongada. Formato de entrada de áudio obrigatório: Áudio PCM de 16 bits não processado a 16 kHz, little-endian Formato de saída de áudio obrigatório: Áudio PCM de 16 bits não processado a 24 kHz, little-endian Tipos MIME suportados: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Predefinições de parâmetros	Início da sensibilidade da voz: baixa Sensibilidade ao fim da fala: elevada Preenchimento do prefixo: 0 Tamanho máximo do contexto: 128 K
Regiões suportadas
	Disponibilidade do modelo	Estados Unidos us-central1
	Consulte o artigo Implementações e pontos finais para mais informações.
Data do limite de conhecimento	Agosto de 2025
Versões	`gemini-live-2.5-flash-preview-native-audio-09-2025` Fase de lançamento: pré-visualização pública Data de lançamento: 25 de setembro de 2025
Controlos de segurança
Controlos de segurança	Consulte os Controlos de segurança para mais informações.
Idiomas suportados	Consulte os idiomas suportados.
Preços	Consulte os preços.

Gemini 2.5 Flash com a API Gemini Live Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Áudio nativo do Live 2.5 Flash

Pré-visualização de áudio nativo do 2.5 Flash em direto

Gemini 2.5 Flash com a API Gemini Live