Gemini 2.5 Flash com a API Gemini Live

O Gemini 2.5 Flash com recursos de áudio nativo da API Gemini Live oferece nossa funcionalidade de áudio nativo de ponta para a API Gemini Live. Além dos recursos padrão da API Gemini Live, esse modelo inclui:

Qualidade de áudio aprimorada:tenha uma qualidade de áudio muito melhor, como se estivesse falando com uma pessoa.
Qualidade e adaptabilidade de voz aprimoradas:o áudio nativo da API Gemini Live oferece interações de voz mais ricas e naturais com 30 vozes em HD em 24 idiomas.
Apresentamos o Áudio proativo (prévia) Quando o Áudio proativo está ativado, o modelo só responde quando é relevante. O modelo gera transcrições de texto e respostas de áudio de forma proativa apenas para consultas direcionadas ao dispositivo e não responde a consultas não direcionadas ao dispositivo.
Apresentamos o diálogo afetivo:os modelos que usam o áudio nativo da API Gemini Live podem entender e responder adequadamente às expressões emocionais dos usuários para conversas mais sutis.
Melhoria da interrupção:interrompa o Gemini de forma mais natural e confiável, mesmo em ambientes barulhentos.
Chamada de função robusta:melhoramos a taxa de acionamento, permitindo que o Gemini execute com sucesso as funções definidas para oferecer suporte aos seus casos de uso.
Transcrição precisa:a precisão da transcrição de áudio em texto foi significativamente aprimorada.
Suporte multilíngue integrado:fale com o Gemini em vários idiomas, e ele vai alternar entre eles sem nenhuma pré-configuração. O idioma não é mais uma barreira.

Para mais informações sobre a API Gemini Live, consulte:

Nossa documentação independente da API Gemini Live.
Nossos formatos de áudio compatíveis com a API Gemini Live.
Nossos limites de sessão simultânea da API Gemini Live.

Live 2.5 Flash Native Audio

Teste na Vertex AI

Especificações técnicas
ID do modelo	`gemini-live-2.5-flash-native-audio`
Entradas e saídas compatíveis	Entradas: Texto, Imagens, Áudio, Vídeo Saídas: Texto, Áudio
Limites de tokens	Máximo de tokens de entrada: 32 mil (padrão), com possibilidade de upgrade para 128 mil Máximo de tokens de saída: 64 mil
Máximo de sessões simultâneas	1000
Recursos	Sim Embasamento com a Pesquisa Google Instruções do sistema Chamadas de função API Gemini Live Sem suporte Execução de código Ajuste Saída estruturada Pensamento Armazenamento em cache de contexto implícito Armazenamento em cache de contexto explícito Mecanismo RAG da Vertex AI Conclusões de chat
Tipos de uso	Sim Sem suporte Capacidade de processamento provisionada Padrão PayGo Previsão em lote
	Imagens	Máximo de imagens por comando: 3.000 Tamanho máximo por arquivo para dados inline ou uploads diretos pelo console: 7 MB Tamanho máximo por arquivo do Google Cloud Storage: 30 MB Tipos MIME compatíveis: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Vídeo	Resolução padrão: 768 x 768 Tipos MIME aceitos: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Áudio	Duração máxima da conversa: Padrão de 10 minutos que pode ser estendido. Formato de entrada de áudio obrigatório: Áudio PCM bruto de 16 bits a 16 kHz, little endian Formato de saída de áudio obrigatório: Áudio PCM bruto de 16 bits a 24 kHz, little endian Tipos MIME aceitos: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Padrões de parâmetros	Sensibilidade ao início da fala: baixa Sensibilidade ao fim da fala: alta Preenchimento de prefixo: 0 Tamanho máximo do contexto: 128 mil
Regiões compatíveis
	Disponibilidade do modelo	Estados Unidos us-central1 us-east1 us-east4 us-east5 us-south1 us-west1 us-west4 Europa europe-central2 europe-north1 europe-southwest1 europe-west1 europe-west4 europe-west8
	Consulte Implantações e endpoints para mais informações.
Versões	`gemini-live-2.5-flash-native-audio` Etapa do lançamento: GA Data de lançamento: 12 de dezembro de 2025 Data de descontinuação: 13 de dezembro de 2026
Controles de segurança
	Previsão on-line	Residência de dados CMEK VPC-SC AXT
	Consulte Controles de segurança para mais informações.
Idiomas compatíveis	Consulte Idiomas aceitos.
Preços	Consulte a seção Preços.

Prévia de áudio nativo do 2.5 Flash ao vivo

Teste na Vertex AI

Especificações técnicas
ID do modelo	`gemini-live-2.5-flash-preview-native-audio-09-2025`
Entradas e saídas compatíveis	Entradas: Texto, Imagens, Áudio, Vídeo Saídas: Texto, Áudio
Limites de tokens	Máximo de tokens de entrada: 128 mil Máximo de tokens de saída: 64 mil Janela de contexto: 32 mil (padrão), com possibilidade de upgrade para 128 mil
Máximo de sessões simultâneas	1000
Recursos	Sim Embasamento com a Pesquisa Google Instruções do sistema Chamadas de função API Gemini Live Sem suporte Execução de código Ajuste Saída estruturada Pensamento Armazenamento em cache de contexto implícito Armazenamento em cache de contexto explícito Mecanismo RAG da Vertex AI Conclusões de chat
Tipos de uso	Sim Capacidade de processamento provisionada Sem suporte Padrão PayGo Previsão em lote
	Imagens	Máximo de imagens por comando: 3.000 Tamanho máximo por arquivo para dados inline ou uploads diretos pelo console: 7 MB Tamanho máximo por arquivo do Google Cloud Storage: 30 MB Tipos MIME compatíveis: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Vídeo	Resolução padrão: 768 x 768 Tipos MIME aceitos: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Áudio	Duração máxima da conversa: Padrão de 10 minutos que pode ser estendido. Formato de entrada de áudio obrigatório: Áudio PCM bruto de 16 bits a 16 kHz, little endian Formato de saída de áudio obrigatório: Áudio PCM bruto de 16 bits a 24 kHz, little endian Tipos MIME aceitos: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Padrões de parâmetros	Sensibilidade ao início da fala: baixa Sensibilidade ao fim da fala: alta Preenchimento de prefixo: 0 Tamanho máximo do contexto: 128 mil
Regiões compatíveis
	Disponibilidade do modelo	Estados Unidos us-central1
	Consulte Implantações e endpoints para mais informações.
Data limite de conhecimento	Agosto de 2025
Versões	`gemini-live-2.5-flash-preview-native-audio-09-2025` Estágio de lançamento: pré-lançamento público Data de lançamento: 25 de setembro de 2025
Controles de segurança
Controles de segurança	Consulte Controles de segurança para mais informações.
Idiomas compatíveis	Consulte Idiomas aceitos.
Preços	Consulte a seção Preços.

Gemini 2.5 Flash com a API Gemini Live Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Live 2.5 Flash Native Audio

Prévia de áudio nativo do 2.5 Flash ao vivo

Gemini 2.5 Flash com a API Gemini Live