Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini 2.5 Flash con l'API Gemini Live

Gemini 2.5 Flash con le funzionalità audio native dell'API Gemini Live offre la nostra funzionalità audio nativa all'avanguardia per l'API Gemini Live. Oltre alle funzionalità standard dell'API Gemini Live, questo modello include:

Qualità audio migliorata:goditi una qualità audio notevolmente migliorata che ti farà sentire come se stessi parlando con una persona.
Qualità e adattabilità della voce migliorate: l'API Gemini Live offre interazioni vocali più ricche e naturali con 30 voci HD in 24 lingue.
Ti presentiamo Audio Proattivo: (anteprima) Quando Audio Proattivo è attivo, il modello risponde solo quando è pertinente. Il modello genera trascrizioni di testo e risposte audio in modo proattivo solo per le query indirizzate al dispositivo e non risponde alle query non indirizzate al dispositivo.
Introduzione di Affective Dialog: i modelli che utilizzano l'audio nativo dell'API Gemini Live possono comprendere e rispondere in modo appropriato alle espressioni emotive degli utenti per conversazioni più sfumate.
Interruzione migliorata: interrompi Gemini in modo più naturale e affidabile, anche in ambienti rumorosi.
Chiamata di funzioni affidabile:abbiamo migliorato la frequenza di attivazione, consentendo a Gemini di eseguire correttamente le funzioni che definisci per supportare i tuoi casi d'uso.
Trascrizione accurata: l'accuratezza della trascrizione dell'audio in testo è stata notevolmente migliorata. Per risultati ancora migliori, puoi fornire suggerimenti sulla lingua per indirizzare il modello verso la lingua corretta. Per ulteriori informazioni, vedi Attivare la trascrizione audio per la sessione.
Supporto multilingue senza interruzioni: parla con Gemini in più lingue e passerà da una all'altra senza problemi e senza alcuna preconfigurazione. La lingua non è più un ostacolo.

Per saperne di più sull'API Gemini Live, consulta:

La nostra documentazione dell'API Gemini Live autonoma.
I formati audio supportati dall'API Gemini Live.
I nostri limiti di sessioni simultanee dell'API Gemini Live.

Live 2.5 Flash Native Audio

Prova in Agent Platform

Specifiche tecniche
ID modello	`gemini-live-2.5-flash-native-audio`
Input e output supportati	Input: Testo, Immagini, Audio, Video Output: Testo, Audio
Limiti di token	Token di input massimi: 128.000 Numero massimo di token di output: 64.000
Numero massimo di sessioni simultanee	1000
Funzionalità	Supportato Grounding con la Ricerca Google Istruzioni di sistema Chiamata di funzione API Gemini Live Non supportata Esecuzione del codice Fine-tuning supervisionato Regolazione continua Ottimizzazione delle preferenze Punti di controllo dell'ottimizzazione Output strutturato Pensiero Memorizzazione nella cache del contesto implicito Memorizzazione nella cache del contesto esplicito Completamenti della chat Content Credentials (C2PA)
Opzioni di consumo	Supportato Throughput riservato Standard PayGo Non supportata Flex PayGo Priority PayGo Inferenza batch
Opzioni di consumo	Per saperne di più, consulta Opzioni di consumo.
	Immagini	Numero massimo di immagini per prompt: 3000 Dimensioni massime del file per i dati in linea o i caricamenti diretti tramite la console: 7 MB Dimensione massima del file per file da Google Cloud Storage: 30 MB Tipi MIME supportati: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Video	Risoluzione standard: 768 x 768 Tipi MIME supportati: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Audio	Durata massima della conversazione: Valore predefinito di 10 minuti che può essere esteso. Formato di input audio richiesto: Audio PCM non elaborato a 16 bit a 16 kHz, little-endian Formato di output audio richiesto: Audio PCM a 16 bit non elaborato a 24 kHz, little-endian Tipi MIME supportati: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Valori predefiniti dei parametri	Inizio della sensibilità vocale: bassa Fine della sensibilità vocale: alta Silenzio iniziale: 0 Dimensioni massime del contesto: 128.000
Aree geografiche supportate
	Disponibilità del modello	Stati Uniti us-central1 us-east1 us-east4 us-east5 us-south1 us-west1 us-west4 Europa europe-central2 europe-north1 europe-southwest1 europe-west1 europe-west4 europe-west8
	Per ulteriori informazioni, consulta Deployment ed endpoint.
Versioni	`gemini-live-2.5-flash-native-audio` Fase di lancio: disponibilità generale Data di rilascio: 12 dicembre 2025 Data di interruzione: 13 dicembre 2026
Controlli di sicurezza
	Previsione online	Residenza dei dati CMEK VPC-SC AXT
	Per saperne di più, consulta Controlli di sicurezza.
Lingue supportate	Consulta la sezione Lingue supportate.
Prezzi	Vedi Prezzi.

Anteprima audio nativa di Live 2.5 Flash

Attenzione: gemini-live-2.5-flash-preview-native-audio-09-2025 verrà ritirato e rimosso il 19 marzo 2026. Esegui la migrazione di tutti i workflow a gemini-live-2.5-flash-native-audio.

Prova in Agent Platform

Specifiche tecniche
ID modello	`gemini-live-2.5-flash-preview-native-audio-09-2025`
Input e output supportati	Input: Testo, Immagini, Audio, Video Output: Testo, Audio
Limiti di token	Token di input massimi: 128.000 Numero massimo di token di output: 64.000 Finestra contestuale: 32.000 (impostazione predefinita), aggiornabile a 128.000
Numero massimo di sessioni simultanee	1000
Funzionalità	Supportato Grounding con la Ricerca Google Istruzioni di sistema Chiamata di funzione API Gemini Live Non supportata Esecuzione del codice Fine-tuning supervisionato Regolazione continua Ottimizzazione delle preferenze Punti di controllo dell'ottimizzazione Output strutturato Pensiero Memorizzazione nella cache del contesto implicito Memorizzazione nella cache del contesto esplicito Completamenti della chat Content Credentials (C2PA)
Opzioni di consumo	Supportato Throughput riservato Standard PayGo Non supportata Flex PayGo Priority PayGo Inferenza batch
Opzioni di consumo	Per saperne di più, consulta Opzioni di consumo.
	Immagini	Numero massimo di immagini per prompt: 3000 Dimensioni massime del file per i dati in linea o i caricamenti diretti tramite la console: 7 MB Dimensione massima del file per file da Google Cloud Storage: 30 MB Tipi MIME supportati: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Video	Risoluzione standard: 768 x 768 Tipi MIME supportati: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Audio	Durata massima della conversazione: Valore predefinito di 10 minuti che può essere esteso. Formato di input audio richiesto: Audio PCM non elaborato a 16 bit a 16 kHz, little-endian Formato di output audio richiesto: Audio PCM a 16 bit non elaborato a 24 kHz, little-endian Tipi MIME supportati: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Valori predefiniti dei parametri	Inizio della sensibilità vocale: bassa Fine della sensibilità vocale: alta Silenzio iniziale: 0 Dimensioni massime del contesto: 128.000
Aree geografiche supportate
	Disponibilità del modello	Stati Uniti us-central1
	Per ulteriori informazioni, consulta Deployment ed endpoint.
Data del knowledge cutoff	Agosto 2025
Versioni	`gemini-live-2.5-flash-preview-native-audio-09-2025` Fase di lancio: anteprima pubblica Data di rilascio: 25 settembre 2025 Data di ritiro: 19 marzo 2026
Lingue supportate	Consulta la sezione Lingue supportate.
Prezzi	Vedi Prezzi.

Gemini 2.5 Flash con l'API Gemini Live Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Live 2.5 Flash Native Audio

Anteprima audio nativa di Live 2.5 Flash

Gemini 2.5 Flash con l'API Gemini Live