Audio nativo dell'API Gemini 2.5 Flash Live

Gemini 2.5 Flash con funzionalità audio native dell'API Live, la nostra funzionalità audio nativa all'avanguardia per l'API Live. Oltre alle funzionalità standard dell'API Live, questo modello di anteprima include:

  • Qualità audio migliorata: goditi una qualità audio notevolmente migliorata che ti farà sentire come se stessi parlando con una persona.
  • Qualità e adattabilità della voce migliorate:l'audio nativo dell'API Live offre interazioni vocali più ricche e naturali con 30 voci HD in 24 lingue.
  • Ti presentiamo Audio Proattivo: Quando Audio Proattivo è attivo, il modello risponde solo quando è pertinente. Il modello genera trascrizioni di testo e risposte audio in modo proattivo solo per le query indirizzate al dispositivo e non risponde alle query non indirizzate al dispositivo.
  • Ti presentiamo Affective Dialog: i modelli che utilizzano l'audio nativo dell'API Live possono comprendere e rispondere in modo appropriato alle espressioni emotive degli utenti per conversazioni più sfumate.
  • Interruzione migliorata: interrompi Gemini in modo più naturale e affidabile, anche in ambienti rumorosi.
  • Chiamata di funzioni affidabile: abbiamo migliorato la frequenza di attivazione, consentendo a Gemini di eseguire correttamente le funzioni che definisci per supportare i tuoi casi d'uso.
  • Trascrizione accurata:l'accuratezza della trascrizione dell'audio in testo è stata notevolmente migliorata.
  • Supporto multilingue senza interruzioni: parla con Gemini in più lingue e passerà da una all'altra senza alcuna preconfigurazione. La lingua non è più un ostacolo.

Per ulteriori informazioni sull'API Live, consulta:

Prova in Vertex AI

ID modello gemini-live-2.5-flash-preview-native-audio-09-2025
Ingressi e uscite supportati
  • Input:
    Testo, Audio, Video
  • Output:
    Testo, Audio
Limiti di token
  • Token di input massimi: 128.000
  • Numero massimo di token di output: 64.000
  • Finestra contestuale: 32.000 (impostazione predefinita), aggiornabile a 128.000
Funzionalità
Tipi di utilizzo
Specifiche tecniche
Video
  • Risoluzione standard: 768 x 768
  • Tipi MIME supportati:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Audio
  • Durata massima della conversazione: Valore predefinito di 10 minuti che può essere esteso.
  • Formato di input audio obbligatorio: Audio PCM non elaborato a 16 bit a 16 kHz, little-endian
  • Formato di output audio richiesto: Audio PCM a 16 bit non elaborato a 24 kHz, little-endian
  • Tipi MIME supportati:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Valori predefiniti dei parametri
  • Inizio della sensibilità vocale: bassa
  • Fine della sensibilità vocale: alta
  • Silenzio iniziale: 0
  • Dimensioni massime del contesto: 128.000
Aree geografiche supportate

Disponibilità del modello

  • Stati Uniti
    • us-central1
Per saperne di più, consulta Residenza dei dati.
Data del knowledge cutoff Gennaio 2025
Versioni
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • Fase di lancio: anteprima pubblica
    • Data di rilascio: 18 settembre 2025
  • gemini-live-2.5-flash-preview-native-audio
    • Fase di lancio: anteprima pubblica
    • Data di rilascio: 17 giugno 2025
    • Data di ritiro: 18 ottobre 2025
Controlli di sicurezza
Per ulteriori informazioni, consulta Controlli di sicurezza.
Lingue supportate Vedi Lingue supportate.
Prezzi Vedi Prezzi.