L'API Gemini Live consente interazioni vocali e video a bassa latenza e in tempo reale con Gemini. Elabora flussi continui di audio, video o testo per fornire risposte immediate e simili a quelle umane. In questo modo, gli utenti possono usufruire di un'esperienza di conversazione naturale.
Prova l'API Gemini Live nella Google Cloud console
Funzionalità principali
L'API Gemini Live offre un insieme completo di funzionalità per la creazione di agenti vocali e video robusti:
- Audio di alta qualità: l'API Gemini Live offre una voce naturale e realistica in più lingue.
- Supporto multilingue: comunica in 24 lingue supportate.
- Interruzione: Gli utenti possono interrompere il modello in qualsiasi momento per interazioni reattive.
- Dialogo affettivo: Adatta lo stile e il tono della risposta in base all'espressione dell'input dell'utente.
- Audio proattivo: ti consente di controllare quando e in quali contesti il modello risponde.
- Utilizzo dello strumento: Integra strumenti come la chiamata di funzioni e la Ricerca Google per interazioni dinamiche.
- Trascrizioni audio: Fornisce trascrizioni di testo sia dell'input utente sia dell'output del modello.
- Traduzione vocale: (sperimentale) Ottimizzata per la traduzione a bassa latenza tra le lingue.
Specifiche tecniche
La seguente tabella descrive le specifiche tecniche dell'API Gemini Live:
| Categoria | Dettagli |
|---|---|
| Modalità di input | Audio (audio PCM a 16 bit non elaborato, 16 kHz, little-endian), immagini/video (JPEG 1 FPS), testo |
| Modalità di output | Audio (audio PCM a 16 bit non elaborato, 24 kHz, little-endian), testo |
| Protocollo | Connessione WebSocket con stato (WSS) |
Modelli supportati
I seguenti modelli supportano l'API Gemini Live. Seleziona il modello appropriato in base ai tuoi requisiti di interazione.
| ID modello | Disponibilità | Caso d'uso | Funzionalità principali |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Anteprima pubblica | Efficienza dei costi negli agenti vocali in tempo reale. |
Audio nativo Trascrizioni audio Rilevamento dell'attività vocale Dialogo affettivo Audio proattivo Utilizzo degli strumenti |
gemini-2.5-flash-s2st-exp-11-2025 |
Privato sperimentale | Traduzione vocale (sperimentale). Ottimizzato per attività di traduzione. |
Audio nativo Trascrizioni audio Utilizzo di strumenti Traduzione vocale |
Architettura e integrazione
Esistono due modi principali per integrare l'API Gemini Live nella tua applicazione: da server a server e da client a server. Scegli quello che soddisfa i tuoi requisiti di sicurezza e della piattaforma.
Server-server
L'architettura server-to-server è consigliata per gli ambienti di produzione come app mobile, strumenti aziendali sicuri e integrazione della telefonia. L'applicazione client trasmette l'audio in streaming al tuo server di backend sicuro. Il server gestisce quindi la connessione WebSocket a Google.
Questo metodo mantiene le chiavi API al sicuro e ti consente di modificare l'audio o aggiungere logica prima di inviarlo a Gemini. Tuttavia, aggiunge una piccola quantità di latenza di rete.
Client-to-server
L'architettura client-server è adatta per app web, demo rapide e strumenti interni. Il browser web si connette direttamente all'API Gemini Live utilizzando WebSocket.
Questo metodo offre la latenza più bassa possibile e un'architettura più semplice per le demo. Tieni presente che questo approccio espone le chiavi API all'utente frontend, il che crea un rischio per la sicurezza. Per la produzione, devi utilizzare un proxy attento o la gestione dei token effimeri.
Inizia
Seleziona la guida corrispondente al tuo ambiente di sviluppo:
Tutorial sull'SDK Gen AI
Connettiti all'API Gemini Live utilizzando l'SDK Gen AI, invia un file audio a Gemini e ricevi audio in risposta.
Tutorial su WebSocket
Connettiti all'API Gemini Live utilizzando WebSocket, invia un file audio a Gemini e ricevi audio in risposta.
Tutorial ADK
Crea un agente e utilizza lo streaming dell'Agent Development Kit (ADK) per abilitare la comunicazione vocale e video.
Integrazioni con i partner
Se preferisci una procedura di sviluppo più semplice, puoi utilizzare una delle nostre piattaforme partner. Queste piattaforme hanno già integrato l'API Gemini Live tramite il protocollo WebRTC per semplificare lo sviluppo di applicazioni audio e video in tempo reale.
