L'API Live consente interazioni vocali e video in tempo reale a bassa latenza con Gemini. Elabora flussi continui di audio, video o testo per fornire risposte immediate e simili a quelle umane. In questo modo, gli utenti possono usufruire di un'esperienza di conversazione naturale.
Funzionalità principali
L'API Live offre un insieme completo di funzionalità per la creazione di agenti vocali robusti:
- Audio nativo: Fornisce una voce naturale e realistica e un miglioramento delle prestazioni multilingue.
- Supporto multilingue: comunica in 24 lingue supportate.
- Rilevamento dell'attività vocale (VAD): gestisce automaticamente le interruzioni e l'alternanza dei turni.
- Dialogo affettivo: Adatta lo stile e il tono della risposta in base all'espressione dell'input dell'utente.
- Audio proattivo: ti consente di controllare quando e in quali contesti il modello risponde.
- Pensiero: Utilizza token di ragionamento nascosti per "pensare" prima di parlare per query complesse.
- Utilizzo dello strumento: Integra strumenti come la chiamata di funzioni e la Ricerca Google per interazioni dinamiche.
- Trascrizioni audio: Fornisce trascrizioni di testo sia dell'input utente sia dell'output del modello.
- Traduzione speech-to-speech: ottimizzata per la traduzione a bassa latenza tra le lingue.
Specifiche tecniche
La seguente tabella descrive le specifiche tecniche dell'API Live:
| Categoria | Dettagli |
|---|---|
| Modalità di input | Audio (PCM 16 kHz), video (1 FPS), testo |
| Modalità di output | Audio (PCM 24 kHz), testo |
| Protocollo | Connessione WebSocket con stato (WSS) |
| Latenza | Streaming in tempo reale per un feedback immediato |
Modelli supportati
I seguenti modelli supportano l'API Live. Seleziona il modello appropriato in base ai tuoi requisiti di interazione.
| ID modello | Disponibilità | Caso d'uso | Funzionalità principali |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Anteprima pubblica | Efficienza dei costi negli agenti vocali in tempo reale. |
Audio nativo Trascrizioni audio Rilevamento dell'attività vocale Dialogo affettivo Audio proattivo Utilizzo degli strumenti |
gemini-2.5-flash-s2st-exp-11-2025 |
Pubblico sperimentale | Traduzione vocale (sperimentale). Ottimizzato per attività di traduzione. |
Audio nativo Trascrizioni audio Utilizzo di strumenti Traduzione vocale |
Architettura e integrazione
Esistono due modi principali per integrare l'API Live nella tua applicazione: server-to-server e client-to-server. Scegli quello che soddisfa i tuoi requisiti di sicurezza e della piattaforma.
Server-server
L'architettura server-to-server è consigliata per gli ambienti di produzione come app mobile, strumenti aziendali sicuri e integrazione della telefonia. L'applicazione client trasmette l'audio in streaming al tuo server di backend sicuro. Il server gestisce quindi la connessione WebSocket a Google.
Questo metodo mantiene le chiavi API al sicuro e ti consente di modificare l'audio o aggiungere logica prima di inviarlo a Gemini. Tuttavia, aggiunge una piccola quantità di latenza di rete.
Client-to-server
L'architettura client-server è adatta per app web, demo rapide e strumenti interni. Il browser web si connette direttamente all'API Live utilizzando WebSocket.
Questo metodo offre la latenza più bassa possibile e un'architettura più semplice per le demo. Tieni presente che questo approccio espone le chiavi API all'utente frontend, il che crea un rischio per la sicurezza. Per la produzione, devi utilizzare un proxy attento o la gestione dei token effimeri.
Inizia
Seleziona la guida corrispondente al tuo ambiente di sviluppo:
Tutorial sull'SDK Gen AI
Connettiti all'API Live utilizzando l'SDK Gen AI, invia un file audio a Gemini e ricevi audio in risposta.
Tutorial su WebSocket
Connettiti all'API Live utilizzando WebSocket, invia un file audio a Gemini e ricevi audio in risposta.
Tutorial ADK
Crea un agente e utilizza lo streaming dell'Agent Development Kit (ADK) per abilitare la comunicazione vocale e video.
Esegui un'app web demo
Configura ed esegui un'applicazione web che ti consente di usare la voce e la fotocamera per parlare con Gemini tramite l'API Live.
Integrazioni con i partner
Se preferisci una procedura di sviluppo più semplice, puoi utilizzare Daily, LiveKit o Voximplant. Si tratta di piattaforme partner di terze parti che hanno già integrato l'API Live tramite il protocollo WebRTC per semplificare lo sviluppo di applicazioni audio e video in tempo reale.
