Panoramica dell'API Gemini Live

L'API Gemini Live consente interazioni vocali e video a bassa latenza e in tempo reale con Gemini. Elabora flussi continui di audio, video o testo per fornire risposte immediate e simili a quelle umane. In questo modo, gli utenti possono usufruire di un'esperienza di conversazione naturale.

Prova l'API Gemini Live nella Google Cloud console

Funzionalità principali

L'API Gemini Live offre un insieme completo di funzionalità per la creazione di agenti vocali e video robusti:

  • Audio di alta qualità: l'API Gemini Live offre una voce naturale e realistica in più lingue.
  • Supporto multilingue: comunica in 24 lingue supportate.
  • Interruzione: Gli utenti possono interrompere il modello in qualsiasi momento per interazioni reattive.
  • Dialogo affettivo: Adatta lo stile e il tono della risposta in base all'espressione dell'input dell'utente.
  • Audio proattivo: ti consente di controllare quando e in quali contesti il modello risponde.
  • Utilizzo dello strumento: Integra strumenti come la chiamata di funzioni e la Ricerca Google per interazioni dinamiche.
  • Trascrizioni audio: Fornisce trascrizioni di testo sia dell'input utente sia dell'output del modello.
  • Traduzione vocale: (sperimentale) Ottimizzata per la traduzione a bassa latenza tra le lingue.

Specifiche tecniche

La seguente tabella descrive le specifiche tecniche dell'API Gemini Live:

Categoria Dettagli
Modalità di input Audio (audio PCM a 16 bit non elaborato, 16 kHz, little-endian), immagini/video (JPEG 1 FPS), testo
Modalità di output Audio (audio PCM a 16 bit non elaborato, 24 kHz, little-endian), testo
Protocollo Connessione WebSocket con stato (WSS)

Modelli supportati

I seguenti modelli supportano l'API Gemini Live. Seleziona il modello appropriato in base ai tuoi requisiti di interazione.

ID modello Disponibilità Caso d'uso Funzionalità principali
gemini-live-2.5-flash-preview-native-audio-09-2025 Anteprima pubblica Efficienza dei costi negli agenti vocali in tempo reale. Audio nativo
Trascrizioni audio
Rilevamento dell'attività vocale
Dialogo affettivo
Audio proattivo
Utilizzo degli strumenti
gemini-2.5-flash-s2st-exp-11-2025 Privato sperimentale Traduzione vocale (sperimentale). Ottimizzato per attività di traduzione. Audio nativo
Trascrizioni audio
Utilizzo di strumenti
Traduzione vocale

Architettura e integrazione

Esistono due modi principali per integrare l'API Gemini Live nella tua applicazione: da server a server e da client a server. Scegli quello che soddisfa i tuoi requisiti di sicurezza e della piattaforma.

Server-server

L'architettura server-to-server è consigliata per gli ambienti di produzione come app mobile, strumenti aziendali sicuri e integrazione della telefonia. L'applicazione client trasmette l'audio in streaming al tuo server di backend sicuro. Il server gestisce quindi la connessione WebSocket a Google.

Questo metodo mantiene le chiavi API al sicuro e ti consente di modificare l'audio o aggiungere logica prima di inviarlo a Gemini. Tuttavia, aggiunge una piccola quantità di latenza di rete.

Client-to-server

L'architettura client-server è adatta per app web, demo rapide e strumenti interni. Il browser web si connette direttamente all'API Gemini Live utilizzando WebSocket.

Questo metodo offre la latenza più bassa possibile e un'architettura più semplice per le demo. Tieni presente che questo approccio espone le chiavi API all'utente frontend, il che crea un rischio per la sicurezza. Per la produzione, devi utilizzare un proxy attento o la gestione dei token effimeri.

Inizia

Seleziona la guida corrispondente al tuo ambiente di sviluppo:

Consigliato per facilità d'uso

Connettiti all'API Gemini Live utilizzando l'SDK Gen AI, invia un file audio a Gemini e ricevi audio in risposta.

Controllo del protocollo non elaborato

Connettiti all'API Gemini Live utilizzando WebSocket, invia un file audio a Gemini e ricevi audio in risposta.

Agent Development Kit

Crea un agente e utilizza lo streaming dell'Agent Development Kit (ADK) per abilitare la comunicazione vocale e video.

Integrazioni con i partner

Se preferisci una procedura di sviluppo più semplice, puoi utilizzare una delle nostre piattaforme partner. Queste piattaforme hanno già integrato l'API Gemini Live tramite il protocollo WebRTC per semplificare lo sviluppo di applicazioni audio e video in tempo reale.