Panoramica dell'API Live

L'API Live consente interazioni vocali e video in tempo reale a bassa latenza con Gemini. Elabora flussi continui di audio, video o testo per fornire risposte immediate e simili a quelle umane. In questo modo, gli utenti possono usufruire di un'esperienza di conversazione naturale.

Funzionalità principali

L'API Live offre un insieme completo di funzionalità per la creazione di agenti vocali robusti:

Specifiche tecniche

La seguente tabella descrive le specifiche tecniche dell'API Live:

Categoria Dettagli
Modalità di input Audio (PCM 16 kHz), video (1 FPS), testo
Modalità di output Audio (PCM 24 kHz), testo
Protocollo Connessione WebSocket con stato (WSS)
Latenza Streaming in tempo reale per un feedback immediato

Modelli supportati

I seguenti modelli supportano l'API Live. Seleziona il modello appropriato in base ai tuoi requisiti di interazione.

ID modello Disponibilità Caso d'uso Funzionalità principali
gemini-live-2.5-flash-preview-native-audio-09-2025 Anteprima pubblica Efficienza dei costi negli agenti vocali in tempo reale. Audio nativo
Trascrizioni audio
Rilevamento dell'attività vocale
Dialogo affettivo
Audio proattivo
Utilizzo degli strumenti
gemini-2.5-flash-s2st-exp-11-2025 Pubblico sperimentale Traduzione vocale (sperimentale). Ottimizzato per attività di traduzione. Audio nativo
Trascrizioni audio
Utilizzo di strumenti
Traduzione vocale

Architettura e integrazione

Esistono due modi principali per integrare l'API Live nella tua applicazione: server-to-server e client-to-server. Scegli quello che soddisfa i tuoi requisiti di sicurezza e della piattaforma.

Server-server

L'architettura server-to-server è consigliata per gli ambienti di produzione come app mobile, strumenti aziendali sicuri e integrazione della telefonia. L'applicazione client trasmette l'audio in streaming al tuo server di backend sicuro. Il server gestisce quindi la connessione WebSocket a Google.

Questo metodo mantiene le chiavi API al sicuro e ti consente di modificare l'audio o aggiungere logica prima di inviarlo a Gemini. Tuttavia, aggiunge una piccola quantità di latenza di rete.

Client-to-server

L'architettura client-server è adatta per app web, demo rapide e strumenti interni. Il browser web si connette direttamente all'API Live utilizzando WebSocket.

Questo metodo offre la latenza più bassa possibile e un'architettura più semplice per le demo. Tieni presente che questo approccio espone le chiavi API all'utente frontend, il che crea un rischio per la sicurezza. Per la produzione, devi utilizzare un proxy attento o la gestione dei token effimeri.

Inizia

Seleziona la guida corrispondente al tuo ambiente di sviluppo:

Consigliato per facilità d'uso

Connettiti all'API Live utilizzando l'SDK Gen AI, invia un file audio a Gemini e ricevi audio in risposta.

Controllo del protocollo non elaborato

Connettiti all'API Live utilizzando WebSocket, invia un file audio a Gemini e ricevi audio in risposta.

Agent Development Kit

Crea un agente e utilizza lo streaming dell'Agent Development Kit (ADK) per abilitare la comunicazione vocale e video.

Integrazione di React/js

Configura ed esegui un'applicazione web che ti consente di usare la voce e la fotocamera per parlare con Gemini tramite l'API Live.

Integrazioni con i partner

Se preferisci una procedura di sviluppo più semplice, puoi utilizzare Daily, LiveKit o Voximplant. Si tratta di piattaforme partner di terze parti che hanno già integrato l'API Live tramite il protocollo WebRTC per semplificare lo sviluppo di applicazioni audio e video in tempo reale.