Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Panoramica dell'API Gemini Live

L'API Gemini Live consente interazioni vocali e video in tempo reale a bassa latenza con Gemini. Elabora flussi continui di audio, video o testo per fornire risposte parlate immediate e simili a quelle umane. In questo modo, gli utenti possono usufruire di un'esperienza di conversazione naturale.

Prova l'API Gemini Live in Agent Platform Studio

Esempi di casi d'uso

L'API Gemini Live può essere utilizzata per creare agenti vocali e video in tempo reale per una varietà di settori, tra cui:

E-commerce e vendita al dettaglio:assistenti allo shopping che offrono consigli personalizzati e agenti di assistenza che risolvono i problemi dei clienti.
Videogiochi:personaggi non giocanti (PNG) interattivi, assistenti di aiuto in-game e traduzione in tempo reale dei contenuti in-game.
Interfacce di nuova generazione:esperienze abilitate per voce e video in robotica, smart glass e veicoli.
Sanità:compagni di salute per il supporto e l'istruzione dei pazienti.
Servizi finanziari:consulenti AI per la gestione patrimoniale e la consulenza sugli investimenti.
Istruzione:mentori AI e compagni di apprendimento che forniscono istruzioni e feedback personalizzati.

Funzionalità principali

L'API Gemini Live offre un set completo di funzionalità per la creazione di agenti vocali e video robusti:

**Audio di alta qualità**: l'API Gemini Live fornisce un parlato naturale e realistico in più lingue.
Supporto multilingue: conversa in 24 lingue supportate.
Barge-in: Gli utenti possono interrompere il modello in qualsiasi momento per interazioni reattive.
**Dialogo empatico**: adatta lo stile e il tono della risposta in base all'espressione dell'input dell'utente.
Utilizzo degli strumenti: integra strumenti come le chiamate di funzioni e la Ricerca Google per interazioni dinamiche.
Trascrizioni audio: fornisce trascrizioni di testo sia dell'input utente che dell'output del modello.
Audio proattivo: (anteprima) consente di controllare quando e in quali contesti il modello risponde.

Specifiche tecniche

La seguente tabella illustra le specifiche tecniche dell'API Gemini Live:

Categoria	Dettagli
Modalità di input	Audio (audio PCM a 16 bit raw, 16 kHz, little-endian), immagini/video (JPEG 1 FPS), testo
Modalità di output	Audio (audio PCM a 16 bit raw, 24 kHz, little-endian), testo
Protocollo	Connessione WebSocket con stato (WSS)

Modelli supportati

I seguenti modelli supportano l'API Gemini Live. Seleziona il modello appropriato in base ai requisiti di interazione.

ID modello	Disponibilità	Caso d'uso	Funzionalità principali
`gemini-live-2.5-flash-native-audio`	Disponibilità generale	Opzione consigliata. Agenti vocali a bassa latenza. Supporta il cambio di lingua multilingue senza interruzioni e il tono emotivo.	Audio nativo Trascrizioni audio Rilevamento di attività vocale Dialogo empatico Audio proattivo Utilizzo degli strumenti

Inizia

Seleziona la guida che corrisponde al tuo ambiente di sviluppo:

Consigliato per la facilità d'uso

Tutorial sull'SDK Gen AI

Connettiti all'API Gemini Live utilizzando l'SDK Gen AI per creare un'applicazione multimodale in tempo reale con un backend Python.

Controllo del protocollo raw

Tutorial su WebSocket

Connettiti all'API Gemini Live utilizzando WebSockets per creare un'applicazione multimodale in tempo reale con un frontend JavaScript e un backend Python.

Agent Development Kit

Tutorial ADK

Crea un agente e utilizza lo streaming di Agent Development Kit (ADK) per abilitare la comunicazione vocale e video.

Integrazioni con i partner

Se vuoi eseguire l'integrazione con alcuni dei nostri partner, queste piattaforme hanno già integrato l'API Gemini Live tramite il protocollo WebRTC per semplificare lo sviluppo di applicazioni audio e video in tempo reale.

Panoramica dell'API Gemini Live Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.