L'API Gemini Live consente interazioni vocali e video in tempo reale a bassa latenza con Gemini. Elabora flussi continui di audio, video o testo per fornire risposte parlate immediate e simili a quelle umane. In questo modo, gli utenti possono usufruire di un'esperienza conversazionale naturale.
Prova l'API Gemini Live in Agent Platform Studio
Esempi di casi d'uso
L'API Gemini Live può essere utilizzata per creare agenti vocali e video in tempo reale per una varietà di settori, tra cui:
- E-commerce e vendita al dettaglio: assistenti allo shopping che offrono consigli personalizzati e agenti di assistenza che risolvono i problemi dei clienti.
- Giochi: personaggi non giocanti (NPC) interattivi, assistenti di aiuto in-game e traduzione in tempo reale dei contenuti in-game.
- Interfacce di nuova generazione: esperienze abilitate per voce e video in robotica, occhiali smart e veicoli.
- Sanità: compagni di salute per il supporto e l'istruzione dei pazienti.
- Servizi finanziari: consulenti AI per la gestione patrimoniale e la consulenza sugli investimenti.
- Istruzione: mentori AI e compagni di apprendimento che forniscono istruzioni e feedback personalizzati.
Funzionalità principali
L'API Gemini Live offre un set completo di funzionalità per la creazione di agenti vocali e video robusti:
- Qualità audio elevata: l'API Gemini Live fornisce un parlato naturale e realistico in più lingue.
- Supporto multilingue: conversa in 24 lingue supportate.
- Barge-in: gli utenti possono interrompere il modello in qualsiasi momento per interazioni reattive.
- Dialogo empatico: adatta lo stile e il tono della risposta in base all'espressione dell'input dell'utente.
- Utilizzo degli strumenti: integra strumenti come le chiamate di funzioni e la Ricerca Google per interazioni dinamiche .
- Trascrizioni audio: fornisce trascrizioni di testo sia dell'input utente sia dell'output del modello.
- Audio proattivo: (anteprima) consente di controllare quando e in quali contesti il modello risponde.
Specifiche tecniche
La seguente tabella descrive le specifiche tecniche dell'API Gemini Live:
| Categoria | Dettagli |
|---|---|
| Modalità di input | Audio (audio PCM a 16 bit non elaborato, 16 kHz, little-endian), immagini/video (JPEG 1 FPS), testo |
| Modalità di output | Audio (audio PCM a 16 bit non elaborato, 24 kHz, little-endian), testo |
| Protocollo | Connessione WebSocket con stato (WSS) |
Modelli supportati
I seguenti modelli supportano l'API Gemini Live. Seleziona il modello appropriato in base ai requisiti di interazione.
| ID modello | Disponibilità | Caso d'uso | Funzionalità principali |
|---|---|---|---|
gemini-live-2.5-flash-native-audio |
Disponibilità generale | Opzione consigliata. Agenti vocali a bassa latenza. Supporta il cambio di lingua multilingue senza interruzioni e il tono emotivo. |
|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Anteprima pubblica | Efficienza in termini di costi negli agenti vocali in tempo reale. |
|
Inizia
Seleziona la guida che corrisponde al tuo ambiente di sviluppo:
Tutorial sull'SDK Gen AI
Connettiti all'API Gemini Live utilizzando l'SDK Gen AI per creare un'applicazione multimodale in tempo reale con un backend Python.
Tutorial su WebSocket
Connettiti all'API Gemini Live utilizzando WebSockets per creare un'applicazione multimodale in tempo reale con un frontend JavaScript e un backend Python.
Tutorial ADK
Crea un agente e utilizza lo streaming di Agent Development Kit (ADK) per abilitare la comunicazione vocale e video.
Integrazioni con i partner
Se vuoi eseguire l'integrazione con alcuni dei nostri partner, queste piattaforme hanno già integrato l'API Gemini Live tramite il protocollo WebRTC per semplificare lo sviluppo di applicazioni audio e video in tempo reale.
