L'API Live permet des interactions vocales et vidéo en temps réel et à faible latence avec Gemini. Il traite les flux continus d'audio, de vidéo ou de texte pour fournir des réponses vocales immédiates et naturelles. Cela permet de créer une expérience de conversation naturelle pour vos utilisateurs.
Principales fonctionnalités
L'API Live offre un ensemble complet de fonctionnalités permettant de créer des agents vocaux robustes :
- Audio natif : offre une voix naturelle et réaliste, et améliore les performances multilingues.
- Compatibilité multilingue : discutez dans l'une des 24 langues disponibles.
- Détection de l'activité vocale (VAD) : gère automatiquement les interruptions et les tours de parole.
- Dialogue affectif : adapte le style et le ton de la réponse pour qu'ils correspondent à l'expression de l'utilisateur.
- Audio proactif : vous permet de contrôler quand et dans quels contextes le modèle répond.
- Réflexion : utilise des jetons de raisonnement cachés pour "réfléchir" avant de répondre aux requêtes complexes.
- Utilisation d'outils : intègre des outils tels que l'appel de fonction et la recherche Google pour des interactions dynamiques.
- Transcriptions audio : fournit des transcriptions textuelles des entrées utilisateur et des sorties du modèle.
- Traduction de la parole en parole : optimisée pour la traduction à faible latence entre les langues.
Spécifications techniques
Le tableau suivant présente les spécifications techniques de l'API Live :
| Catégorie | Détails |
|---|---|
| Modes d'entrée | Audio (PCM 16 kHz), vidéo (1 FPS), texte |
| Modes de sortie | Audio (PCM 24 kHz), texte |
| Protocole | Connexion WebSocket avec état (WSS) |
| Latence | Diffusion en temps réel pour obtenir des commentaires immédiats |
Modèles compatibles
Les modèles suivants sont compatibles avec l'API Live. Sélectionnez le modèle approprié en fonction de vos besoins d'interaction.
| ID du modèle | Disponibilité | Cas d'utilisation | Principales fonctionnalités |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Version Preview publique | Rentabilité des agents vocaux en temps réel. |
Audio natif Transcriptions audio Détection de l'activité vocale Dialogue affectif Audio proactif Utilisation d'outils |
gemini-2.5-flash-s2st-exp-11-2025 |
Expérimental public | Traduction de la parole (fonctionnalité expérimentale). Optimisé pour les tâches de traduction. |
Audio natif Transcriptions audio Utilisation d'outils Traduction de la parole |
Architecture et intégration
Il existe deux principales façons d'intégrer l'API Live à votre application : de serveur à serveur et de client à serveur. Choisissez celui qui correspond à vos exigences en termes de sécurité et de plate-forme.
Serveur à serveur
L'architecture de serveur à serveur est recommandée pour les environnements de production tels que les applications mobiles, les outils d'entreprise sécurisés et l'intégration de la téléphonie. Votre application cliente diffuse du contenu audio vers votre serveur backend sécurisé. Votre serveur gère ensuite la connexion WebSocket à Google.
Cette méthode permet de sécuriser vos clés API et de modifier l'audio ou d'ajouter de la logique avant de l'envoyer à Gemini. Toutefois, elle ajoute un peu de latence réseau.
Client vers serveur
L'architecture client-serveur convient aux applications Web, aux démonstrations rapides et aux outils internes. Le navigateur Web se connecte directement à l'API Live à l'aide de WebSockets.
Cette méthode offre la latence la plus faible possible et une architecture plus simple pour les démonstrations. Sachez que cette approche expose les clés API à l'utilisateur du frontend, ce qui crée un risque pour la sécurité. Pour la production, vous devez utiliser une gestion prudente des jetons éphémères ou des proxys.
Commencer
Sélectionnez le guide correspondant à votre environnement de développement :
Tutoriel sur le SDK Gen AI
Connectez-vous à l'API Live à l'aide du SDK Gen AI, puis envoyez un fichier audio à Gemini et recevez une réponse audio.
Tutoriel WebSocket
Connectez-vous à l'API Live à l'aide de WebSockets, envoyez un fichier audio à Gemini et recevez une réponse audio.
Tutoriel ADK
Créer un agent et utiliser l'Agent Development Kit (ADK) Streaming pour activer la communication vocale et vidéo
Exécuter une application Web de démonstration
Configurez et exécutez une application Web qui vous permet d'utiliser votre voix et votre caméra pour parler à Gemini au moyen de l'API Live.
Intégration de partenaires
Si vous préférez un processus de développement plus simple, vous pouvez utiliser Daily, LiveKit ou Voximplant. Il s'agit de plates-formes partenaires tierces qui ont déjà intégré l'API Gemini Live via le protocole WebRTC pour simplifier le développement d'applications audio et vidéo en temps réel.
