Présentation de l'API Gemini Live

Attention : gemini-live-2.5-flash-preview-native-audio-09-2025 sera obsolète et supprimé le 19 mars 2026. Migrez tous les workflows vers gemini-live-2.5-flash-native-audio.

L'API Gemini Live permet des interactions vocales et vidéo bidirectionnelles à faible latence et en temps réel avec Gemini. Elle traite des flux continus d'audio, de vidéo ou de texte pour fournir des réponses immédiates et naturelles. Vos utilisateurs bénéficient ainsi d'une expérience de conversation naturelle.

Essayer l'API Gemini Live dans Agent Platform Studio

Exemples de cas d'utilisation

L'API Gemini Live peut être utilisée pour créer des agents vocaux et vidéo en temps réel pour divers secteurs, y compris les suivants :

E-commerce et vente au détail : assistants d'achat qui proposent des recommandations personnalisées et agents d'assistance qui résolvent les problèmes des clients.
Jeux vidéo : personnages non joueurs (PNJ) interactifs, assistants d'aide dans le jeu et traduction en temps réel du contenu du jeu.
Interfaces de nouvelle génération : expériences vocales et vidéo dans la robotique, les lunettes connectées et les véhicules.
Santé : compagnons de santé pour l'assistance et l'éducation des patients.
Services financiers : conseillers IA pour la gestion de patrimoine et les conseils en investissement.
Éducation : mentors IA et compagnons d'apprentissage qui fournissent des instructions et des commentaires personnalisés.

Principales fonctionnalités

L'API Gemini Live offre un ensemble complet de fonctionnalités pour créer des agents vocaux et vidéo robustes :

Haute qualité audio: l'API Gemini Live fournit une voix naturelle et réaliste dans plusieurs langues.
Compatibilité multilingue: conversez dans 24 langues compatibles.
Interruption: les utilisateurs peuvent interrompre le modèle à tout moment pour des interactions réactives.
**Dialogue affectif** : adapte le style et le ton de la réponse en fonction de l'expression de l'entrée de l'utilisateur.
Utilisation de l'outil : intègre des outils tels que l'appel de fonction et la recherche Google pour des interactions dynamiques .
Transcriptions audio: fournit des transcriptions textuelles de l'entrée utilisateur et de la sortie du modèle.
Audio proactif : (Preview) vous permet de contrôler quand le modèle répond et dans quels contextes.

Spécifications techniques

Le tableau suivant présente les spécifications techniques de l'API Gemini Live :

Catégorie	Détails
Modes d'entrée	Audio (audio PCM 16 bits brut, 16 kHz, little-endian), images/vidéo (JPEG 1 FPS), texte
Modes de sortie	Audio (audio PCM 16 bits brut, 24 kHz, little-endian), texte
Protocole	Connexion WebSocket avec état (WSS)

Modèles compatibles

Les modèles suivants sont compatibles avec l'API Gemini Live. Sélectionnez le modèle approprié en fonction de vos exigences d'interaction.

ID du modèle	Disponibilité	Cas d'utilisation	Principales fonctionnalités
`gemini-live-2.5-flash-native-audio`	Disponibilité générale	Recommandation. Agents vocaux à faible latence. Prise en charge du changement de langue fluide et du ton émotionnel.	Audio natif Transcriptions audio Détection de l'activité vocale Dialogue affectif Audio proactif Utilisation de l'outil
`gemini-live-2.5-flash-preview-native-audio-09-2025`	Version Preview publique	Rentabilité des agents vocaux en temps réel.	Audio natif Transcriptions audio Détection de l'activité vocale Dialogue affectif Audio proactif Utilisation de l'outil

Commencer

Sélectionnez le guide correspondant à votre environnement de développement :

Recommandé pour sa facilité d'utilisation

Tutoriel sur le SDK Gen AI

Connectez-vous à l'API Gemini Live à l'aide du SDK Gen AI pour créer une application multimodale en temps réel avec un backend Python.

Contrôle brut du protocole

Tutoriel sur WebSocket

Connectez-vous à l'API Gemini Live à l'aide de WebSockets pour créer une application multimodale en temps réel avec un frontend JavaScript et un backend Python.

Agent Development Kit

Tutoriel ADK

Créez un agent et utilisez le streaming Agent Development Kit (ADK) pour activer la communication vocale et vidéo.

Intégration de partenaires

Si vous souhaitez effectuer une intégration avec certains de nos partenaires, ces plates-formes ont déjà intégré l'API Gemini Live via le protocole WebRTC pour simplifier le développement d'applications audio et vidéo en temps réel.

Présentation de l'API Gemini Live Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Exemples de cas d'utilisation

Principales fonctionnalités

Spécifications techniques

Modèles compatibles

Commencer

Tutoriel sur le SDK Gen AI

Tutoriel sur WebSocket

Tutoriel ADK

Intégration de partenaires

Présentation de l'API Gemini Live