Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Résoudre les problèmes liés à l'API Gemini Live

Ce document fournit des étapes de dépannage pour les problèmes que vous pouvez rencontrer lors de l'utilisation de l'API Gemini Live.

La connexion est interrompue de manière inattendue

Si la connexion à votre session est interrompue de manière inattendue, cela peut être dû à des limites de jetons, à des délais avant expiration de la connexion à la session ou à des problèmes de réseau.

Comportement

La session a été déconnectée avec le code d'erreur 1000 ou 1006.

Raisons possibles

La compression de la fenêtre de contexte n'est pas activée et le jeton de contexte dépasse la limite de jetons de contexte de la session (jusqu'à 128 000).
Aucune logique de reprise de session n'est implémentée ou la logique de reprise n'est pas implémentée correctement.
Connexion Internet instable.

Motifs et solutions

Les jetons dépassent la limite de jetons de contexte de la session : pour éviter de dépasser la limite de jetons de contexte de la session, activez la compression du contexte. Cela peut avoir un impact sur la qualité de la conversation, car le modèle supprime par intermittence les parties précédentes de l'historique des discussions.
La connexion à la session expire au bout de 10 minutes : gérez la reprise de la session pour permettre des interactions plus longues. Pour en savoir plus, consultez les bonnes pratiques concernant la reprise de session.
Connexion Internet instable : vérifiez l'état de votre connexion Internet, car les fluctuations de stabilité peuvent entraîner des problèmes de connectivité.

Le modèle n'a pas compris l'utilisateur

Si le modèle ne semble pas comprendre votre saisie, assurez-vous que votre audio est correctement formaté. Tenez également compte de la qualité de votre micro et du bruit de fond.

Comportement

Le modèle répond avec des informations non pertinentes ou incorrectes, ou demande à l'utilisateur de répéter.

Raisons possibles

Le format audio d'entrée n'est pas correct.
La qualité du micro n'est pas bonne.
Le bruit de fond est trop important.

Motifs et solutions

Le format audio d'entrée n'est pas correct : vérifiez que l'audio d'entrée utilise un format PCM 16 bits little-endian avec un taux d'échantillonnage de 16 kHz et un seul canal mono.
La qualité du micro n'est pas bonne : testez la qualité du micro en enregistrant un bref extrait audio et en le lisant. Si la qualité du micro n'est pas bonne, essayez d'en utiliser un de meilleure qualité.
Le bruit de fond est trop élevé : testez le niveau de bruit de fond en enregistrant un court extrait audio et en le lisant. Si le niveau de bruit de fond est trop élevé, essayez de rapprocher le micro de l'utilisateur ou d'utiliser un micro avec une meilleure suppression du bruit.

Le modèle ne répond pas

Si vous ne recevez pas de réponse du modèle, vérifiez vos options de détection de l'activité vocale et la connexion WebSocket.

Comportement

Le modèle n'a pas répondu.

Raisons possibles

Les paramètres de la VAD ne sont pas correctement définis.
La connexion WebSocket a été interrompue.

Motifs et solutions

La VAD est mal configurée : La VAD est désactivée par l'utilisateur. Dans ce cas, le modèle continuera d'attendre la parole de l'utilisateur et ne lui répondra pas. Assurez-vous d'envoyer les événements ActivityStart et ActivityEnd au modèle si la VAD est désactivée.
La connexion WebSocket a été interrompue : si la connexion WebSocket est interrompue, il n'y aura aucune communication entre le client et le serveur. Vérifiez l'état de la connexion WebSocket et assurez-vous qu'elle est correctement établie.

Impossible d'interrompre le modèle

Si vous ne parvenez pas à interrompre le modèle pendant qu'il parle, assurez-vous de gérer correctement le tampon de lecture et le flux audio.

Comportement

Le modèle continue de parler sans interruption de l'utilisateur.

Raisons possibles

Échec de la vidange du tampon de lecture.
Échec du streaming audio vers l'API Gemini Live.
La VAD personnalisée n'est pas correctement implémentée.

Motifs et solutions

Échec de l'effacement du tampon de lecture : le client doit effacer immédiatement le tampon de lecture lorsqu'il reçoit un signal d'interruption du modèle. Sinon, le modèle continuera à parler.
Échec du streaming audio vers l'API Gemini Live : le client doit diffuser l'audio vers l'API Gemini Live par blocs de 20 à 40 ms pour minimiser la latence. Si le client ne parvient pas à diffuser de l'audio vers l'API Gemini Live, le modèle n'envoie pas de signal d'interruption au client.
La VAD personnalisée n'est pas correctement implémentée : si la VAD personnalisée ne parvient pas à reconnaître le début de la parole ou si le client ne parvient pas à envoyer le signal ActivityStart au modèle, ce dernier n'enverra pas de signal d'interruption au client.

Résoudre les problèmes liés à l'API Gemini Live Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

La connexion est interrompue de manière inattendue

Comportement

Raisons possibles

Motifs et solutions

Le modèle n'a pas compris l'utilisateur

Comportement

Raisons possibles

Motifs et solutions

Le modèle ne répond pas

Comportement

Raisons possibles

Motifs et solutions

Impossible d'interrompre le modèle

Comportement

Raisons possibles

Motifs et solutions

Résoudre les problèmes liés à l'API Gemini Live