Ce document fournit des étapes de dépannage pour les problèmes que vous pouvez rencontrer lors de l'utilisation de l'API Gemini Live.
La connexion est interrompue de manière inattendue
Si la connexion à votre session est interrompue de manière inattendue, cela peut être dû à des limites de jetons, à des délais avant expiration de la connexion à la session ou à des problèmes de réseau.
Comportement
La session a été déconnectée avec le code d'erreur 1000 ou 1006.
Raisons possibles
- La compression de la fenêtre de contexte n'est pas activée et le jeton de contexte dépasse la limite de jetons de contexte de la session (jusqu'à 128 000).
- Aucune logique de reprise de session n'est implémentée ou la logique de reprise n'est pas implémentée correctement.
- Connexion Internet instable.
Motifs et solutions
Les jetons dépassent la limite de jetons de contexte de la session : pour éviter de dépasser la limite de jetons de contexte de la session, activez la compression du contexte. Cela peut avoir un impact sur la qualité de la conversation, car le modèle supprime par intermittence les parties précédentes de l'historique des discussions.
La connexion à la session expire au bout de 10 minutes : gérez la reprise de la session pour permettre des interactions plus longues. Pour en savoir plus, consultez les bonnes pratiques concernant la reprise de session.
Connexion Internet instable : vérifiez l'état de votre connexion Internet, car les fluctuations de stabilité peuvent entraîner des problèmes de connectivité.
Le modèle n'a pas compris l'utilisateur
Si le modèle ne semble pas comprendre votre saisie, assurez-vous que votre audio est correctement formaté. Tenez également compte de la qualité de votre micro et du bruit de fond.
Comportement
Le modèle répond avec des informations non pertinentes ou incorrectes, ou demande à l'utilisateur de répéter.
Raisons possibles
- Le format audio d'entrée n'est pas correct.
- La qualité du micro n'est pas bonne.
- Le bruit de fond est trop important.
Motifs et solutions
Le format audio d'entrée n'est pas correct : vérifiez que l'audio d'entrée utilise un format PCM 16 bits little-endian avec un taux d'échantillonnage de 16 kHz et un seul canal mono.
La qualité du micro n'est pas bonne : testez la qualité du micro en enregistrant un bref extrait audio et en le lisant. Si la qualité du micro n'est pas bonne, essayez d'en utiliser un de meilleure qualité.
Le bruit de fond est trop élevé : testez le niveau de bruit de fond en enregistrant un court extrait audio et en le lisant. Si le niveau de bruit de fond est trop élevé, essayez de rapprocher le micro de l'utilisateur ou d'utiliser un micro avec une meilleure suppression du bruit.
Le modèle ne répond pas
Si vous ne recevez pas de réponse du modèle, vérifiez vos options de détection de l'activité vocale et la connexion WebSocket.
Comportement
Le modèle n'a pas répondu.
Raisons possibles
- Les paramètres de la VAD ne sont pas correctement définis.
- La connexion WebSocket a été interrompue.
Motifs et solutions
La VAD est mal configurée : La VAD est désactivée par l'utilisateur. Dans ce cas, le modèle continuera d'attendre la parole de l'utilisateur et ne lui répondra pas. Assurez-vous d'envoyer les événements
ActivityStartetActivityEndau modèle si la VAD est désactivée.La connexion WebSocket a été interrompue : si la connexion WebSocket est interrompue, il n'y aura aucune communication entre le client et le serveur. Vérifiez l'état de la connexion WebSocket et assurez-vous qu'elle est correctement établie.
Impossible d'interrompre le modèle
Si vous ne parvenez pas à interrompre le modèle pendant qu'il parle, assurez-vous de gérer correctement le tampon de lecture et le flux audio.
Comportement
Le modèle continue de parler sans interruption de l'utilisateur.
Raisons possibles
- Échec de la vidange du tampon de lecture.
- Échec du streaming audio vers l'API Gemini Live.
- La VAD personnalisée n'est pas correctement implémentée.
Motifs et solutions
Échec de l'effacement du tampon de lecture : le client doit effacer immédiatement le tampon de lecture lorsqu'il reçoit un signal d'interruption du modèle. Sinon, le modèle continuera à parler.
Échec du streaming audio vers l'API Gemini Live : le client doit diffuser l'audio vers l'API Gemini Live par blocs de 20 à 40 ms pour minimiser la latence. Si le client ne parvient pas à diffuser de l'audio vers l'API Gemini Live, le modèle n'envoie pas de signal d'interruption au client.
La VAD personnalisée n'est pas correctement implémentée : si la VAD personnalisée ne parvient pas à reconnaître le début de la parole ou si le client ne parvient pas à envoyer le signal
ActivityStartau modèle, ce dernier n'enverra pas de signal d'interruption au client.