Fehlerbehebung bei der Gemini Live API

In diesem Dokument finden Sie Schritte zur Fehlerbehebung bei Problemen, die bei der Verwendung der Gemini Live API auftreten können.

Die Verbindung wird unerwartet getrennt

Wenn die Verbindung zu Ihrer Sitzung unerwartet unterbrochen wird, kann das an Tokenlimits, Zeitüberschreitungen bei der Sitzungsverbindung oder Netzwerkproblemen liegen.

Verhalten

Die Verbindung zur Sitzung wurde mit dem Fehlercode 1000 oder 1006 getrennt.

Mögliche Gründe

  • Die Kontextfensterkomprimierung ist nicht aktiviert und das Kontext-Token überschreitet das Kontext-Token-Limit der Sitzung (bis zu 128.000).
  • Es wurde keine Logik zum Fortsetzen von Sitzungen implementiert oder die Logik zum Fortsetzen von Sitzungen wurde nicht richtig implementiert.
  • Instabile Internetverbindung.

Gründe und Lösungen

  • Tokens überschreiten das Kontexttokenlimit der Sitzung:Aktivieren Sie die Kontextkomprimierung, um eine Überschreitung des Kontexttokenlimits der Sitzung zu verhindern. Das kann sich auf die Qualität des Gesprächs auswirken, da das Modell frühere Teile des Chatverlaufs zeitweise verwirft.

  • Sitzungsverbindung läuft nach 10 Minuten ab:Verwalten Sie die Wiederaufnahme der Sitzung, um längere Interaktionen zu ermöglichen. Weitere Informationen finden Sie in den Best Practices für die Sitzungswiederaufnahme.

  • Instabile Internetverbindung:Prüfen Sie den Zustand Ihrer Internetverbindung. Schwankungen in der Stabilität können zu Verbindungsproblemen führen.

Das Modell konnte den Nutzer nicht verstehen

Wenn das Modell Ihre Eingabe nicht zu verstehen scheint, prüfen Sie, ob Ihr Audio richtig formatiert ist, und berücksichtigen Sie die Qualität Ihres Mikrofons und Hintergrundgeräusche.

Verhalten

Das Modell antwortet mit irrelevanten oder falschen Informationen oder fordert den Nutzer auf, die Frage zu wiederholen.

Mögliche Gründe

  • Das Audio-Eingabeformat ist nicht korrekt.
  • Die Mikrofonqualität ist nicht gut.
  • Die Hintergrundgeräusche sind zu laut.

Gründe und Lösungen

  • Das Eingabe-Audioformat ist nicht korrekt: Prüfen Sie, ob das Eingabe-Audio ein Little-Endian-PCM-Format mit 16 Bit, einer Abtastrate von 16 kHz und einem einzelnen Monokanal verwendet.

  • Mikrofonqualität ist nicht gut:Testen Sie die Mikrofonqualität, indem Sie eine kurze Audioaufnahme machen und sie wiedergeben. Wenn die Mikrofonqualität nicht gut ist, verwenden Sie ein Mikrofon mit besserer Qualität.

  • Hintergrundgeräusche sind zu laut:Testen Sie den Pegel der Hintergrundgeräusche, indem Sie eine kurze Audioaufnahme machen und sie abspielen. Wenn der Hintergrundgeräuschpegel zu hoch ist, versuchen Sie, das Mikrofon näher an den Nutzer zu bringen oder ein Mikrofon mit besserer Geräuschunterdrückung zu verwenden.

Modell reagiert nicht

Wenn Sie keine Antwort vom Modell erhalten, prüfen Sie die Optionen zur Erkennung von Sprachaktivitäten und die WebSocket-Verbindung.

Verhalten

Keine Antwort vom Modell.

Mögliche Gründe

  • Die VAD-Einstellungen sind nicht richtig festgelegt.
  • Die WebSocket-Verbindung wurde unterbrochen.

Gründe und Lösungen

  • VAD falsch eingestellt:VAD wurde vom Nutzer deaktiviert. In diesem Fall wartet das Modell weiter auf die Spracheingabe des Nutzers und reagiert nicht. Senden Sie die Ereignisse ActivityStart und ActivityEnd an das Modell, wenn die VAD deaktiviert ist.

  • WebSocket-Verbindung wurde unterbrochen:Wenn die WebSocket-Verbindung unterbrochen wird, findet keine Kommunikation zwischen dem Client und dem Server statt. Prüfen Sie den WebSocket-Verbindungsstatus und stellen Sie sicher, dass die Verbindung ordnungsgemäß hergestellt wurde.

Modell kann nicht unterbrochen werden

Wenn Sie das Modell während der Sprachausgabe nicht unterbrechen können, müssen Sie dafür sorgen, dass der Wiedergabepuffer und das Streaming von Audioinhalten korrekt verarbeitet werden.

Verhalten

Das Modell spricht weiter, ohne dass der Nutzer es unterbricht.

Mögliche Gründe

  • Wiedergabepuffer konnte nicht geleert werden.
  • Audio konnte nicht an die Gemini Live API gestreamt werden.
  • Die benutzerdefinierte VAD ist nicht richtig implementiert.

Gründe und Lösungen

  • Wiedergabepuffer konnte nicht geleert werden:Der Client sollte den Wiedergabepuffer sofort leeren, wenn er ein Unterbrechungssignal vom Modell empfängt. Andernfalls spricht das Modell weiter.

  • Audio konnte nicht an die Gemini Live API gestreamt werden:Der Client sollte Audio in Blöcken zwischen 20 ms und 40 ms an die Gemini Live API streamen, um die Latenz zu minimieren. Wenn der Client kein Audio an die Gemini Live API streamt, sendet das Modell kein Unterbrechungssignal an den Client.

  • Benutzerdefinierte VAD ist nicht korrekt implementiert:Wenn die benutzerdefinierte VAD den Beginn der Sprache nicht erkennt oder der Client kein ActivityStart-Signal an das Modell sendet, sendet das Modell kein Unterbrechungssignal an den Client.