Fehlerbehebung bei der Gemini Live API

In diesem Dokument finden Sie Schritte zur Fehlerbehebung bei Problemen, die bei der Verwendung der Gemini Live API auftreten können.

Verbindung wird unerwartet unterbrochen

Wenn die Verbindung zu Ihrer Sitzung unerwartet unterbrochen wird, kann das an Tokenlimits, Zeitüberschreitungen bei der Sitzungsverbindung oder Netzwerkproblemen liegen.

Verhalten

Die Sitzung wurde mit dem Fehlercode 1000 oder 1006 getrennt.

Mögliche Gründe

  • Die Kontextfensterkomprimierung ist nicht aktiviert und das Kontexttoken überschreitet das Kontexttokenlimit der Sitzung (bis zu 128.000).
  • Es ist keine Logik zur Wiederaufnahme der Sitzung implementiert oder die Logik zur Wiederaufnahme ist nicht korrekt implementiert.
  • Instabile Internetverbindung.

Gründe und Lösungen

  • Tokens überschreiten das Kontexttokenlimit der Sitzung Aktivieren Sie die Kontextkomprimierung, um zu verhindern, dass das Kontexttokenlimit der Sitzung überschritten wird. Dies kann die Qualität der Unterhaltung beeinträchtigen, da das Modell frühere Teile des Chatverlaufs zeitweise verwirft.

  • Die Sitzungsverbindung läuft nach 10 Minuten ab:Verwalten Sie die Wiederaufnahme der Sitzung, um längere Interaktionen zu ermöglichen. Weitere Informationen finden Sie unter Best Practices für die Wiederaufnahme von Sitzungen.

  • Instabile Internetverbindung:Prüfen Sie den Zustand Ihrer Internetverbindung, da Schwankungen der Stabilität zu Verbindungsproblemen führen können.

Modell konnte den Nutzer nicht verstehen

Wenn das Modell Ihre Eingabe nicht zu verstehen scheint, prüfen Sie, ob Ihr Audio korrekt formatiert ist, und berücksichtigen Sie die Qualität Ihres Mikrofons und die Hintergrundgeräusche.

Verhalten

Das Modell antwortet mit irrelevanten oder falschen Informationen oder fordert den Nutzer auf, die Eingabe zu wiederholen.

Mögliche Gründe

  • Das Audioformat der Eingabe ist nicht korrekt.
  • Die Mikrofonqualität ist nicht gut.
  • Die Hintergrundgeräusche sind zu laut.

Gründe und Lösungen

  • Das Audioformat der Eingabe ist nicht korrekt Prüfen Sie, ob das Audio der Eingabe ein 16-Bit-PCM-Format mit Little-Endian-Byte-Reihenfolge, einer Abtastrate von 16 kHz und einem einzelnen Monokanal verwendet.

  • Die Mikrofonqualität ist nicht gut: Testen Sie die Mikrofonqualität, indem Sie eine kurze Audioaufnahme machen und sie wiedergeben. Wenn die Mikrofonqualität nicht gut ist, verwenden Sie ein Mikrofon mit besserer Qualität.

  • Die Hintergrundgeräusche sind zu laut:Testen Sie den Pegel der Hintergrundgeräusche, indem Sie eine kurze Audioaufnahme machen und sie wiedergeben. Wenn der Pegel der Hintergrundgeräusche zu hoch ist, versuchen Sie, das Mikrofon näher an den Nutzer zu bewegen oder ein Mikrofon mit besserer Rauschunterdrückung zu verwenden.

Modell reagiert nicht

Wenn Sie keine Antwort vom Modell erhalten, prüfen Sie die Optionen zur Erkennung von Sprachaktivitäten und die WebSocket-Verbindung.

Verhalten

Keine Antwort vom Modell.

Mögliche Gründe

  • Die VAD-Einstellungen sind nicht korrekt festgelegt.
  • Die WebSocket-Verbindung wurde unterbrochen.

Gründe und Lösungen

  • VAD ist falsch festgelegt:VAD wurde vom Nutzer deaktiviert. In diesem Fall wartet das Modell weiter auf die Spracheingabe des Nutzers und antwortet ihm nicht. Senden Sie die Ereignisse ActivityStart und ActivityEnd an das Modell, wenn VAD deaktiviert ist.

  • Die WebSocket-Verbindung wurde unterbrochen:Wenn die WebSocket-Verbindung unterbrochen wird, findet keine Kommunikation zwischen dem Client und dem Server statt. Prüfen Sie den Status der WebSocket-Verbindung und stellen Sie sicher, dass sie ordnungsgemäß hergestellt wurde.

Modell kann nicht unterbrochen werden

Wenn Sie das Modell nicht unterbrechen können, während es spricht, prüfen Sie, ob Sie den Wiedergabepuffer und das Streaming von Audio korrekt verarbeiten.

Verhalten

Das Modell spricht weiter, ohne vom Nutzer unterbrochen zu werden.

Mögliche Gründe

  • Der Wiedergabepuffer konnte nicht geleert werden.
  • Audio konnte nicht an die Gemini Live API gestreamt werden.
  • Die benutzerdefinierte VAD ist nicht korrekt implementiert.

Gründe und Lösungen

  • Wiedergabezwischenspeicher konnte nicht geleert werden:Der Client sollte den Wiedergabezwischenspeicher sofort leeren, wenn er ein Unterbrechungssignal vom Modell erhält. Andernfalls spricht das Modell weiter.

  • Audio konnte nicht an die Gemini Live API gestreamt werden:Der Client sollte Audio in Blöcken zwischen 20 und 40 ms an die Gemini Live API streamen, um die Latenz zu minimieren. Wenn der Client Audio nicht an die Gemini Live API streamen kann, sendet das Modell kein Unterbrechungssignal an den Client.

  • Die benutzerdefinierte VAD ist nicht korrekt implementiert: Wenn die benutzerdefinierte VAD den Beginn der Spracheingabe nicht erkennt oder der Client das Signal ActivityStart nicht an das Modell sendet, sendet das Modell kein Unterbrechungssignal an den Client.