Demo-Apps und Ressourcen für die Verwendung der Gemini Live API

Auf dieser Seite finden Sie eine Sammlung von Referenzimplementierungen für die Gemini Live API auf der Gemini Enterprise Agent Platform. Diese Demos reichen von JavaScript-Startern ohne Abhängigkeiten bis hin zu umfassenden React-basierten Architekturen und zeigen, wie robuste Echtzeit-Sprach-Agents mit der Gemini Live API und dem ADK erstellt werden.

Demo-Apps

  • React-Demo-App: Ein umfassender React-Client mit Echtzeit-Streaming, Tool-Nutzung und Medienbearbeitung.
  • Demo-App mit einfachem JS: Eine JavaScript-Implementierung ohne Abhängigkeiten, um die grundlegenden API-Mechanismen zu verstehen.
  • Echtzeit-Berater: Eine spezielle Berater-Persona, die zwischen dem stummen und dem aktiven Modus wechseln kann.
  • Kundensupport-Agent: Ein fortschrittlicher Agent mit Emotionserkennung, multimodaler Eingabe und Tool-Ausführung.
  • Gaming-Assistent: Ein Gaming-Begleiter mit der Möglichkeit, die Persona zu wechseln und den Bildschirm zu teilen.
  • Gemini Live Telephony App: Eine Echtzeit-Sprach-zu-KI-Anwendung, die Twilio für die Telefonie, ein FastAPI-Backend und die Gemini Live API für konversationelle KI verwendet.

ADK-Entwicklungsleitfaden für bidirektionales Streaming

Das Agent Development Kit (ADK) bietet ein produktionsreifes Framework zum Erstellen von Bidi-Streaming-Anwendungen mit der Live API. In der folgenden Anleitung und den Demos wird die Streamingarchitektur des ADK vorgestellt, die eine bidirektionale Echtzeitkommunikation zwischen Nutzern und KI-Assistenten über multimodale Kanäle (Text, Audio, Video) ermöglicht.

Sonstige Tools

  • PCM-Audio-Debugger: Ein eigenständiges Tool zum Testen und Debuggen von rohen PCM-Audio-Streams und WebSocket-Verbindungen.