Demo-Apps und Ressourcen für die Verwendung der Gemini Live API

Auf dieser Seite finden Sie eine Sammlung von Referenzimplementierungen für die Gemini Live API auf der Gemini Enterprise Agent Platform. Von JavaScript-Startern ohne Abhängigkeiten bis hin zu umfassenden React-basierten Architekturen zeigen diese Demos, wie Sie mit der Gemini Live API und dem ADK robuste Sprachagenten in Echtzeit erstellen.

Demo-Apps

  • React-Demo App: Ein umfassender React-Client mit Echtzeit-Streaming, Toolnutzung und Medienverwaltung.
  • Plain JS-Demo App: Eine JavaScript-Implementierung ohne Abhängigkeiten, um die grundlegenden API Mechanismen zu verstehen.
  • Echtzeit Berater: Eine spezielle Berater-Persona, die zwischen stummen und offenen Modi wechseln kann.
  • Kundensupport Agent: Ein fortschrittlicher Agent mit Emotionserkennung, multimodaler Eingabe und Tool Ausführung.
  • Gaming Assistent: Ein Gaming-Begleiter mit Persona-Switching und Bildschirmfreigabe.
  • Gemini Live Telephony App: Eine Echtzeit-Anwendung für die Sprach-zu-KI-Kommunikation, die Twilio für die Telefonie, ein FastAPI-Backend und die Gemini Live API für konversationelle KI verwendet.

ADK-Entwicklerleitfaden für bidirektionales Streaming

Das Agent Development Kit (ADK) bietet ein produktionsfertiges Framework zum Erstellen von Anwendungen für bidirektionales Streaming mit der Live API. Im folgenden Leitfaden und in den Demos wird die Streamingarchitektur des ADK vorgestellt, die die bidirektionale Echtzeitkommunikation zwischen Nutzern und KI-Agenten über multimodale Kanäle (Text, Audio, Video) ermöglicht.

Sonstige Tools

  • PCM-Audio Debugger: Ein eigenständiges Tool zum Testen und Debuggen von rohen PCM-Audiostreams und WebSocket-Verbindungen.