Demo-Apps und Ressourcen für die Verwendung der Gemini Live API

Auf dieser Seite finden Sie eine Sammlung von Referenzimplementierungen für die Gemini Live API in Vertex AI. Diese Demos reichen von JavaScript-Startern ohne Abhängigkeiten bis hin zu umfassenden React-basierten Architekturen und zeigen, wie Sie mit der Gemini Live API und dem ADK robuste Sprach-Agents in Echtzeit erstellen.

Demo-Apps

  • React-Demo-App: Ein umfassender React-Client mit Echtzeit-Streaming, Tool-Nutzung und Medienbearbeitung.
  • Demo-App in einfachem JS: Eine JavaScript-Implementierung ohne Abhängigkeiten, um die grundlegenden API-Mechanismen zu verstehen.
  • Echtzeit-Berater: Eine spezielle Berater-Persona, die zwischen dem stummen und dem offenen Modus wechseln kann.
  • Kundensupport-Agent: Ein fortschrittlicher Agent mit Emotionserkennung, multimodaler Eingabe und Tool-Ausführung.
  • Gaming-Assistent: Ein Gaming-Begleiter mit der Möglichkeit, die Persona zu wechseln und den Bildschirm zu teilen.
  • Gemini Live Telephony App: Eine Echtzeit-Anwendung, die Sprache in KI umwandelt und Twilio für die Telefonie, ein FastAPI-Backend und die Gemini Live API für konversationelle KI verwendet.

ADK-Entwicklungsleitfaden für bidirektionales Streaming

Das Agent Development Kit (ADK) bietet ein produktionsbereites Framework zum Erstellen von Bidi-Streaming-Anwendungen mit der Live API. Im folgenden Leitfaden und in den Demos wird die Streamingarchitektur des ADK vorgestellt, die eine bidirektionale Echtzeitkommunikation zwischen Nutzern und KI-Agents über multimodale Kanäle (Text, Audio, Video) ermöglicht.

Sonstige Tools

  • PCM-Audio-Debugger: Ein eigenständiges Tool zum Testen und Debuggen von rohen PCM-Audiostreams und WebSocket-Verbindungen.