Auf dieser Seite finden Sie eine Sammlung von Referenzimplementierungen für die Gemini Live API in Vertex AI. Diese Demos reichen von JavaScript-Startern ohne Abhängigkeiten bis hin zu umfassenden React-basierten Architekturen und zeigen, wie Sie mit der Gemini Live API und dem ADK robuste Sprach-Agents in Echtzeit erstellen.
Demo-Apps
- React-Demo-App: Ein umfassender React-Client mit Echtzeit-Streaming, Tool-Nutzung und Medienbearbeitung.
- Demo-App in einfachem JS: Eine JavaScript-Implementierung ohne Abhängigkeiten, um die grundlegenden API-Mechanismen zu verstehen.
- Echtzeit-Berater: Eine spezielle Berater-Persona, die zwischen dem stummen und dem offenen Modus wechseln kann.
- Kundensupport-Agent: Ein fortschrittlicher Agent mit Emotionserkennung, multimodaler Eingabe und Tool-Ausführung.
- Gaming-Assistent: Ein Gaming-Begleiter mit der Möglichkeit, die Persona zu wechseln und den Bildschirm zu teilen.
- Gemini Live Telephony App: Eine Echtzeit-Anwendung, die Sprache in KI umwandelt und Twilio für die Telefonie, ein FastAPI-Backend und die Gemini Live API für konversationelle KI verwendet.
ADK-Entwicklungsleitfaden für bidirektionales Streaming
Das Agent Development Kit (ADK) bietet ein produktionsbereites Framework zum Erstellen von Bidi-Streaming-Anwendungen mit der Live API. Im folgenden Leitfaden und in den Demos wird die Streamingarchitektur des ADK vorgestellt, die eine bidirektionale Echtzeitkommunikation zwischen Nutzern und KI-Agents über multimodale Kanäle (Text, Audio, Video) ermöglicht.
Sonstige Tools
- PCM-Audio-Debugger: Ein eigenständiges Tool zum Testen und Debuggen von rohen PCM-Audiostreams und WebSocket-Verbindungen.