Auf dieser Seite finden Sie eine Sammlung von Referenzimplementierungen für die Gemini Live API auf der Gemini Enterprise Agent Platform. Diese Demos reichen von JavaScript-Startern ohne Abhängigkeiten bis hin zu umfassenden React-basierten Architekturen und zeigen, wie robuste Echtzeit-Sprach-Agents mit der Gemini Live API und dem ADK erstellt werden.
Demo-Apps
- React-Demo-App: Ein umfassender React-Client mit Echtzeit-Streaming, Tool-Nutzung und Medienbearbeitung.
- Demo-App mit einfachem JS: Eine JavaScript-Implementierung ohne Abhängigkeiten, um die grundlegenden API-Mechanismen zu verstehen.
- Echtzeit-Berater: Eine spezielle Berater-Persona, die zwischen dem stummen und dem aktiven Modus wechseln kann.
- Kundensupport-Agent: Ein fortschrittlicher Agent mit Emotionserkennung, multimodaler Eingabe und Tool-Ausführung.
- Gaming-Assistent: Ein Gaming-Begleiter mit der Möglichkeit, die Persona zu wechseln und den Bildschirm zu teilen.
- Gemini Live Telephony App: Eine Echtzeit-Sprach-zu-KI-Anwendung, die Twilio für die Telefonie, ein FastAPI-Backend und die Gemini Live API für konversationelle KI verwendet.
ADK-Entwicklungsleitfaden für bidirektionales Streaming
Das Agent Development Kit (ADK) bietet ein produktionsreifes Framework zum Erstellen von Bidi-Streaming-Anwendungen mit der Live API. In der folgenden Anleitung und den Demos wird die Streamingarchitektur des ADK vorgestellt, die eine bidirektionale Echtzeitkommunikation zwischen Nutzern und KI-Assistenten über multimodale Kanäle (Text, Audio, Video) ermöglicht.
Sonstige Tools
- PCM-Audio-Debugger: Ein eigenständiges Tool zum Testen und Debuggen von rohen PCM-Audio-Streams und WebSocket-Verbindungen.