Die Gemini Live API ermöglicht latenzarme Sprach- und Videointeraktionen mit Gemini in Echtzeit. Es verarbeitet kontinuierliche Audio-, Video- oder Textstreams, um sofortige, menschenähnliche gesprochene Antworten zu liefern. So können Ihre Nutzer auf natürliche Weise mit dem Bot interagieren.
Gemini Live API in der Google Cloud Konsole testen
Wichtige Features
Die Gemini Live API bietet eine umfassende Reihe von Funktionen zum Erstellen leistungsstarker Sprach- und Video-Agents:
- Hohe Audioqualität: Die Gemini Live API bietet natürlich und realistisch klingende Sprache in mehreren Sprachen.
- Mehrsprachiger Support: Unterhalten Sie sich in 24 unterstützten Sprachen.
- Barge-in: Nutzer können das Modell jederzeit unterbrechen, um responsive Interaktionen zu starten.
- Affektiver Dialog: Passt den Antwortstil und den Tonfall an die Ausdrucksweise des Nutzers an.
- Proaktive Audioausgabe: Damit können Sie festlegen, wann und in welchem Kontext das Modell antwortet.
- Tool-Nutzung: Hier werden Tools wie Funktionsaufrufe und die Google Suche für dynamische Interaktionen integriert.
- Audio-Transkriptionen: Bietet Texttranskriptionen sowohl der Nutzereingabe als auch der Modellausgabe.
- Sprachübersetzung: (Experimentell) Optimiert für Übersetzungen zwischen Sprachen mit geringer Latenz.
Technische Spezifikationen
In der folgenden Tabelle sind die technischen Spezifikationen für die Gemini Live API aufgeführt:
| Kategorie | Details |
|---|---|
| Eingabemodalitäten | Audio (rohes 16-Bit-PCM-Audio, 16 kHz, Little Endian), Bilder/Video (JPEG, 1 FPS), Text |
| Ausgabemodalitäten | Audio (rohes 16‑Bit-PCM-Audio, 24 kHz, Little Endian), Text |
| Protokoll | Zustandsbehaftete WebSocket-Verbindung (WSS) |
Unterstützte Modelle
Die folgenden Modelle unterstützen die Gemini Live API. Wählen Sie das passende Modell für Ihre Interaktionsanforderungen aus.
| Modell-ID | Verfügbarkeit | Anwendungsfall | Wichtige Features |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Öffentliche Vorschau | Kosteneffizienz bei Echtzeit-Sprachagenten. |
Native Audio Audio-Transkriptionen Erkennung von Sprachaktivitäten Affektiver Dialog Proaktive Audioeingabe Tool-Nutzung |
gemini-2.5-flash-s2st-exp-11-2025 |
Privat (Test) | Übersetzung von Sprache zu Sprache (experimentell) Für Übersetzungsaufgaben optimiert. |
Native Audio Audiotranskriptionen Tool-Nutzung Sprachübersetzung |
Architektur und Integration
Es gibt zwei primäre Möglichkeiten, die Gemini Live API in Ihre Anwendung einzubinden: Server-zu-Server und Client-zu-Server. Wählen Sie die Methode aus, die Ihren Sicherheits- und Plattformanforderungen entspricht.
Server-zu-Server
Die Server-zu-Server-Architektur wird für Produktionsumgebungen wie mobile Apps, sichere Unternehmenstools und Telefonieintegration empfohlen. Ihre Clientanwendung streamt Audio an Ihren sicheren Backend-Server. Ihr Server verwaltet dann die WebSocket-Verbindung zu Google.
Mit dieser Methode bleiben Ihre API-Schlüssel sicher und Sie können Audioinhalte ändern oder Logik hinzufügen, bevor Sie sie an Gemini senden. Dadurch wird jedoch die Netzwerklatenz leicht erhöht.
Client-zu-Server
Die Client-Server-Architektur eignet sich für Web-Apps, schnelle Demos und interne Tools. Der Webbrowser stellt über WebSockets eine direkte Verbindung zur Gemini Live API her.
Diese Methode bietet die niedrigstmögliche Latenz und eine einfachere Architektur für Demos. Beachten Sie, dass bei diesem Ansatz API-Schlüssel für den Frontend-Nutzer sichtbar sind, was ein Sicherheitsrisiko darstellt. Für die Produktion müssen Sie sorgfältiges Proxying oder die Verwaltung temporärer Tokens verwenden.
Jetzt starten
Wählen Sie die Anleitung aus, die Ihrer Entwicklungsumgebung entspricht:
Gen AI SDK-Tutorial
Mit dem Gen AI SDK eine Verbindung zur Gemini Live API herstellen, eine Audiodatei an Gemini senden und Audio als Antwort erhalten.
WebSocket-Tutorial
Über WebSockets eine Verbindung zur Gemini Live API herstellen, eine Audiodatei an Gemini senden und Audio als Antwort erhalten.
ADK-Tutorial
Erstellen Sie einen Agenten und verwenden Sie das ADK-Streaming (Agent Development Kit), um Sprach- und Videokommunikation zu ermöglichen.
Einbindung in Partnerlösungen
Wenn Sie einen einfacheren Entwicklungsprozess bevorzugen, können Sie eine unserer Partnerplattformen verwenden. Diese Plattformen haben die Gemini Live API bereits über das WebRTC-Protokoll integriert, um die Entwicklung von Audio- und Videoanwendungen in Echtzeit zu optimieren.
