Die Live API ermöglicht latenzarme Sprach- und Videointeraktionen mit Gemini in Echtzeit. Es verarbeitet kontinuierliche Audio-, Video- oder Textstreams, um sofortige, menschenähnliche gesprochene Antworten zu liefern. So können Ihre Nutzer auf natürliche Weise mit dem Bot interagieren.
Wichtige Features
Die Live API bietet eine umfassende Reihe von Funktionen zum Erstellen robuster Sprach-Agents:
- Native Audio: Bietet natürlich und realistisch klingende Sprache und eine verbesserte mehrsprachige Leistung.
- Mehrsprachiger Support: Unterhalten Sie sich in 24 unterstützten Sprachen.
- Erkennung von Sprachaktivitäten (Voice Activity Detection, VAD): Unterbrechungen und das Abwechseln beim Sprechen werden automatisch berücksichtigt.
- Affektiver Dialog: Passt den Antwortstil und den Tonfall an die Ausdrucksweise des Nutzers an.
- Proaktive Audioausgabe: Damit können Sie festlegen, wann und in welchem Kontext das Modell antwortet.
- Denken: Bei komplexen Anfragen werden verborgene Reasoning-Tokens verwendet, um vor der Antwort „nachzudenken“.
- Tool-Nutzung: Hier werden Tools wie Funktionsaufrufe und die Google Suche für dynamische Interaktionen integriert.
- Audio-Transkriptionen: Bietet Texttranskriptionen sowohl der Nutzereingabe als auch der Modellausgabe.
- Sprachübersetzung: Optimiert für die Übersetzung zwischen Sprachen mit niedriger Latenz.
Technische Spezifikationen
In der folgenden Tabelle sind die technischen Spezifikationen für die Live API aufgeführt:
| Kategorie | Details |
|---|---|
| Eingabemodalitäten | Audio (PCM 16 kHz), Video (1 FPS), Text |
| Ausgabemodalitäten | Audio (PCM 24 kHz), Text |
| Protokoll | Zustandsbehaftete WebSocket-Verbindung (WSS) |
| Latenz | Streaming in Echtzeit für sofortiges Feedback |
Unterstützte Modelle
Die folgenden Modelle unterstützen die Live API. Wählen Sie das passende Modell für Ihre Interaktionsanforderungen aus.
| Modell-ID | Verfügbarkeit | Anwendungsfall | Wichtige Features |
|---|---|---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Öffentliche Vorschau | Kosteneffizienz bei Echtzeit-Sprachagenten. |
Native Audio Audio-Transkriptionen Erkennung von Sprachaktivitäten Affektiver Dialog Proaktive Audioeingabe Tool-Nutzung |
gemini-2.5-flash-s2st-exp-11-2025 |
Öffentlich verfügbar (Beta) | Übersetzung von Sprache zu Sprache (experimentell) Für Übersetzungsaufgaben optimiert. |
Native Audio Audiotranskriptionen Tool-Nutzung Sprachübersetzung |
Architektur und Integration
Es gibt zwei primäre Möglichkeiten, die Live API in deine Anwendung einzubinden: Server-zu-Server und Client-zu-Server. Wählen Sie die Methode aus, die Ihren Sicherheits- und Plattformanforderungen entspricht.
Server-zu-Server
Die Server-zu-Server-Architektur wird für Produktionsumgebungen wie mobile Apps, sichere Unternehmenstools und Telefonieintegration empfohlen. Ihre Clientanwendung streamt Audio an Ihren sicheren Backend-Server. Ihr Server verwaltet dann die WebSocket-Verbindung zu Google.
Mit dieser Methode bleiben Ihre API-Schlüssel sicher und Sie können Audioinhalte ändern oder Logik hinzufügen, bevor Sie sie an Gemini senden. Dadurch wird jedoch die Netzwerklatenz leicht erhöht.
Client-zu-Server
Die Client-Server-Architektur eignet sich für Web-Apps, schnelle Demos und interne Tools. Der Webbrowser stellt über WebSockets eine direkte Verbindung zur Live API her.
Diese Methode bietet die niedrigstmögliche Latenz und eine einfachere Architektur für Demos. Beachten Sie, dass bei diesem Ansatz API-Schlüssel für den Frontend-Nutzer sichtbar sind, was ein Sicherheitsrisiko darstellt. Für die Produktion müssen Sie sorgfältiges Proxying oder die Verwaltung temporärer Tokens verwenden.
Jetzt starten
Wählen Sie die Anleitung aus, die Ihrer Entwicklungsumgebung entspricht:
Gen AI SDK-Tutorial
Mit dem Gen AI SDK eine Verbindung zur Live API herstellen, eine Audiodatei an Gemini senden und eine Audioantwort erhalten.
WebSocket-Tutorial
Stellen Sie über WebSockets eine Verbindung zur Live API her, senden Sie eine Audiodatei an Gemini und empfangen Sie Audio als Antwort.
ADK-Tutorial
Erstellen Sie einen Agenten und verwenden Sie das ADK-Streaming (Agent Development Kit), um Sprach- und Videokommunikation zu ermöglichen.
Demo-Web-App ausführen
Richten Sie eine Webanwendung ein und führen Sie sie aus, mit der Sie über die Live API per Sprache und Kamera mit Gemini kommunizieren können.
Einbindung in Partnerlösungen
Wenn Sie einen einfacheren Entwicklungsprozess bevorzugen, können Sie Daily, LiveKit oder Voximplant verwenden. Das sind Partnerplattformen von Drittanbietern, die die Gemini Live API bereits über das WebRTC-Protokoll integriert haben, um die Entwicklung von Audio- und Videoanwendungen in Echtzeit zu optimieren.
