Live API – Übersicht

Die Live API ermöglicht latenzarme Sprach- und Videointeraktionen mit Gemini in Echtzeit. Es verarbeitet kontinuierliche Audio-, Video- oder Textstreams, um sofortige, menschenähnliche gesprochene Antworten zu liefern. So können Ihre Nutzer auf natürliche Weise mit dem Bot interagieren.

Wichtige Features

Die Live API bietet eine umfassende Reihe von Funktionen zum Erstellen robuster Sprach-Agents:

Technische Spezifikationen

In der folgenden Tabelle sind die technischen Spezifikationen für die Live API aufgeführt:

Kategorie Details
Eingabemodalitäten Audio (PCM 16 kHz), Video (1 FPS), Text
Ausgabemodalitäten Audio (PCM 24 kHz), Text
Protokoll Zustandsbehaftete WebSocket-Verbindung (WSS)
Latenz Streaming in Echtzeit für sofortiges Feedback

Unterstützte Modelle

Die folgenden Modelle unterstützen die Live API. Wählen Sie das passende Modell für Ihre Interaktionsanforderungen aus.

Modell-ID Verfügbarkeit Anwendungsfall Wichtige Features
gemini-live-2.5-flash-preview-native-audio-09-2025 Öffentliche Vorschau Kosteneffizienz bei Echtzeit-Sprachagenten. Native Audio
Audio-Transkriptionen
Erkennung von Sprachaktivitäten
Affektiver Dialog
Proaktive Audioeingabe
Tool-Nutzung
gemini-2.5-flash-s2st-exp-11-2025 Öffentlich verfügbar (Beta) Übersetzung von Sprache zu Sprache (experimentell) Für Übersetzungsaufgaben optimiert. Native Audio
Audiotranskriptionen
Tool-Nutzung
Sprachübersetzung

Architektur und Integration

Es gibt zwei primäre Möglichkeiten, die Live API in deine Anwendung einzubinden: Server-zu-Server und Client-zu-Server. Wählen Sie die Methode aus, die Ihren Sicherheits- und Plattformanforderungen entspricht.

Server-zu-Server

Die Server-zu-Server-Architektur wird für Produktionsumgebungen wie mobile Apps, sichere Unternehmenstools und Telefonieintegration empfohlen. Ihre Clientanwendung streamt Audio an Ihren sicheren Backend-Server. Ihr Server verwaltet dann die WebSocket-Verbindung zu Google.

Mit dieser Methode bleiben Ihre API-Schlüssel sicher und Sie können Audioinhalte ändern oder Logik hinzufügen, bevor Sie sie an Gemini senden. Dadurch wird jedoch die Netzwerklatenz leicht erhöht.

Client-zu-Server

Die Client-Server-Architektur eignet sich für Web-Apps, schnelle Demos und interne Tools. Der Webbrowser stellt über WebSockets eine direkte Verbindung zur Live API her.

Diese Methode bietet die niedrigstmögliche Latenz und eine einfachere Architektur für Demos. Beachten Sie, dass bei diesem Ansatz API-Schlüssel für den Frontend-Nutzer sichtbar sind, was ein Sicherheitsrisiko darstellt. Für die Produktion müssen Sie sorgfältiges Proxying oder die Verwaltung temporärer Tokens verwenden.

Jetzt starten

Wählen Sie die Anleitung aus, die Ihrer Entwicklungsumgebung entspricht:

Empfohlen für Nutzerfreundlichkeit

Mit dem Gen AI SDK eine Verbindung zur Live API herstellen, eine Audiodatei an Gemini senden und eine Audioantwort erhalten.

Steuerung des Rohprotokolls

Stellen Sie über WebSockets eine Verbindung zur Live API her, senden Sie eine Audiodatei an Gemini und empfangen Sie Audio als Antwort.

Agent Development Kit

Erstellen Sie einen Agenten und verwenden Sie das ADK-Streaming (Agent Development Kit), um Sprach- und Videokommunikation zu ermöglichen.

React/js-Integration

Richten Sie eine Webanwendung ein und führen Sie sie aus, mit der Sie über die Live API per Sprache und Kamera mit Gemini kommunizieren können.

Einbindung in Partnerlösungen

Wenn Sie einen einfacheren Entwicklungsprozess bevorzugen, können Sie Daily, LiveKit oder Voximplant verwenden. Das sind Partnerplattformen von Drittanbietern, die die Gemini Live API bereits über das WebRTC-Protokoll integriert haben, um die Entwicklung von Audio- und Videoanwendungen in Echtzeit zu optimieren.