Gemini Live API – Übersicht

Die Gemini Live API ermöglicht latenzarme Sprach- und Videointeraktionen mit Gemini in Echtzeit. Es verarbeitet kontinuierliche Audio-, Video- oder Textstreams, um sofortige, menschenähnliche gesprochene Antworten zu liefern. So können Ihre Nutzer auf natürliche Weise mit dem Bot interagieren.

Gemini Live API in der Google Cloud Konsole testen

Wichtige Features

Die Gemini Live API bietet eine umfassende Reihe von Funktionen zum Erstellen leistungsstarker Sprach- und Video-Agents:

  • Hohe Audioqualität: Die Gemini Live API bietet natürlich und realistisch klingende Sprache in mehreren Sprachen.
  • Mehrsprachiger Support: Unterhalten Sie sich in 24 unterstützten Sprachen.
  • Barge-in: Nutzer können das Modell jederzeit unterbrechen, um responsive Interaktionen zu starten.
  • Affektiver Dialog: Passt den Antwortstil und den Tonfall an die Ausdrucksweise des Nutzers an.
  • Proaktive Audioausgabe: Damit können Sie festlegen, wann und in welchem Kontext das Modell antwortet.
  • Tool-Nutzung: Hier werden Tools wie Funktionsaufrufe und die Google Suche für dynamische Interaktionen integriert.
  • Audio-Transkriptionen: Bietet Texttranskriptionen sowohl der Nutzereingabe als auch der Modellausgabe.
  • Sprachübersetzung: (Experimentell) Optimiert für Übersetzungen zwischen Sprachen mit geringer Latenz.

Technische Spezifikationen

In der folgenden Tabelle sind die technischen Spezifikationen für die Gemini Live API aufgeführt:

Kategorie Details
Eingabemodalitäten Audio (rohes 16-Bit-PCM-Audio, 16 kHz, Little Endian), Bilder/Video (JPEG, 1 FPS), Text
Ausgabemodalitäten Audio (rohes 16‑Bit-PCM-Audio, 24 kHz, Little Endian), Text
Protokoll Zustandsbehaftete WebSocket-Verbindung (WSS)

Unterstützte Modelle

Die folgenden Modelle unterstützen die Gemini Live API. Wählen Sie das passende Modell für Ihre Interaktionsanforderungen aus.

Modell-ID Verfügbarkeit Anwendungsfall Wichtige Features
gemini-live-2.5-flash-preview-native-audio-09-2025 Öffentliche Vorschau Kosteneffizienz bei Echtzeit-Sprachagenten. Native Audio
Audio-Transkriptionen
Erkennung von Sprachaktivitäten
Affektiver Dialog
Proaktive Audioeingabe
Tool-Nutzung
gemini-2.5-flash-s2st-exp-11-2025 Privat (Test) Übersetzung von Sprache zu Sprache (experimentell) Für Übersetzungsaufgaben optimiert. Native Audio
Audiotranskriptionen
Tool-Nutzung
Sprachübersetzung

Architektur und Integration

Es gibt zwei primäre Möglichkeiten, die Gemini Live API in Ihre Anwendung einzubinden: Server-zu-Server und Client-zu-Server. Wählen Sie die Methode aus, die Ihren Sicherheits- und Plattformanforderungen entspricht.

Server-zu-Server

Die Server-zu-Server-Architektur wird für Produktionsumgebungen wie mobile Apps, sichere Unternehmenstools und Telefonieintegration empfohlen. Ihre Clientanwendung streamt Audio an Ihren sicheren Backend-Server. Ihr Server verwaltet dann die WebSocket-Verbindung zu Google.

Mit dieser Methode bleiben Ihre API-Schlüssel sicher und Sie können Audioinhalte ändern oder Logik hinzufügen, bevor Sie sie an Gemini senden. Dadurch wird jedoch die Netzwerklatenz leicht erhöht.

Client-zu-Server

Die Client-Server-Architektur eignet sich für Web-Apps, schnelle Demos und interne Tools. Der Webbrowser stellt über WebSockets eine direkte Verbindung zur Gemini Live API her.

Diese Methode bietet die niedrigstmögliche Latenz und eine einfachere Architektur für Demos. Beachten Sie, dass bei diesem Ansatz API-Schlüssel für den Frontend-Nutzer sichtbar sind, was ein Sicherheitsrisiko darstellt. Für die Produktion müssen Sie sorgfältiges Proxying oder die Verwaltung temporärer Tokens verwenden.

Jetzt starten

Wählen Sie die Anleitung aus, die Ihrer Entwicklungsumgebung entspricht:

Empfohlen für Nutzerfreundlichkeit

Mit dem Gen AI SDK eine Verbindung zur Gemini Live API herstellen, eine Audiodatei an Gemini senden und Audio als Antwort erhalten.

Steuerung des Rohprotokolls

Über WebSockets eine Verbindung zur Gemini Live API herstellen, eine Audiodatei an Gemini senden und Audio als Antwort erhalten.

Agent Development Kit

Erstellen Sie einen Agenten und verwenden Sie das ADK-Streaming (Agent Development Kit), um Sprach- und Videokommunikation zu ermöglichen.

Einbindung in Partnerlösungen

Wenn Sie einen einfacheren Entwicklungsprozess bevorzugen, können Sie eine unserer Partnerplattformen verwenden. Diese Plattformen haben die Gemini Live API bereits über das WebRTC-Protokoll integriert, um die Entwicklung von Audio- und Videoanwendungen in Echtzeit zu optimieren.