Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Übersicht über die Gemini Live API

Achtung: gemini-live-2.5-flash-preview-native-audio-09-2025 wird am 19. März 2026 eingestellt und entfernt. Migrieren Sie alle Workflows zu gemini-live-2.5-flash-native-audio.

Die Gemini Live API ermöglicht Sprach- und Videointeraktionen mit Gemini in Echtzeit und mit geringer Latenz. Sie verarbeitet kontinuierliche Audio-, Video- oder Textstreams, um sofortige, menschenähnliche gesprochene Antworten zu liefern. So entsteht für Ihre Nutzer eine natürliche Unterhaltung.

Gemini Live API in Agent Platform Studio testen

Beispielanwendungsfälle

Mit der Gemini Live API können Sie Echtzeit-Sprach- und Videoagenten für eine Vielzahl von Branchen erstellen, darunter:

E‑Commerce und Einzelhandel:Einkaufsassistenten, die personalisierte Empfehlungen geben, und Supportagenten, die Kundenprobleme lösen.
Gaming:Interaktive Non-Player Characters (NPCs), In-Game-Hilfeassistenten und Echtzeitübersetzung von In-Game-Inhalten.
Schnittstellen der nächsten Generation:Sprach- und videofähige Erlebnisse in Robotik, Smart Glasses und Fahrzeugen.
Gesundheitswesen:Gesundheitsbegleiter für die Unterstützung und Aufklärung von Patienten.
Finanzdienstleistungen:KI-Berater für die Vermögensverwaltung und Anlageberatung.
Bildung:KI-Mentoren und Lernbegleiter, die personalisierte Anleitungen und Feedback geben.

Wichtige Features

Die Gemini Live API bietet eine umfassende Reihe von Funktionen zum Erstellen robuster Sprach- und Videoagenten:

Hohe Audioqualität: Die Gemini Live API bietet natürliche, realistisch klingende Sprache in mehreren Sprachen.
Mehrsprachiger Support: Unterhaltungen in 24 unterstützten Sprachen.
Barge-in: Nutzer können das Modell jederzeit unterbrechen, um interaktive Unterhaltungen zu führen.
Empathischer Dialog: Passt den Antwortstil und den Tonfall an die Ausdrucksweise des Nutzers an.
Tool-Nutzung: Integriert Tools wie Funktionsaufrufe und die Google Suche für dynamische Interaktionen.
Audiotranskripte: Bietet Texttranskripte sowohl der Nutzereingabe als auch der Modellausgabe.
Proaktive Audioeingabe: (Vorabversion) Ermöglicht es Ihnen, zu steuern, wann und in welchen Kontexten das Modell antwortet.

Technische Spezifikationen

In der folgenden Tabelle sind die technischen Spezifikationen für die Gemini Live API aufgeführt:

Kategorie	Details
Eingabemodalitäten	Audio (rohes 16‑Bit-PCM-Audio, 16 kHz, Little Endian), Bilder/Video (JPEG, 1 FPS), Text
Ausgabemodalitäten	Audio (rohes 16‑Bit-PCM-Audio, 24 kHz, Little Endian), Text
Protokoll	Zustandsbehaftete WebSocket-Verbindung (WSS)

Unterstützte Modelle

Die folgenden Modelle unterstützen die Gemini Live API. Wählen Sie das passende Modell basierend auf Ihren Interaktionsanforderungen aus.

Modell-ID	Verfügbarkeit	Anwendungsfall	Wichtige Features
`gemini-live-2.5-flash-native-audio`	Allgemein verfügbar	Empfohlen. Sprachagenten mit niedriger Latenz. Unterstützt nahtloses mehrsprachiges Umschalten und emotionale Töne.	Native Audioeingabe Audiotranskripte Erkennung der Sprachaktivitäten Empathischer Dialog Proaktive Audioeingabe Tool-Nutzung
`gemini-live-2.5-flash-preview-native-audio-09-2025`	Öffentliche Vorschau	Kosteneffizienz bei Echtzeit-Sprachagenten.	Native Audioeingabe Audiotranskripte Erkennung der Sprachaktivitäten Empathischer Dialog Proaktive Audioeingabe Tool-Nutzung

Jetzt starten

Wählen Sie die Anleitung aus, die zu Ihrer Entwicklungsumgebung passt:

Gen AI SDK-Tutorial

Verbinden Sie sich über das Gen AI SDK mit der Gemini Live API, um eine multimodale Echtzeitanwendung mit einem Python-Backend zu erstellen.

Rohe Protokollsteuerung

WebSocket-Tutorial

Verbinden Sie sich über WebSockets mit der Gemini Live API, um eine multimodale Echtzeitanwendung mit einem JavaScript-Frontend und einem Python-Backend zu erstellen.

Agent Development Kit

ADK-Tutorial

Erstellen Sie einen Agenten und verwenden Sie das Agent Development Kit (ADK) Streaming, um Sprach- und Videokommunikation zu ermöglichen.

Einbindung in Partnerlösungen

Wenn Sie eine Einbindung in einige unserer Partnerlösungen vornehmen möchten, haben diese Plattformen die Gemini Live API bereits über das WebRTC-Protokoll eingebunden, um die Entwicklung von Audio- und Videoanwendungen in Echtzeit zu optimieren.

Übersicht über die Gemini Live API Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Beispielanwendungsfälle

Wichtige Features

Technische Spezifikationen

Unterstützte Modelle

Jetzt starten

Gen AI SDK-Tutorial

WebSocket-Tutorial

ADK-Tutorial

Einbindung in Partnerlösungen

Übersicht über die Gemini Live API