Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini 2.5 Flash mit der Gemini Live API

Gemini 2.5 Flash mit nativen Audiofunktionen der Gemini Live API bietet unsere innovative native Audiofunktion für die Gemini Live API. Zusätzlich zu den Standardfunktionen der Gemini Live API bietet dieses Modell:

Audio-Optimierung:Erleben Sie eine deutlich verbesserte Audioqualität, die sich anfühlt, als würden Sie mit einer echten Person sprechen.
Verbesserte Sprachqualität und Anpassungsfähigkeit:Die Gemini Live API bietet mit nativem Audio reichhaltigere und natürlichere Sprachinteraktionen mit 30 HD-Stimmen in 24 Sprachen.
Proaktives Audio (Vorabversion) Wenn „Proaktives Audio“ aktiviert ist, reagiert das Modell nur, wenn es relevant ist. Das Modell generiert proaktiv nur für Anfragen, die an das Gerät gerichtet sind, Texttranskripte und Audioantworten und reagiert nicht auf Anfragen, die nicht an das Gerät gerichtet sind.
Affektiver Dialog:Modelle, die die native Audiofunktion der Gemini Live API verwenden, können die emotionalen Äußerungen von Nutzern verstehen und angemessen darauf reagieren, um nuanciertere Unterhaltungen zu ermöglichen.
Verbesserte Unterbrechungsfunktion:Sie können Gemini jetzt natürlicher und zuverlässiger unterbrechen, auch in lauten Umgebungen.
Robuste Funktionsaufrufe:Wir haben die Auslöserate verbessert, sodass Gemini die von Ihnen definierten Funktionen zur Unterstützung Ihrer Anwendungsfälle erfolgreich ausführen kann.
Genaue Transkription:Die Genauigkeit der Audio-zu-Text-Transkription wurde deutlich verbessert. Um noch bessere Ergebnisse zu erzielen, können Sie dem Modell Sprachhinweise geben, damit es die richtige Sprache verwendet. Weitere Informationen finden Sie unter Audio-Transkription für die Sitzung aktivieren.
Nahtlose mehrsprachige Unterstützung:Sie können mit Gemini in mehreren Sprachen sprechen und die KI wechselt mühelos zwischen den Sprachen, ohne dass Sie etwas vorkonfigurieren müssen. Sprache ist kein Hindernis mehr.

Weitere Informationen zur Gemini Live API finden Sie hier:

Live 2.5 Flash Native Audio

In der Agent Platform ausprobieren

Technische Spezifikationen
Modell-ID	`gemini-live-2.5-flash-native-audio`
Unterstützte Ein- und Ausgaben	Eingaben: Text, Bilder, Audio, Video Ausgaben: Text, Audio
Token limits	Maximale Eingabetokens: 128.000 Maximale Ausgabetokens: 64.000
Maximale Anzahl gleichzeitiger Sitzungen	1000
Leistungsspektrum	Unterstützt Fundierung mit der Google Suche Systemanweisungen Funktionsaufrufe Gemini Live API Nicht unterstützt Codeausführung Überwachte Feinabstimmung Kontinuierliche Optimierung Präferenzabstimmung Checkpoints für die Feinabstimmung Strukturierte Ausgabe Denken Implizites Kontext-Caching Explizites Kontext-Caching Chat-Vervollständigungen Content Credentials (C2PA)
Nutzungsoptionen	Unterstützt Bereitgestellter Durchsatz Standard-Pay-as-you-go Nicht unterstützt Flex PayGo Priority PayGo Batch-Inferenz
Nutzungsoptionen	Weitere Informationen finden Sie unter Nutzungsoptionen.
	Google Bilder	Maximale Anzahl von Bildern pro Prompt: 3.000 Maximale Dateigröße pro Datei für Inline-Daten oder direkte Uploads über die Console: 7 MB Maximale Dateigröße pro Datei aus Google Cloud Storage: 30 MB Unterstützte MIME-Typen: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Video	Standardauflösung: 768 × 768 Unterstützte MIME-Typen: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Audio	Maximale Länge des Gesprächs: Standardmäßig 10 Minuten, die verlängert werden können. Erforderliches Audioeingabeformat: Rohes 16-Bit-PCM-Audio mit 16 kHz, Little Endian Erforderliches Audioausgabeformat: Rohes 16‑Bit-PCM-Audio bei 24 kHz, Little Endian Unterstützte MIME-Typen: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Parameterstandardwerte	Empfindlichkeit zum Erkennen des Redebeginns: niedrig Empfindlichkeit zum Erkennen des Redeendes: Hoch Vorangehender Abstand: 0 Maximale Kontextgröße: 128.000
Unterstützte Regionen
	Modellverfügbarkeit	USA us-central1 us-east1 us-east4 us-east5 us-south1 us-west1 us-west4 Europa europe-central2 europe-north1 europe-southwest1 europe-west1 europe-west4 europe-west8
	Weitere Informationen finden Sie unter Bereitstellungen und Endpunkte.
Versionen	`gemini-live-2.5-flash-native-audio` Einführungsphase: GA Veröffentlichungsdatum: 12. Dezember 2025 Datum der Außerbetriebnahme: 13. Dezember 2026
Sicherheitskontrollen
	Onlinevorhersage	Datenstandort CMEK VPC-SC AXT
	Weitere Informationen finden Sie unter Sicherheitskontrollen.
Unterstützte Sprachen	Siehe unterstützte Sprachen
Preise	Weitere Informationen finden Sie unter Preise.

Live-Vorschau von nativen Audioanzeigen mit Gemini 2.5 Flash

Achtung:gemini-live-2.5-flash-preview-native-audio-09-2025 wird am 19. März 2026 eingestellt und entfernt. Migrieren Sie alle Workflows zu gemini-live-2.5-flash-native-audio.

In der Agent Platform ausprobieren

Technische Spezifikationen
Modell-ID	`gemini-live-2.5-flash-preview-native-audio-09-2025`
Unterstützte Ein- und Ausgaben	Eingaben: Text, Bilder, Audio, Video Ausgaben: Text, Audio
Token limits	Maximale Eingabetokens: 128.000 Maximale Ausgabetokens: 64.000 Kontextfenster: 32.000 Tokens (Standard), kann auf 128.000 Tokens erweitert werden
Maximale Anzahl gleichzeitiger Sitzungen	1000
Leistungsspektrum	Unterstützt Fundierung mit der Google Suche Systemanweisungen Funktionsaufrufe Gemini Live API Nicht unterstützt Codeausführung Überwachte Feinabstimmung Kontinuierliche Optimierung Präferenzabstimmung Checkpoints für die Feinabstimmung Strukturierte Ausgabe Denken Implizites Kontext-Caching Explizites Kontext-Caching Chat-Vervollständigungen Content Credentials (C2PA)
Nutzungsoptionen	Unterstützt Bereitgestellter Durchsatz Standard-Pay-as-you-go Nicht unterstützt Flex PayGo Priority PayGo Batch-Inferenz
Nutzungsoptionen	Weitere Informationen finden Sie unter Nutzungsoptionen.
	Google Bilder	Maximale Anzahl von Bildern pro Prompt: 3.000 Maximale Dateigröße pro Datei für Inline-Daten oder direkte Uploads über die Console: 7 MB Maximale Dateigröße pro Datei aus Google Cloud Storage: 30 MB Unterstützte MIME-Typen: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Video	Standardauflösung: 768 × 768 Unterstützte MIME-Typen: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Audio	Maximale Länge des Gesprächs: Standardmäßig 10 Minuten, die verlängert werden können. Erforderliches Audioeingabeformat: Rohes 16-Bit-PCM-Audio mit 16 kHz, Little Endian Erforderliches Audioausgabeformat: Rohes 16‑Bit-PCM-Audio bei 24 kHz, Little Endian Unterstützte MIME-Typen: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Parameterstandardwerte	Empfindlichkeit zum Erkennen des Redebeginns: niedrig Empfindlichkeit zum Erkennen des Redeendes: Hoch Vorangehender Abstand: 0 Maximale Kontextgröße: 128.000
Unterstützte Regionen
	Modellverfügbarkeit	USA us-central1
	Weitere Informationen finden Sie unter Bereitstellungen und Endpunkte.
Wissensstichtag	August 2025
Versionen	`gemini-live-2.5-flash-preview-native-audio-09-2025` Startphase: Öffentliche Vorschau Veröffentlichungsdatum: 25. September 2025 Datum der Außerbetriebnahme: 19. März 2026
Unterstützte Sprachen	Siehe unterstützte Sprachen
Preise	Weitere Informationen finden Sie unter Preise.

Gemini 2.5 Flash mit der Gemini Live API Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Live 2.5 Flash Native Audio

Live-Vorschau von nativen Audioanzeigen mit Gemini 2.5 Flash

Gemini 2.5 Flash mit der Gemini Live API