Gemini 2.5 Flash mit Gemini Live API

Gemini 2.5 Flash mit nativen Audiofunktionen der Gemini Live API bietet unsere innovative native Audiofunktion für die Gemini Live API. Zusätzlich zu den Standardfunktionen der Gemini Live API bietet dieses Modell:

  • Bessere Audioqualität:Die Audioqualität wurde deutlich verbessert und klingt jetzt so, als würden Sie mit einer echten Person sprechen.
  • Verbesserte Sprachqualität und Anpassungsfähigkeit:Die Gemini Live API bietet mit 30 HD-Stimmen in 24 Sprachen natürlichere Sprachinteraktionen.
  • Proaktives Audio (Vorabversion) Wenn „Proaktives Audio“ aktiviert ist, reagiert das Modell nur, wenn es relevant ist. Das Modell generiert proaktiv nur für Anfragen, die an das Gerät gerichtet sind, Texttranskripte und Audioantworten und reagiert nicht auf Anfragen, die nicht an das Gerät gerichtet sind.
  • Affektiver Dialog:Modelle, die die native Audiofunktion der Gemini Live API verwenden, können die emotionalen Äußerungen von Nutzern verstehen und angemessen darauf reagieren, um nuanciertere Unterhaltungen zu ermöglichen.
  • Verbesserte Unterbrechungsfunktion:Sie können Gemini jetzt natürlicher und zuverlässiger unterbrechen, auch in lauten Umgebungen.
  • Robuste Funktionsaufrufe:Wir haben die Auslöserate verbessert, sodass Gemini die von Ihnen definierten Funktionen zur Unterstützung Ihrer Anwendungsfälle erfolgreich ausführen kann.
  • Genaue Transkription:Die Genauigkeit der Audio-zu-Text-Transkription wurde deutlich verbessert.
  • Nahtlose mehrsprachige Unterstützung:Sie können mit Gemini in mehreren Sprachen sprechen und Gemini wechselt mühelos zwischen den Sprachen, ohne dass eine Vorkonfiguration erforderlich ist. Sprache ist kein Hindernis mehr.

Weitere Informationen zur Gemini Live API finden Sie hier:

Live 2.5 Flash Native Audio

In Vertex AI ausprobieren

Modell-ID gemini-live-2.5-flash-native-audio
Unterstützte Ein- und Ausgaben
  • Eingaben:
    Text, Bilder, Audio, Video
  • Ausgaben:
    Text, Audio
Token limits
  • Maximale Anzahl der Eingabetokens: 32.000 (Standard), kann auf 128.000 erhöht werden
  • Maximale Ausgabetokens: 64.000
Leistungsspektrum
Nutzungstypen
Technische Spezifikationen
Bilder
  • Maximale Anzahl von Bildern pro Prompt: 3.000
  • Maximale Dateigröße pro Datei für Inline-Daten oder direkte Uploads über die Console: 7 MB
  • Maximale Dateigröße pro Datei aus Google Cloud Storage: 30 MB
  • Unterstützte MIME-Typen:
    image/png, image/jpeg, image/webp, image/heic, image/heif
Video
  • Standardauflösung: 768 × 768
  • Unterstützte MIME-Typen:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Audio
  • Maximale Länge des Gesprächs: Standardmäßig 10 Minuten, die verlängert werden können.
  • Erforderliches Audioeingabeformat: Rohes 16-Bit-PCM-Audio mit 16 kHz, Little Endian
  • Erforderliches Audioausgabeformat: Rohes 16‑Bit-PCM-Audio mit 24 kHz, Little Endian
  • Unterstützte MIME-Typen:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Parameter-Standardwerte
  • Empfindlichkeit zum Erkennen des Redebeginns: niedrig
  • Empfindlichkeit zum Erkennen des Redeendes: Hoch
  • Vorangehender Abstand: 0
  • Maximale Kontextgröße: 128.000
Unterstützte Regionen

Modellverfügbarkeit

  • USA
    • us-central1
    • us-east1
    • us-east4
    • us-east5
    • us-south1
    • us-west1
    • us-west4
  • Europa
    • europe-central2
    • europe-north1
    • europe-southwest1
    • europe-west1
    • europe-west4
    • europe-west8
Weitere Informationen finden Sie unter Bereitstellungen und Endpunkte.
Versionen
  • gemini-live-2.5-flash-native-audio
    • Markteinführungsphase: GA
    • Veröffentlichungsdatum: 12. Dezember 2025
    • Datum der Außerbetriebnahme: 13. Dezember 2026
Sicherheitskontrollen
Onlinevorhersage
  • Datenstandort (im Ruhezustand) Unterstützt
  • Kundenverwaltete Verschlüsselungsschlüssel (CMEK) Nicht unterstützt
  • VPC Service Controls Unterstützt
  • Access Transparency (AXT) Wird unterstützt
Weitere Informationen finden Sie unter Sicherheitskontrollen.
Unterstützte Sprachen Unterstützte Sprachen
Preise Weitere Informationen finden Sie unter Preise.

Live 2.5 Flash Native Audio Preview

In Vertex AI ausprobieren

Modell-ID gemini-live-2.5-flash-preview-native-audio-09-2025
Unterstützte Ein- und Ausgaben
  • Eingaben:
    Text, Bilder, Audio, Video
  • Ausgaben:
    Text, Audio
Token limits
  • Maximale Eingabetokens: 128.000
  • Maximale Ausgabetokens: 64.000
  • Kontextfenster: 32.000 Tokens (Standard), kann auf 128.000 Tokens aktualisiert werden
Leistungsspektrum
Nutzungstypen
Technische Spezifikationen
Bilder
  • Maximale Anzahl von Bildern pro Prompt: 3.000
  • Maximale Dateigröße pro Datei für Inline-Daten oder direkte Uploads über die Console: 7 MB
  • Maximale Dateigröße pro Datei aus Google Cloud Storage: 30 MB
  • Unterstützte MIME-Typen:
    image/png, image/jpeg, image/webp, image/heic, image/heif
Video
  • Standardauflösung: 768 × 768
  • Unterstützte MIME-Typen:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Audio
  • Maximale Länge des Gesprächs: Standardmäßig 10 Minuten, die verlängert werden können.
  • Erforderliches Audioeingabeformat: Rohes 16-Bit-PCM-Audio mit 16 kHz, Little Endian
  • Erforderliches Audioausgabeformat: Rohes 16‑Bit-PCM-Audio mit 24 kHz, Little Endian
  • Unterstützte MIME-Typen:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Parameter-Standardwerte
  • Empfindlichkeit zum Erkennen des Redebeginns: niedrig
  • Empfindlichkeit zum Erkennen des Redeendes: Hoch
  • Vorangehender Abstand: 0
  • Maximale Kontextgröße: 128.000
Unterstützte Regionen

Modellverfügbarkeit

  • USA
    • us-central1
Weitere Informationen finden Sie unter Bereitstellungen und Endpunkte.
Wissensstichtag August 2025
Versionen
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • Startphase: Öffentliche Vorschau
    • Veröffentlichungsdatum: 25. September 2025
Sicherheitskontrollen
Weitere Informationen finden Sie unter Sicherheitskontrollen.
Unterstützte Sprachen Unterstützte Sprachen
Preise Weitere Informationen finden Sie unter Preise.