Sprache und Stimme konfigurieren

In diesem Dokument wird beschrieben, wie Sie synthetisierte Sprachantworten und die Erkennung von Sprachaktivitäten in der Gemini Live API konfigurieren. Sie können Antworten in verschiedenen HD-Sprachen und ‑Sprachvarianten konfigurieren und auch Einstellungen für die Erkennung von Sprachaktivitäten konfigurieren, damit Nutzer das Modell unterbrechen können.

Sprache und Stimme festlegen

Native Audiomodelle wie „gemini-live-2.5-flash-native-audio“ können während einer Unterhaltung auf natürliche Weise zwischen Sprachen wechseln. Sie können die Sprachen, in denen das Modell kommuniziert, auch einschränken, indem Sie sie in den Systemanweisungen angeben.

Bei Modellen, die nicht auf Audio basieren, z. B. gemini-live-2.5-flash, können Sie die Sprache in speech_config.language_code konfigurieren.

Die Stimme ist für alle Modelle im Feld voice_name konfiguriert.

Das folgende Codebeispiel zeigt, wie Sie Sprache und Stimme konfigurieren.

from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig

config = LiveConnectConfig(
  response_modalities=["AUDIO"],
  speech_config=SpeechConfig(
    voice_config=VoiceConfig(
        prebuilt_voice_config=PrebuiltVoiceConfig(
            voice_name=voice_name,
        )
    ),
    language_code="en-US",
  ),
)

Unterstützte Stimmen

Die Gemini Live API unterstützt die folgenden 30 Sprachoptionen im Feld voice_name:

Zephyr – Hell
Kore – Fest
Orus – Fest
Autonoe – Hell
Umbriel – Gelassen
Erinome – Klar
Laomedeia – Fröhlich
Schedar – Gleichmäßig
Achird – Freundlich
Sadachbia – Lebhaft

Puck – Beschwingt
Fenrir – Aufgeregt
Aoede – Leicht
Enceladus – Hauchig
Algieba – Sanft
Algenib – Rau
Achernar – Weich
Gacrux – Reif
Zubenelgenubi – Locker
Sadaltager – Wissend

Charon – Informative
Leda – Jugendlich
Callirrhoe – Gelassen
Iapetus – Klar
Despina – Sanft
Rasalgethi – Informative
Alnilam – Bestimmt
Pulcherrima – Direkt
Vindemiatrix – Sanft
Sulafat – Warm

Unterstützte Sprachen

Die Gemini Live API unterstützt die folgenden Sprachen:

Sprache	BCP-47-Code
Arabisch (Ägypten)	ar-EG
Bengalisch (Bangladesch)	bn-BD
Niederländisch (Niederlande)	nl-NL
Englisch (Indien)	en-IN- und hi-IN-Set
Englisch (USA)	en-US
Französisch (Frankreich)	fr-FR
Deutsch (Deutschland)	de-DE
Hindi (Indien)	hi-IN
Indonesisch (Indonesien)	id-ID
Italienisch (Italien)	it-IT
Japanisch (Japan)	ja-JP
Koreanisch (Korea)	ko-KR
Marathi (Indien)	mr-IN
Polnisch (Polen)	pl-PL
Portugiesisch (Brasilien)	pt-BR
Rumänisch (Rumänien)	ro-RO
Russisch (Russland)	ru-RU
Spanisch (USA)	es-US
Tamil (Indien)	ta-IN
Telugu (Indien)	te-IN
Thailändisch (Thailand)	th-TH
Türkisch (Türkei)	tr-TR
Ukrainisch (Ukraine)	uk-UA
Vietnamesisch (Vietnam)	vi-VN

Erkennung von Sprachaktivitäten konfigurieren

Die Erkennung von Sprachaktivitäten (Voice Activity Detection, VAD) ermöglicht es dem Modell, zu erkennen, wann eine Person spricht. Das ist wichtig, um natürliche Gespräche zu ermöglichen, da Nutzer das Modell jederzeit unterbrechen können.

Wenn VAD eine Unterbrechung erkennt, wird die laufende Generierung abgebrochen und verworfen. Im Sitzungsverlauf werden nur die Informationen gespeichert, die bereits an den Kunden gesendet wurden. Der Server sendet dann eine BidiGenerateContentServerContent-Nachricht, um die Unterbrechung zu melden. Der Server verwirft dann alle ausstehenden Funktionsaufrufe und sendet eine BidiGenerateContentServerContent-Nachricht mit den IDs der abgebrochenen Aufrufe.

Python

config = {
    "response_modalities": ["audio"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": "low",
            "end_of_speech_sensitivity": "low",
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}