Sprache und Stimme konfigurieren

In diesem Dokument wird beschrieben, wie Sie synthetisierte Sprachantworten und die Erkennung von Sprachaktivitäten in der Gemini Live API konfigurieren. Sie können Antworten in verschiedenen HD-Stimmen und ‑Sprachen konfigurieren und auch die Einstellungen für die Erkennung von Sprachaktivitäten konfigurieren, damit Nutzer das Modell unterbrechen können.

Sprache und Stimme festlegen

Native Audiomodelle wie gemini-live-2.5-flash-native-audio können während einer Unterhaltung auf natürliche Weise zwischen Sprachen wechseln. Sie können die Sprachen, in denen das Modell antwortet, auch einschränken, indem Sie sie in den Systemanweisungen angeben.

Bei Modellen, die keine nativen Audiofunktionen haben, wie gemini-live-2.5-flash, können Sie die Sprache in speech_config.language_code konfigurieren.

Die Stimme ist für alle Modelle im Feld voice_name konfiguriert.

Das folgende Codebeispiel zeigt, wie Sie Sprache und Stimme konfigurieren.

from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig

config = LiveConnectConfig(
  response_modalities=["AUDIO"],
  speech_config=SpeechConfig(
    voice_config=VoiceConfig(
        prebuilt_voice_config=PrebuiltVoiceConfig(
            voice_name=voice_name,
        )
    ),
    language_code="en-US",
  ),
)

Unterstützte Stimmen

Die Gemini Live API unterstützt die folgenden 30 Sprachoptionen im Feld voice_name:

Zephyr – Hell
Kore – Kräftig
Orus – Kräftig
Autonoe – Hell
Umbriel – Gelassen
Erinome – Klar
Laomedeia – Fröhlich
Schedar – Gleichmäßig
Achird – Freundlich
Sadachbia – Lebhaft
Puck – Beschwingt
Fenrir – Aufgeregt
Aoede – Leicht
Enceladus – Hauchig
Algieba – Sanft
Algenib – Rau
Achernar – Weich
Gacrux – Reif
Zubenelgenubi – Locker
Sadaltager – Wissend
Charon – Informative
Leda – Jugendlich
Callirrhoe – Unkompliziert
Iapetus – Klar
Despina – Sanft
Rasalgethi – Informative
Alnilam – Bestimmt
Pulcherrima – Direkt
Vindemiatrix – Sanft
Sulafat – Warm

Unterstützte Sprachen

Die Gemini Live API unterstützt die folgenden 24 Sprachen:

Sprache BCP-47-Code Sprache BCP-47-Code
Arabisch (Ägypten) ar-EG Deutsch (Deutschland) de-DE
Englisch (USA) en-US Spanisch (USA) es-US
Französisch (Frankreich) fr-FR Hindi (Indien) hi-IN
Indonesisch (Indonesien) id-ID Italienisch (Italien) it-IT
Japanisch (Japan) ja-JP Koreanisch (Korea) ko-KR
Portugiesisch (Brasilien) pt-BR Russisch (Russland) ru-RU
Niederländisch (Niederlande) nl-NL Polnisch (Polen) pl-PL
Thailändisch (Thailand) th-TH Türkisch (Türkei) tr-TR
Vietnamesisch (Vietnam) vi-VN Rumänisch (Rumänien) ro-RO
Ukrainisch (Ukraine) uk-UA Bengalisch (Bangladesch) bn-BD
Englisch (Indien) en-IN- und hi-IN-Set Marathi (Indien) mr-IN
Tamil (Indien) ta-IN Telugu (Indien) te-IN

Erkennung von Sprachaktivitäten konfigurieren

Die Erkennung von Sprachaktivitäten (Voice Activity Detection, VAD) ermöglicht es dem Modell, zu erkennen, wann eine Person spricht. Das ist wichtig, um natürliche Gespräche zu ermöglichen, da Nutzer das Modell jederzeit unterbrechen können.

Wenn VAD eine Unterbrechung erkennt, wird die laufende Generierung abgebrochen und verworfen. Im Sitzungsverlauf werden nur die Informationen gespeichert, die bereits an den Kunden gesendet wurden. Der Server sendet dann eine BidiGenerateContentServerContent-Nachricht, um die Unterbrechung zu melden. Der Server verwirft dann alle ausstehenden Funktionsaufrufe und sendet eine BidiGenerateContentServerContent-Nachricht mit den IDs der abgebrochenen Aufrufe.

Python

config = {
    "response_modalities": ["audio"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": "low",
            "end_of_speech_sensitivity": "low",
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}
      

Nächste Schritte