In diesem Dokument wird beschrieben, wie Sie synthetisierte Sprachantworten und die Erkennung von Sprachaktivitäten in der Gemini Live API konfigurieren. Sie können Antworten in verschiedenen HD-Stimmen und ‑Sprachen konfigurieren und auch die Einstellungen für die Erkennung von Sprachaktivitäten konfigurieren, damit Nutzer das Modell unterbrechen können.
Sprache und Stimme festlegen
Native Audiomodelle wie gemini-live-2.5-flash-native-audio können während einer Unterhaltung auf natürliche Weise zwischen Sprachen wechseln. Sie können die Sprachen, in denen das Modell antwortet, auch einschränken, indem Sie sie in den Systemanweisungen angeben.
Bei Modellen, die keine nativen Audiofunktionen haben, wie gemini-live-2.5-flash, können Sie die Sprache in speech_config.language_code konfigurieren.
Die Stimme ist für alle Modelle im Feld voice_name konfiguriert.
Das folgende Codebeispiel zeigt, wie Sie Sprache und Stimme konfigurieren.
from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig config = LiveConnectConfig( response_modalities=["AUDIO"], speech_config=SpeechConfig( voice_config=VoiceConfig( prebuilt_voice_config=PrebuiltVoiceConfig( voice_name=voice_name, ) ), language_code="en-US", ), )
Unterstützte Stimmen
Die Gemini Live API unterstützt die folgenden 30 Sprachoptionen im Feld voice_name:
|
Zephyr – Hell Kore – Kräftig Orus – Kräftig Autonoe – Hell Umbriel – Gelassen Erinome – Klar Laomedeia – Fröhlich Schedar – Gleichmäßig Achird – Freundlich Sadachbia – Lebhaft |
Puck – Beschwingt Fenrir – Aufgeregt Aoede – Leicht Enceladus – Hauchig Algieba – Sanft Algenib – Rau Achernar – Weich Gacrux – Reif Zubenelgenubi – Locker Sadaltager – Wissend |
Charon – Informative Leda – Jugendlich Callirrhoe – Unkompliziert Iapetus – Klar Despina – Sanft Rasalgethi – Informative Alnilam – Bestimmt Pulcherrima – Direkt Vindemiatrix – Sanft Sulafat – Warm |
Unterstützte Sprachen
Die Gemini Live API unterstützt die folgenden 24 Sprachen:
| Sprache | BCP-47-Code | Sprache | BCP-47-Code |
|---|---|---|---|
| Arabisch (Ägypten) | ar-EG | Deutsch (Deutschland) | de-DE |
| Englisch (USA) | en-US | Spanisch (USA) | es-US |
| Französisch (Frankreich) | fr-FR | Hindi (Indien) | hi-IN |
| Indonesisch (Indonesien) | id-ID | Italienisch (Italien) | it-IT |
| Japanisch (Japan) | ja-JP | Koreanisch (Korea) | ko-KR |
| Portugiesisch (Brasilien) | pt-BR | Russisch (Russland) | ru-RU |
| Niederländisch (Niederlande) | nl-NL | Polnisch (Polen) | pl-PL |
| Thailändisch (Thailand) | th-TH | Türkisch (Türkei) | tr-TR |
| Vietnamesisch (Vietnam) | vi-VN | Rumänisch (Rumänien) | ro-RO |
| Ukrainisch (Ukraine) | uk-UA | Bengalisch (Bangladesch) | bn-BD |
| Englisch (Indien) | en-IN- und hi-IN-Set | Marathi (Indien) | mr-IN |
| Tamil (Indien) | ta-IN | Telugu (Indien) | te-IN |
Erkennung von Sprachaktivitäten konfigurieren
Die Erkennung von Sprachaktivitäten (Voice Activity Detection, VAD) ermöglicht es dem Modell, zu erkennen, wann eine Person spricht. Das ist wichtig, um natürliche Gespräche zu ermöglichen, da Nutzer das Modell jederzeit unterbrechen können.
Wenn VAD eine Unterbrechung erkennt, wird die laufende Generierung abgebrochen und verworfen. Im Sitzungsverlauf werden nur die Informationen gespeichert, die bereits an den Kunden gesendet wurden. Der Server sendet dann eine BidiGenerateContentServerContent-Nachricht, um die Unterbrechung zu melden. Der Server verwirft dann alle ausstehenden Funktionsaufrufe und sendet eine BidiGenerateContentServerContent-Nachricht mit den IDs der abgebrochenen Aufrufe.
Python
config = { "response_modalities": ["audio"], "realtime_input_config": { "automatic_activity_detection": { "disabled": False, # default "start_of_speech_sensitivity": "low", "end_of_speech_sensitivity": "low", "prefix_padding_ms": 20, "silence_duration_ms": 100, } } }
Nächste Schritte
- Live-Sitzungen starten und verwalten
- Audio- und Videostreams senden
- Sprachübersetzung verwenden
- Best Practices für die Gemini Live API