Sprache und Stimme konfigurieren

In diesem Dokument wird beschrieben, wie Sie synthetisierte Sprachantworten und die Spracherkennung in der Live API konfigurieren. Sie können Antworten in verschiedenen HD-Sprachen und ‑Stimmen konfigurieren und auch die Einstellungen für die Erkennung von Sprachaktivitäten konfigurieren, damit Nutzer das Modell unterbrechen können.

Sprache und Stimme festlegen

So konfigurieren Sie die Sprache und Stimme der Antwort:

Console

  1. Öffnen Sie Vertex AI Studio > Stream realtime.
  2. Wählen Sie im Bereich Ausgaben im Drop-down-Menü Stimme eine Stimme aus.
  3. Wählen Sie im selben Bereich eine Sprache aus dem Drop-down-Menü Sprache aus.
  4. Klicken Sie auf Sitzung starten, um die Sitzung zu starten.

Python

from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig

config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    speech_config=SpeechConfig(
        voice_config=VoiceConfig(
            prebuilt_voice_config=PrebuiltVoiceConfig(
                voice_name=voice_name,
            )
        ),
        language_code="en-US",
    ),
)
      

Unterstützte Stimmen

Die Live API unterstützt die folgenden 30 Sprachoptionen im Feld voice_name:

Zephyr – Hell
Kore – Kräftig
Orus – Kräftig
Autonoe – Hell
Umbriel – Gelassen
Erinome – Klar
Laomedeia – Optimistisch
Schedar – Gleichmäßig
Achird – Freundlich
Sadachbia – Lebhaft
Puck – Beschwingt
Fenrir – Aufgeregt
Aoede – Leicht
Enceladus – Hauchig
Algieba – Sanft
Algenib – Rau
Achernar – Weich
Gacrux – Reif
Zubenelgenubi – Locker
Sadaltager – Wissend
Charon – Informative
Leda – Jugendlich
Callirrhoe – Gelassen
Iapetus – Klar
Despina – Sanft
Rasalgethi – Informative
Alnilam – Bestimmt
Pulcherrima – Direkt
Vindemiatrix – Sanft
Sulafat – Warm

Unterstützte Sprachen

Die Live API unterstützt die folgenden 24 Sprachen:

Sprache BCP-47-Code Sprache BCP-47-Code
Arabisch (Ägypten) ar-EG Deutsch (Deutschland) de-DE
Englisch (USA) en-US Spanisch (USA) es-US
Französisch (Frankreich) fr-FR Hindi (Indien) hi-IN
Indonesisch (Indonesien) id-ID Italienisch (Italien) it-IT
Japanisch (Japan) ja-JP Koreanisch (Korea) ko-KR
Portugiesisch (Brasilien) pt-BR Russisch (Russland) ru-RU
Niederländisch (Niederlande) nl-NL Polnisch (Polen) pl-PL
Thailändisch (Thailand) th-TH Türkisch (Türkei) tr-TR
Vietnamesisch (Vietnam) vi-VN Rumänisch (Rumänien) ro-RO
Ukrainisch (Ukraine) uk-UA Bengalisch (Bangladesch) bn-BD
Englisch (Indien) en-IN- und hi-IN-Set Marathi (Indien) mr-IN
Tamil (Indien) ta-IN Telugu (Indien) te-IN

Erkennung von Sprachaktivitäten konfigurieren

Die Erkennung von Sprachaktivitäten (Voice Activity Detection, VAD) ermöglicht es dem Modell, zu erkennen, wann eine Person spricht. Das ist wichtig, um natürliche Gespräche zu ermöglichen, da Nutzer das Modell jederzeit unterbrechen können.

Wenn VAD eine Unterbrechung erkennt, wird die laufende Generierung abgebrochen und verworfen. Im Sitzungsverlauf werden nur die Informationen gespeichert, die bereits an den Kunden gesendet wurden. Der Server sendet dann eine BidiGenerateContentServerContent-Nachricht, um die Unterbrechung zu melden. Der Server verwirft dann alle ausstehenden Funktionsaufrufe und sendet eine BidiGenerateContentServerContent-Nachricht mit den IDs der abgebrochenen Aufrufe.

Python

config = {
    "response_modalities": ["audio"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": "low",
            "end_of_speech_sensitivity": "low",
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}
      

Nächste Schritte