In diesem Dokument wird beschrieben, wie Sie synthetisierte Sprachantworten und die Spracherkennung in der Live API konfigurieren. Sie können Antworten in verschiedenen HD-Sprachen und ‑Stimmen konfigurieren und auch die Einstellungen für die Erkennung von Sprachaktivitäten konfigurieren, damit Nutzer das Modell unterbrechen können.
Sprache und Stimme festlegen
So konfigurieren Sie die Sprache und Stimme der Antwort:
Console
- Öffnen Sie Vertex AI Studio > Stream realtime.
- Wählen Sie im Bereich Ausgaben im Drop-down-Menü Stimme eine Stimme aus.
- Wählen Sie im selben Bereich eine Sprache aus dem Drop-down-Menü Sprache aus.
- Klicken Sie auf Sitzung starten, um die Sitzung zu starten.
Python
from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig config = LiveConnectConfig( response_modalities=["AUDIO"], speech_config=SpeechConfig( voice_config=VoiceConfig( prebuilt_voice_config=PrebuiltVoiceConfig( voice_name=voice_name, ) ), language_code="en-US", ), )
Unterstützte Stimmen
Die Live API unterstützt die folgenden 30 Sprachoptionen im Feld voice_name:
|
Zephyr – Hell Kore – Kräftig Orus – Kräftig Autonoe – Hell Umbriel – Gelassen Erinome – Klar Laomedeia – Optimistisch Schedar – Gleichmäßig Achird – Freundlich Sadachbia – Lebhaft |
Puck – Beschwingt Fenrir – Aufgeregt Aoede – Leicht Enceladus – Hauchig Algieba – Sanft Algenib – Rau Achernar – Weich Gacrux – Reif Zubenelgenubi – Locker Sadaltager – Wissend |
Charon – Informative Leda – Jugendlich Callirrhoe – Gelassen Iapetus – Klar Despina – Sanft Rasalgethi – Informative Alnilam – Bestimmt Pulcherrima – Direkt Vindemiatrix – Sanft Sulafat – Warm |
Unterstützte Sprachen
Die Live API unterstützt die folgenden 24 Sprachen:
| Sprache | BCP-47-Code | Sprache | BCP-47-Code |
|---|---|---|---|
| Arabisch (Ägypten) | ar-EG | Deutsch (Deutschland) | de-DE |
| Englisch (USA) | en-US | Spanisch (USA) | es-US |
| Französisch (Frankreich) | fr-FR | Hindi (Indien) | hi-IN |
| Indonesisch (Indonesien) | id-ID | Italienisch (Italien) | it-IT |
| Japanisch (Japan) | ja-JP | Koreanisch (Korea) | ko-KR |
| Portugiesisch (Brasilien) | pt-BR | Russisch (Russland) | ru-RU |
| Niederländisch (Niederlande) | nl-NL | Polnisch (Polen) | pl-PL |
| Thailändisch (Thailand) | th-TH | Türkisch (Türkei) | tr-TR |
| Vietnamesisch (Vietnam) | vi-VN | Rumänisch (Rumänien) | ro-RO |
| Ukrainisch (Ukraine) | uk-UA | Bengalisch (Bangladesch) | bn-BD |
| Englisch (Indien) | en-IN- und hi-IN-Set | Marathi (Indien) | mr-IN |
| Tamil (Indien) | ta-IN | Telugu (Indien) | te-IN |
Erkennung von Sprachaktivitäten konfigurieren
Die Erkennung von Sprachaktivitäten (Voice Activity Detection, VAD) ermöglicht es dem Modell, zu erkennen, wann eine Person spricht. Das ist wichtig, um natürliche Gespräche zu ermöglichen, da Nutzer das Modell jederzeit unterbrechen können.
Wenn VAD eine Unterbrechung erkennt, wird die laufende Generierung abgebrochen und verworfen. Im Sitzungsverlauf werden nur die Informationen gespeichert, die bereits an den Kunden gesendet wurden. Der Server sendet dann eine BidiGenerateContentServerContent-Nachricht, um die Unterbrechung zu melden. Der Server verwirft dann alle ausstehenden Funktionsaufrufe und sendet eine BidiGenerateContentServerContent-Nachricht mit den IDs der abgebrochenen Aufrufe.
Python
config = { "response_modalities": ["audio"], "realtime_input_config": { "automatic_activity_detection": { "disabled": False, # default "start_of_speech_sensitivity": "low", "end_of_speech_sensitivity": "low", "prefix_padding_ms": 20, "silence_duration_ms": 100, } } }
Nächste Schritte
- Live-Sitzungen starten und verwalten
- Audio- und Videostreams senden
- Sprachübersetzung verwenden
- Best Practices für die Live API