언어 및 음성 구성

이 문서에서는 Live API에서 합성된 음성 응답과 음성 활동 감지를 구성하는 방법을 설명합니다. 다양한 HD 음성 및 언어로 대답을 구성할 수 있으며, 사용자가 모델을 중단할 수 있도록 음성 활동 감지 설정을 구성할 수도 있습니다.

언어 및 음성 설정

대답 언어와 음성을 설정하려면 다음과 같이 구성하세요.

콘솔

  1. Vertex AI Studio > 실시간 스트리밍을 엽니다.
  2. 출력 펼침 메뉴의 음성 드롭다운에서 음성을 선택합니다.
  3. 동일한 펼침 메뉴의 언어 드롭다운에서 언어를 선택합니다.
  4. 세션 시작을 클릭하여 세션을 시작합니다.

Python

from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig

config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    speech_config=SpeechConfig(
        voice_config=VoiceConfig(
            prebuilt_voice_config=PrebuiltVoiceConfig(
                voice_name=voice_name,
            )
        ),
        language_code="en-US",
    ),
)
      

지원되는 음성

Live API는 voice_name 필드에서 다음 30가지 음성 옵션을 지원합니다.

Zephyr -- Bright
Kore -- Firm
Orus -- Firm
Autonoe -- Bright
Umbriel -- Easy-going
Erinome -- Clear
Laomedeia -- Upbeat
Schedar -- Even
Achird -- Friendly
Sadachbia -- Lively
퍽: 경쾌함
펜리르: 흥분
아오에데: 산들바람
엔셀라두스: 숨소리
알기에바: 부드러움
알게니브: 거친 목소리
아케르나르: 부드러움
가크룩스: 성숙함
주베넬게누비: 캐주얼
사달타거: 지식
카론 - 정보 제공
레다 - 젊음
칼리로에 - 느긋함
이아페토스 - 명확함
데스피나 - 부드러움
라살게티 - 정보 제공
알닐람 - 단호함
풀케리마 - 적극적
빈데미아트릭스 - 부드러움
술라파트 - 따뜻함

지원 언어

Live API는 다음 24개 언어를 지원합니다.

언어 BCP-47 코드 언어 BCP-47 코드
아랍어(이집트) ar-EG 독일어(독일) de-DE
영어(미국) en-US 스페인어(미국) es-US
프랑스어(프랑스) fr-FR 힌디어(인도) hi-IN
인도네시아어(인도네시아) id-ID 이탈리아어(이탈리아) it-IT
일본어(일본) ja-JP 한국어(대한민국) ko-KR
포르투갈어(브라질) pt-BR 러시아어(러시아) ru-RU
네덜란드어(네덜란드) nl-NL 폴란드어(폴란드) pl-PL
태국어(태국) th-TH 터키어(터키) tr-TR
베트남어(베트남) vi-VN 루마니아어(루마니아) ro-RO
우크라이나어(우크라이나) uk-UA 벵골어(방글라데시) bn-BD
영어(인도) en-IN 및 hi-IN 번들 마라티어(인도) mr-IN
타밀어(인도) ta-IN 텔루구어(인도) te-IN

음성 활동 감지 구성

음성 활동 감지(VAD)를 사용하면 모델에서 사람이 말하는 시점을 인식할 수 있습니다. 사용자가 언제든지 모델을 중단할 수 있어 이는 자연스러운 대화를 만드는 데 필수적입니다.

VAD가 중단을 감지하면 진행 중인 생성이 취소되고 삭제됩니다. 클라이언트에 이미 전송된 정보만 세션 기록에 보관됩니다. 그런 다음 서버는 BidiGenerateContentServerContent 메시지를 전송하여 중단을 보고합니다. 그런 다음 서버는 대기 중인 함수 호출을 삭제하고 취소된 호출의 ID가 포함된 BidiGenerateContentServerContent 메시지를 전송합니다.

Python

config = {
    "response_modalities": ["audio"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": "low",
            "end_of_speech_sensitivity": "low",
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}
      

다음 단계