Speech-to-Text Chirp 3로 스크립트 사용하기

Google Cloud's Speech-to-Text (STT) API v2에서 제공하는 최신 세대의 Google 다국어 자동 음성 인식 (ASR) 전용 생성 모델인 Chirp 3를 음성 텍스트 변환에 사용할 수 있습니다.

설정

Speech-to-Text Chirp 3로 텍스트 변환을 사용 설정하려면 다음 단계를 따르세요.

콘솔

Agent Assist 콘솔을 사용하여 대화 프로필을 만들거나 업데이트할 때 다음 단계에 따라 Chirp 3 모델을 사용하도록 Speech-to-Text 설정을 구성합니다.

  1. 대화 프로필을 클릭합니다.
  2. 프로필 이름을 클릭합니다.
  3. Speech to Text Config(음성 텍스트 변환 구성) 섹션으로 이동합니다.
  4. 모델로 Chirp 3 를 선택합니다.
  5. (선택사항) 오디오가 전화 통합을 통해 전송되는 경우 AA 전화 SipRec 통합에 긴 형식 모델 사용 을 선택합니다.
  6. (선택사항) 언어 코드 및 언어 제한 텍스트 변환의 경우 최대 하나의 대체 언어 코드를 구성합니다.
  7. (선택사항) auto언어에 구애받지 않는 텍스트 변환의 언어 코드로 구성합니다.
  8. (선택사항) 음성 적응을 위한 구문을 구성하여 모델 적응의 정확성을 개선합니다.

REST API

API를 직접 호출하여 대화 프로필을 만들거나 업데이트할 수 있습니다. 다음 예와 같이 ConversationProfile.sttConfig.useSttV2 필드를 사용하여 STT V2를 사용 설정합니다. 구성 예시:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

권장사항

Chirp 3 모델로 음성 텍스트 변환을 최대한 활용하려면 다음 제안사항을 따르세요.

오디오 스트리밍

Chirp 3 성능을 극대화하려면 오디오를 실시간에 가까운 속도로 전송하세요. 즉, 오디오가 X초인 경우 대략 X초 동안 스트리밍합니다. 오디오를 프레임 크기가 각각 100ms인 작은 청크로 나눕니다. 오디오 스트리밍 권장사항에 대한 자세한 내용은 Speech-to-Text 문서를 참고하세요.

음성 적응 사용

Chirp 3 음성 적응을 사용한 텍스트 변환은 대화 프로필에 구성된 인라인 구문에서만 사용합니다.

리전 및 언어 지원

Chirp 3는 출시 준비가 다양한 모든 Speech-to-Text 언어에서 사용할 수 있으며 Agent Assist 리전northamerica-northeast1, northamerica-northeast2, asia-south1을 제외한 모든 리전에서 사용할 수 있습니다.

할당량

Chirp 3 모델을 사용하는 텍스트 변환 요청 수는 SttV2StreamingRequestsPerMinutePerResourceTypePerRegion 할당량에 따라 제한되며, chirp_3는 리소스 유형으로 라벨이 지정됩니다. 할당량 사용량 및 할당량 상향을 요청하는 방법에 대한 자세한 내용은 Google Cloud 할당량 가이드를 참고하세요.

할당량의 경우 전역 Dialogflow 엔드포인트에 대한 텍스트 변환 요청은 us-central1 리전에 있습니다.