使用 Speech-to-Text Chirp 3 轉錄功能

Chirp 3 是 Google 最新一代的多語言自動語音辨識 (ASR) 專用生成模型,由 Google Cloud的 Speech-to-Text (STT) API v2 提供,可用於語音轉錄

設定

如要使用 Speech-to-Text Chirp 3 啟用轉錄功能,請按照下列步驟操作。

控制台

使用 Agent Assist 控制台建立或更新對話設定檔時,請按照下列步驟設定 Speech-to-Text,以使用 Chirp 3 模型。

  1. 按一下「對話個人資料」
  2. 按一下設定檔名稱。
  3. 前往「Speech to Text Config」(語音轉文字設定) 專區。
  4. 選擇「Chirp 3」做為模型。
  5. (選用) 如果音訊是透過電話整合傳輸,請選取「Use Long Form Model for AA Telephony SipRec Integration」(使用長篇模型進行 AA 電話 SipRec 整合)
  6. (選用) 為語言限制轉錄設定「語言代碼」和最多一個「替代語言代碼」
  7. (選用) 將 auto 設定為不限語言的轉錄語言代碼。
  8. (選用) 設定語音調整片語,透過模型調整功能提高準確度。

REST API

您可以直接呼叫 API,建立或更新對話設定檔。使用 ConversationProfile.sttConfig.useSttV2 欄位啟用 STT V2,如下列範例所示。設定範例:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

最佳做法

請按照下列建議操作,充分發揮 Chirp 3 模型語音轉錄功能的最大效益。

音訊串流

如要盡可能提升 Chirp 3 的效能,請近乎即時地傳送音訊。也就是說,如果音訊長度為 X 秒,串流時間大約也是 X 秒。將音訊分成小塊,每塊的影格大小為 100 毫秒。如需更多音訊串流最佳做法,請參閱 Speech-to-Text 說明文件

使用語音調整功能

使用 Chirp 3 語音調整功能進行轉錄時,只能使用在對話設定檔中設定的內嵌片語。

支援的地區和語言

Chirp 3 支援所有語音轉文字語言,但推出時間因語言而異。此外,Chirp 3 也支援所有Agent Assist 區域,但northamerica-northeast1northamerica-northeast2asia-south1除外。

配額

使用 Chirp 3 模型進行轉錄的要求數量,會受到以 chirp_3 標示為資源類型的 SttV2StreamingRequestsPerMinutePerResourceTypePerRegion 配額限制。如要瞭解配額用量和如何要求增加配額,請參閱 Google Cloud 配額指南

就配額而言,傳送至全球 Dialogflow 端點的轉錄要求位於 us-central1 區域。