使用 Speech-to-Text Chirp 3 轉錄功能

Chirp 3 是 Google 最新一代的多語言自動語音辨識 (ASR) 專用生成模型，由 Google Cloud的 Speech-to-Text (STT) API v2 提供，可用於語音轉錄。

設定

如要使用 Speech-to-Text Chirp 3 啟用轉錄功能，請按照下列步驟操作。

控制台

使用 Agent Assist 控制台建立或更新對話設定檔時，請按照下列步驟設定 Speech-to-Text，以使用 Chirp 3 模型。

按一下「對話個人資料」。
按一下設定檔名稱。
前往「Speech to Text Config」(語音轉文字設定) 專區。
選擇「Chirp 3」做為模型。
(選用) 如果音訊是透過電話整合傳輸，請選取「Use Long Form Model for AA Telephony SipRec Integration」(使用長篇模型進行 AA 電話 SipRec 整合)。
(選用) 為語言限制轉錄設定「語言代碼」和最多一個「替代語言代碼」。
(選用) 將 auto 設定為不限語言的轉錄語言代碼。
(選用) 設定語音調整片語，透過模型調整功能提高準確度。

REST API

您可以直接呼叫 API，建立或更新對話設定檔。使用 ConversationProfile.sttConfig.useSttV2 欄位啟用 STT V2，如下列範例所示。設定範例：

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

最佳做法

請按照下列建議操作，充分發揮 Chirp 3 模型語音轉錄功能的最大效益。

音訊串流

如要盡可能提升 Chirp 3 的效能，請近乎即時地傳送音訊。也就是說，如果音訊長度為 X 秒，串流時間大約也是 X 秒。將音訊分成小塊，每塊的影格大小為 100 毫秒。如需更多音訊串流最佳做法，請參閱 Speech-to-Text 說明文件。

使用語音調整功能

使用 Chirp 3 語音調整功能進行轉錄時，只能使用在對話設定檔中設定的內嵌片語。

支援的地區和語言

Chirp 3 支援所有語音轉文字語言，但推出時間因語言而異。此外，Chirp 3 也支援所有Agent Assist 區域，但northamerica-northeast1、northamerica-northeast2 和asia-south1除外。

配額

使用 Chirp 3 模型進行轉錄的要求數量，會受到以 chirp_3 標示為資源類型的 SttV2StreamingRequestsPerMinutePerResourceTypePerRegion 配額限制。如要瞭解配額用量和如何要求增加配額，請參閱 Google Cloud 配額指南。

就配額而言，傳送至全球 Dialogflow 端點的轉錄要求位於 us-central1 區域。

使用 Speech-to-Text Chirp 3 轉錄功能 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

設定

控制台