Chirp 3 是 Google 最新一代的多語言自動語音辨識 (ASR) 專用生成模型,由 Google Cloud的 Speech-to-Text (STT) API v2 提供,可用於語音轉錄。
設定
如要使用 Speech-to-Text Chirp 3 啟用轉錄功能,請按照下列步驟操作。
控制台
使用 Agent Assist 控制台建立或更新對話設定檔時,請按照下列步驟設定 Speech-to-Text,以使用 Chirp 3 模型。
REST API
您可以直接呼叫 API,建立或更新對話設定檔。使用 ConversationProfile.sttConfig.useSttV2 欄位啟用 STT V2,如下列範例所示。設定範例:
{ "name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f "displayName": "CONVERSATION_PROFILE_NAME", "automatedAgentConfig": { }, "humanAgentAssistantConfig": { "notificationConfig": { "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID", "messageFormat": "JSON" }, "humanAgentSuggestionConfig": { "featureConfigs": [{ "enableEventBasedSuggestion": true, "suggestionFeature": { "type": "ARTICLE_SUGGESTION" }, "conversationModelConfig": { } }] }, "messageAnalysisConfig": { } }, "sttConfig": { "model": "chirp_3", "useSttV2": true, }, "languageCode": "en-US" }
最佳做法
請按照下列建議操作,充分發揮 Chirp 3 模型語音轉錄功能的最大效益。
音訊串流
如要盡可能提升 Chirp 3 的效能,請近乎即時地傳送音訊。也就是說,如果音訊長度為 X 秒,串流時間大約也是 X 秒。將音訊分成小塊,每塊的影格大小為 100 毫秒。如需更多音訊串流最佳做法,請參閱 Speech-to-Text 說明文件。
使用語音調整功能
使用 Chirp 3 語音調整功能進行轉錄時,只能使用在對話設定檔中設定的內嵌片語。
支援的地區和語言
Chirp 3 支援所有語音轉文字語言,但推出時間因語言而異。此外,Chirp 3 也支援所有Agent Assist 區域,但northamerica-northeast1、northamerica-northeast2 和asia-south1除外。
配額
使用 Chirp 3 模型進行轉錄的要求數量,會受到以 chirp_3 標示為資源類型的 SttV2StreamingRequestsPerMinutePerResourceTypePerRegion 配額限制。如要瞭解配額用量和如何要求增加配額,請參閱 Google Cloud 配額指南。
就配額而言,傳送至全球 Dialogflow 端點的轉錄要求位於 us-central1 區域。