Chirp 3 是 Google 最新一代多语言自动语音识别 (ASR) 专用生成模型,由 Google CloudSpeech-to-Text (STT) API v2 提供,可用于 语音转写。
设置
请按照以下步骤使用 Speech-to-Text Chirp 3 启用转写。
控制台
使用 Agent Assist 控制台创建或更新对话配置文件时,请按照以下步骤配置 Speech-to-Text 设置以使用 Chirp 3 模型。
REST API
您可以直接调用 API 来创建或更新对话配置文件。使用 ConversationProfile.sttConfig.useSttV2 字段启用 STT V2,如以下示例所示。
配置示例:
{ "name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f "displayName": "CONVERSATION_PROFILE_NAME", "automatedAgentConfig": { }, "humanAgentAssistantConfig": { "notificationConfig": { "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID", "messageFormat": "JSON" }, "humanAgentSuggestionConfig": { "featureConfigs": [{ "enableEventBasedSuggestion": true, "suggestionFeature": { "type": "ARTICLE_SUGGESTION" }, "conversationModelConfig": { } }] }, "messageAnalysisConfig": { } }, "sttConfig": { "model": "chirp_3", "useSttV2": true, }, "languageCode": "en-US" }
最佳做法
请按照以下建议充分利用 Chirp 3 模型进行语音转写。
音频串流
为了尽可能提升 Chirp 3 的性能,请以接近实时的速度发送音频。也就是说,如果您有 X 秒的音频,请在大约 X 秒内进行串流。将音频分成小块,每块的帧大小为 100 毫秒。如需了解更多音频串流最佳实践,请参阅 Speech-to-Text 文档。
使用语音自适应
只有在对话配置文件中配置了内嵌短语的情况下,才能使用 Chirp 3 语音自适应进行转写。
区域和语言支持
Chirp 3 适用于所有 Speech-to-Text 语言,但发布准备情况各不相同,并且适用于除 northamerica-northeast1、northamerica-northeast2 和 asia-south1 之外的所有 Agent Assist 区域。
配额
使用 Chirp 3 模型进行的转写请求数量受 SttV2StreamingRequestsPerMinutePerResourceTypePerRegion 配额的限制,其中 chirp_3 标记为资源类型。如需了解配额使用情况以及如何申请增加配额,请参阅 Google Cloud 配额指南。
对于配额,向全球 Dialogflow 端点发出的转写请求位于 us-central1 区域。