使用 Speech-to-Text Chirp 3 进行转写

Chirp 3 是 Google 最新一代多语言自动语音识别 (ASR) 专用生成模型,由 Google CloudSpeech-to-Text (STT) API v2 提供,可用于 语音转写

设置

请按照以下步骤使用 Speech-to-Text Chirp 3 启用转写。

控制台

使用 Agent Assist 控制台创建或更新对话配置文件时,请按照以下步骤配置 Speech-to-Text 设置以使用 Chirp 3 模型。

  1. 点击对话配置文件
  2. 点击配置文件的名称。
  3. 前往 Speech to Text 配置 部分。
  4. 为模型选择 Chirp 3
  5. (可选)如果音频是通过电话集成传输的,请选择将长格式模型用于 AA 电话 SipRec 集成
  6. (可选)配置语言代码 和最多一个备选语言代码 ,以进行语言限制的转写
  7. (可选)将自动 配置为语言代码,以进行与语言无关的转写
  8. (可选)配置用于语音自适应的短语,以通过模型自适应提高准确率。

REST API

您可以直接调用 API 来创建或更新对话配置文件。使用 ConversationProfile.sttConfig.useSttV2 字段启用 STT V2,如以下示例所示。 配置示例:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

最佳做法

请按照以下建议充分利用 Chirp 3 模型进行语音转写。

音频串流

为了尽可能提升 Chirp 3 的性能,请以接近实时的速度发送音频。也就是说,如果您有 X 秒的音频,请在大约 X 秒内进行串流。将音频分成小块,每块的帧大小为 100 毫秒。如需了解更多音频串流最佳实践,请参阅 Speech-to-Text 文档

使用语音自适应

只有在对话配置文件中配置了内嵌短语的情况下,才能使用 Chirp 3 语音自适应进行转写。

区域和语言支持

Chirp 3 适用于所有 Speech-to-Text 语言,但发布准备情况各不相同,并且适用于除 northamerica-northeast1northamerica-northeast2asia-south1 之外的所有 Agent Assist 区域

配额

使用 Chirp 3 模型进行的转写请求数量受 SttV2StreamingRequestsPerMinutePerResourceTypePerRegion 配额的限制,其中 chirp_3 标记为资源类型。如需了解配额使用情况以及如何申请增加配额,请参阅 Google Cloud 配额指南

对于配额,向全球 Dialogflow 端点发出的转写请求位于 us-central1 区域。