使用 Speech-to-Text Chirp 3 进行转写

Chirp 3 是 Google 最新一代多语言自动语音识别 (ASR) 专用生成模型，由 Google CloudSpeech-to-Text (STT) API v2 提供，可用于语音转写。

设置

请按照以下步骤使用 Speech-to-Text Chirp 3 启用转写。

控制台

使用 Agent Assist 控制台创建或更新对话配置文件时，请按照以下步骤配置 Speech-to-Text 设置以使用 Chirp 3 模型。

点击对话配置文件。
点击配置文件的名称。
前往 Speech to Text 配置 部分。
为模型选择 Chirp 3 。
（可选）如果音频是通过电话集成传输的，请选择将长格式模型用于 AA 电话 SipRec 集成。
（可选）配置语言代码 和最多一个备选语言代码 ，以进行语言限制的转写。
（可选）将自动配置为语言代码，以进行与语言无关的转写。
（可选）配置用于语音自适应的短语，以通过模型自适应提高准确率。

REST API

您可以直接调用 API 来创建或更新对话配置文件。使用 ConversationProfile.sttConfig.useSttV2 字段启用 STT V2，如以下示例所示。配置示例：

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

最佳做法

请按照以下建议充分利用 Chirp 3 模型进行语音转写。

音频串流

为了尽可能提升 Chirp 3 的性能，请以接近实时的速度发送音频。也就是说，如果您有 X 秒的音频，请在大约 X 秒内进行串流。将音频分成小块，每块的帧大小为 100 毫秒。如需了解更多音频串流最佳实践，请参阅 Speech-to-Text 文档。

使用语音自适应

只有在对话配置文件中配置了内嵌短语的情况下，才能使用 Chirp 3 语音自适应进行转写。

区域和语言支持

Chirp 3 适用于所有 Speech-to-Text 语言，但发布准备情况各不相同，并且适用于除 northamerica-northeast1、northamerica-northeast2 和 asia-south1 之外的所有 Agent Assist 区域。

配额

使用 Chirp 3 模型进行的转写请求数量受 SttV2StreamingRequestsPerMinutePerResourceTypePerRegion 配额的限制，其中 chirp_3 标记为资源类型。如需了解配额使用情况以及如何申请增加配额，请参阅 Google Cloud 配额指南。

对于配额，向全球 Dialogflow 端点发出的转写请求位于 us-central1 区域。

使用 Speech-to-Text Chirp 3 进行转写 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

设置

控制台