本指南提供有关语音功能的附加高级设置。如需开启和关闭这些高级设置,请依次前往代理设置 > 语音和 IVR > Speech-to-Text > 高级语音设置 。
这些设置适用于代理设置(适用于整个代理)、 流设置(适用于整个 流并覆盖代理设置)、 页面设置(适用于页面并 覆盖流设置和代理设置)以及 fulfillment 设置 (适用于 fulfillment 并覆盖页面设置、流设置和代理设置)。其中的部分设置可在每个级别使用,具体取决于级别的设置相关性。*在任何较低级别配置这些设置之前,您必须先在代理级别(代理设置 > 语音和 IVR > Speech-to-Text > 高级语音设置)选中启用高级语音设置 复选框* 。
如果在较低级别选择了自定义 选项,则更新后的代理级设置不会传播到流、页面和 fulfillment 级别。如果自定义 选项包含多个设置,并且您只想更新其中的一些设置,那么您可能还需要更新其他设置,以使其与代理级设置相同。
按级别划分的设置可用性
下表说明了每个级别可用的高级语音设置:
| 设置名称 | 代理 | 流 | 页面 | Fulfillment |
|---|---|---|---|---|
| 模型选择(Speech-to-Text) | ✔ | ✔ | ✔ | |
| 结束语音识别的灵敏度 | ✔ | ✔ | ✔ | |
| 基于高级超时的结束语音识别的灵敏度 | ✔ | ✔ | ✔ | |
| 启用智能端点 | ✔ | |||
| 无语音超时 | ✔ | ✔ | ✔ | |
| 语音打断 | ✔ | ✔ | ✔ | |
| 允许取消只答完一部分的回答的播放 | ✔ | |||
| 音频导出存储桶 | ✔ | ✔ | ||
| DTMF | ✔ | ✔ | ✔ |
模型选择(Speech-to-Text)
可在代理、流和页面级别设置。
设置用于语音识别的语音模型。此设置特定于语言,因此您可以为不同的语言选择不同的模型。 您还可以选中替换请求级语音模型,这样即使运行时 API 调用指定了其他 模型,系统也会使用所选 模型。
对于 Dialogflow CX 电话网关,请参阅 限制。 如需了解详情,请参阅 语音模型。
结束语音识别的灵敏度
可在代理、流和页面级别设置。
控制识别最终用户音频输入中语音结束的灵敏度。该值的范围介于 0(低灵敏度,不太可能结束语音)到 100(高灵敏度,很有可能结束语音)之间。
基于高级超时的结束语音识别的灵敏度
可在代理级别设置,并在流和页面级别停用。
如果启用此设置,则 结束语音识别的灵敏度 设置值将用作衡量标准,以建立相对音频静音超时 从而确定语音结束。如果停用此设置(默认),则 结束语音识别的灵敏度 设置值将用于通过 Speech-to-Text 提供的机器学习模型来确定 Google Cloud 语音结束。
虽然结束语音识别的灵敏度 设置默认仅支持 phone_call
语音模型(适用于 en-US 语言
标记),但启用基于高级超时的结束语音识别的灵敏度
设置允许为 Dialogflow 支持的所有语言和
语音模型配置结束语音识别的灵敏度。
启用智能端点
只能在代理级别设置。
如果启用此设置,Dialogflow CX 将分析部分用户输入以确定语音结束。例如,如果用户说“I would like to”并暂停,Dialogflow CX 将等待用户继续说出句子。
这对于数字参数收集特别有用,用户可能会说“1234”,然后暂停,再说“5678”。如需为特定参数应用此设置 ,您必须在参数的表单中设置 智能端点。
此设置仅适用于 en-US 语言标记,默认处于停用状态。
无语音超时
可在代理、流和页面级别设置。
Dialogflow CX 停止等待最终用户音频输入的持续时间(以秒为单位)。默认值为 5 秒,最大值为 60 秒。对于 此超时,Dialogflow CX 会调用无输入事件。
语音打断
可在代理、流和 fulfillment 级别设置。
启用后,最终用户可以中断 Dialogflow CX 响应音频。中断后,Dialogflow CX 将停止发送音频,并将处理下一个最终用户输入。
如果消息队列中有多个消息, 并且消息被与启用了打断功能的网页、流或代理关联的 fulfillment 加入队列,则队列中的所有后续消息也会 启用打断功能。在这种情况下,集成会停止播放所有启用了打断功能的排入队列的消息的音频。
允许取消只答完一部分的回答的播放
只能在 fulfillment 级别设置。
当您在代理设置 > 语音和 IVR 中选中启用高级语音设置 复选框,并且在 fulfillment 级别启用了只答完一部分的回答时,可以启用此设置。此设置允许取消只答完一部分的回答的播放。
如果 消息队列 中的消息是由允许取消的 fulfillment 创建的,那么如果向队列中添加了另一条消息,则会 取消该消息的播放。如果您希望初始消息开始播放,但如果工作 webhook 在初始消息播放完成之前生成另一条消息,则取消该播放,那么此功能非常有用。
音频导出存储桶
可在代理和流级别设置。
如果提供,则与请求关联的任何音频数据都将保存到 Cloud Storage 存储桶:
| 已保存的音频 | 适用的请求 |
|---|---|
| 最终用户音频输入 | DetectIntent、StreamingDetectIntent、AnalyzeContent、StreamingAnalyzeContent |
| 为响应合成的 Text-to-Speech (TTS) 音频 | AnalyzeContent、StreamingAnalyzeContent |
将 Storage Object Creator 角色授予项目中的以下服务账号:
格式为的服务帐号(如果您使用合作伙伴内置电话集成)。
one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com格式为
service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com的服务帐号(如果您使用Dialogflow CX 电话网关 集成)。如需在 IAM 中查找此服务帐号,请选中包括 Google 提供的角色授权 选项。
DTMF
如需详细了解此功能,请参阅 DTMF(双音多频信号)文档 。