请遵循以下最佳实践指南,充分利用主题模型。
微调主题模型
改进主题分配的最佳方法是对模型进行微调。在添加、修改和移除主题时,请遵循以下准则来优化主题模型。
添加或修改主题
请避免添加重复或类似的主题,因为这会影响主题推理的质量。创建或更改主题时,请遵循以下命名和说明准则。
名称
使用简短的描述性主题,字数介于 3 到 6 个字之间,例如遥控器问题排查或结算政策咨询。
避免使用宽泛或抽象的名称,例如促销。
您可以选择遵循以下最佳实践:
使用现成的自定义主题名称,例如结算。
在主题名称中添加简短说明,例如“账单错误和退款”。
根据所需的结果选择合适的模型配置。
示例
某信用卡支持中心对其已归档的支持服务通话记录运行了主题建模。模型会根据对话群组创建一个主题,并将其命名为“信用卡超限查询”。该企业将名称缩短为信用额度查询。
说明
使用一般性说明,然后提供几个示例。
避免包含姓名、日期或地点等个人信息。
过于详细的说明(例如“不包含 X 主题”)可能会对主题推断产生负面影响。
示例
客户正在咨询其固定手机服务。他们可能想要取消订阅或咨询当前结算事宜。
客户在咨询账单事宜。他们可能想知道金额或到期日期。
移除次要主题
部署主题模型并完成分析后,请在已部署主题模型的数据页面中查看主题分布。次要主题可能在部署的结果中占据主导地位,因为它们可能很常见,并且匹配程度更高。如果某个主题与您的抽样对话的匹配比例较高(超过 30%),则该主题很可能是次要主题。请仔细检查这些主题,如果它们不相关,请将其删除。
是否存在无关的次要主题在很大程度上取决于输入数据。如果已部署的数据页面上的所有主要主题的分布相对均匀,并且每个主题仅与一小部分(不到 20%)对话匹配,则可能无需删除次要主题。
训练数据
对于语音数据,Speech-to-Text 输出的质量对于主题模型的性能至关重要。请遵循以下准则来提高训练数据的质量。
对话
避免在数据集中使用重复的对话。
每次对话应至少包含 10 轮,其中 5 轮来自客服人员,5 轮来自客户。
使用遮盖的对话,但要检查 Cloud Data Loss Prevention 的遮盖质量。有时,遮盖会从转写内容中移除重要信息,这可能会影响训练对话的长度。
确保几乎所有对话都使用同一种语言。
发言者角色
确保在提取对话后,对话的发言者角色已正确分配。
准确标记对话轮次是来自客户还是代理。仅包含一个角色的对话不会用于训练。
对人类角色使用
AGENT,对虚拟角色使用AUTOMATED_AGENT。对于客户角色,使用
END_USER或CUSTOMER。