Quality AI 最佳实践

本文档概述了 Google 关于如何以最佳方式使用 Quality AI 的建议。遵循本文档中的准则可确保 Quality AI 为您的业务需求提供尽可能准确且实用的信息。

统计信息摘要图表

通过记分卡，您可以访问客服人员的绩效指标，并获取有关如何回答对话相关问题的详细说明。您必须输入对话数据、问题和可能的答案选项，以及有关如何解读这些答案的说明。为获得最佳结果，请使用 Quality AI 控制台中的统计信息摘要页面上传对话示例。

记分卡提供了一种将问题分组并查看每个分组的单独得分的方法。创建多个记分卡，每个记分卡包含不同的问题，以便根据不同的标准评估对话。然后，您可以查看每个记分卡的质量得分和对话得分，以便根据不同的标准评估客服人员。

对话数据

对话数据是指语音或聊天对话的转录文字，其中已隐去个人身份信息。为每个业务部门或呼叫中心上传至少 2,000 次对话。

您还可以上传语音对话的录音。为获得最佳效果，请按照以下规格录制音频：

两个频道
16,000 Hz 采样率（或 8,000-48,000 Hz）
无损编码：FLAC 或 LINEAR16
WAV 音频文件的无损编码：LINEAR16 或 MULAW

语音通话的录音元数据应包含以下信息：

用于标识客服人员和客户的渠道标签
客服人员 ID、姓名、地点、团队和 CSAT
音频语言，以 BCP-47 语言标记形式表示，例如 en-US

问题

在每个计分卡中，问题和回答说明都为质量 AI 评估对话和客服人员表现提供了有价值的信息。为了尽可能提高自动评估的准确性，请在撰写问题和说明时考虑以下概念：

清晰度：撰写清晰且人类可以理解的问题。
具体性：添加尽可能具体的答案选项和说明。
详细信息：请提供足够详细的说明，以便人工评估人员能够自信可靠地评估对话。
示例：如果您提供真实对话中的示例来阐释每个问题的答案，AI 的回答质量会更高，准确性也会更强。

问题可以采用多种形式。以下是一些有用的问题模板：

“智能体是否执行了…？”（其中包含具体操作）。此格式表示评估者必须寻找代理所说的内容。
“客户是否…？”并指定了具体操作。此格式表示评估者必须查找客户所说的内容。
以“什么”或“为什么”等疑问词开头，有助于评估整个对话。

包含多个答案的问题

用户经常会提出只能回答“是”或“否”的问题。不过，问题可能不适用于对话，因此需要回答 N/A。

或者，在各种情况下，该问题都可以解读为“是”或“否”，这会导致回答不一致，且只有两个选项。如果对话中包含需要其他类型回答的问题，AI 模型就能更深入地理解对话内容。

声学分析

Quality AI 会评估对话转写内容，但无法执行声学分析。排除需要声学分析的问题。例如，无论是人还是 Quality AI，都无法仅通过阅读对话的转写内容来回答“客服人员是否使用了欢快的问候语？”这个问题。

标记

可选标记，用于提供一个较小的类别，将相关问题归为一组。对于单次对话，Quality AI 会计算总体对话得分。您可以使用以下三种标记之一对问题进行分组：业务、客户或合规性。对于每个标记，Quality AI 还会计算一个仅包含应用了该标记的问题的分数。

说明

指令定义了如何解读每个答案；因此，指令必须具体明确，不得留有解读空间。此定义可确保每次对话评估都能提供相同的答案。

格式

简要说明问题目的，然后说明每个可能答案选项的标准。这意味着，您必须明确定义某人在何种情况下会选择每个答案选项。

例如，以下说明适用于“客服人员是否在交叉销售之前解决了客户的主要问题？”这一是非问题。

说明：

此问题的目的是了解客服人员是否在尝试推销其他产品之前解决了客户的主要问题。这有助于提升品牌形象。

如果客服人员解决了主要问题，然后尝试推销，则评分为“是”。示例：“我刚刚更新了您的账号信息。我看到您将智能家居设备标记为损坏。您要订购替换商品吗？”
如果客服人员在解决主要问题之前尝试推销产品，则评分为“否”。示例：“在更新您的账号信息之前，我看到您五年前从我们这里购买了一台笔记本电脑。您想试试我们的新模型吗？”
如果没有销售尝试，则得分为“不适用”。

回答类型

答案类型取决于问题的结构。本部分提供了一些建议，可帮助您开始使用 Gemini，但并未详尽列出所有用途。

是/否

“是/否”是最常见的回答类型，因为您可以快速评估这些问题，并且答案通常比其他回答类型更直观。适合使用“是/否”回答的问题通常以“是否...”开头，询问是否发生了特定操作。这些问题也可以写成判断题。

在对话示例中，系统会将“是”/“否”答案记录为 true 或 false 值，格式如下：

回答“是”的次数为 true。
“否”回答为false。

Numbers 表格

数值答案适用于要求回答某个事物的数量、金额或要求您按比例对某事物进行评分的问题。适合使用这种回答类型的问题通常以“有多少...”开头，“多少…”或“在…范围内”，并要求您确定一个答案。

在对话示例中，数字答案采用以下格式：

40.5 的答案为 40.5。

文本

文本答案需要人工注释者付出最多的工作。适合用文字回答的问题通常以疑问词开头，例如“什么…”或“为什么…”，并且通常需要对整个对话进行评估。文本答案有助于获得更多样化的回答，因此说明必须清楚地解释如何解读问题以及何时分配每个答案选项。

在对话示例中，文本答案采用以下格式：

“已结束”的回答为 "CONCLUDED"。

指定得分

创建题目时，您可以为每个答案选项分配一个数值分数。这些得分表示每个回答选项对于整体对话得分计算的重要性。

答案选项得分的有用范围为 0-10。此范围可提供一定程度的特异性变化，与百分比相当。得分为 0 的答案选项对对话得分计算没有影响。得分为 10 的答案选项对对话得分的影响最大。换句话说，得分为 10 的回答选项比任何得分较低的回答选项更能提高对话得分。得分为 5 的回答选项使对话得分的升幅是得分为 10 的回答选项的一半。

不适用

点击相应复选框，即可在问题不适用于对话时启用 N/A 作为答案选项。如果 Quality AI 选择“不适用”作为答案，则该问题将从对话得分计算中移除。

统计信息摘要图表输入示例

以下示例说明了如何添加有用的得分卡所需的所有信息。每项统计信息摘要都需要以下信息：

有关对话的任何问题。
有关如何解读问题和定义每个答案选项的说明。
回答类型（可以是文本、数字或“是/否”）。
根据答案类型定义可能答案的答案选项（可以是“是”和“否”、数字列表或一些文本回答）。
用于设置每个答案选项所获得的得分。单个问题的最高得分由所有答案选项中的最高得分决定。

您可以添加以下内容来帮助整理得分卡上的问题，但这不是必需的：

用于将问题归入不同类别的标记（可以是业务、客户或合规性）。

示例 1

问题：对话的结果是什么？
标签：客户
说明：任何对话的目标都是达成以下四种可能的结果之一：结束、转接、重定向或升级。
- 已结束的对话是指已成功解决且无需采取任何进一步措施的对话。客户的问题已解决，对话已结束。
- 转接的对话是指需要由其他部门或客服人员处理的对话。客户可能已转接给专家，以便专家更好地帮助他们解决问题。
- 需要由其他渠道处理的对话称为重定向对话。例如，客户可能从手机咨询被重定向到在线聊天会话。
- 升级的对话是指需要经理或主管参与的对话。客户可能因问题严重或对初始客服人员提供的解决方案不满意而升级了支持请求。
回答类型：文本

回答选项得分

已结束 1

已转移 1

已重定向 1

已上报 0

添加“不适用”作为答案选项。如果选中此选项，相应题目将不会计入总分计算。

回答选项	得分
已结束	1
已转移	1
已重定向	1
已上报	0

示例 2

问题：在 0-5 的范围内，智能体与客户之间的沟通效果如何？
标签：业务、合规性、客户
说明：规模和标准
- 0，极差：无法沟通或完全误解。冒犯性、辱骂性或有害的语言。完全缺乏尊重或同理心。
- 1，非常差：存在严重的沟通障碍。频繁打断对方或抢话。只需极少的精力即可理解或建立联系。轻蔑或不尊重的行为。
- 2，较差：存在一些沟通障碍。偶尔出现误解或不清楚的情况。互动或兴趣有限。偶尔出现不尊重或不敏感的情况。
- 3，平均水平：基本沟通能力。需要付出一些努力才能理解和被理解。互动和联系程度适中。总体上尊重他人，但仍有改进空间。
- 4，良好：沟通清晰有效。积极倾听和理解。有意义的互动和联系。表现出相互尊重和同理心。
- 5，优秀：沟通和理解能力非常出色。深度互动和联系。具有强烈的协作意识和互助精神。高度尊重、同情和怜悯。
评估时要考虑的因素：
- 清晰度：沟通是否清晰易懂？
- 理解：参与者是否表现出积极倾听和理解对方的观点？
- 互动度：参与者是否积极参与对话，并对其他人的发言感兴趣？
- 尊重：在整个对话过程中，双方是否表现出相互尊重和体谅？
- 同理心：参与者是否表现出同理心，并理解彼此的感受？
- 协作：参与者是否感受到协作和团队合作，还是感觉彼此在竞争？
- 结果：对话是否实现了预期目标或取得了积极成果？
请注意：背景信息至关重要。考虑对话的情境和目的。在一种情况下可能合适的做法，在另一种情况下可能并不合适。

主观性：评估可能具有主观性。不同的人对同一对话的理解可能会略有不同。

注重改进：将评估作为一种学习和改进工具，而不仅仅是评判或批评的方式。

此框架提供了一个用于评估对话的基本指南，但您可以根据自己的具体需求和目标调整评估标准。
回答类型：数字
回答选项和得分：

回答选项得分

0 0

1 1

2 2

3 3

4 4

5 5

回答选项	得分
0	0
1	1
2	2
3	3
4	4
5	5

添加“不适用”作为答案选项。如果选中此选项，相应题目将不会计入总分计算。

示例 3

问题：客服人员是否以适当的开场白向客户问好？
标签：客户
说明：销售代表（客服人员）应始终以适当的开场白和问候语开始对话。这是与客户建立积极专业的融洽关系的关键一步。开场白应热情友好，营造出让客户感到备受重视和尊重的氛围。客服人员（代理）还应确保问候语适合具体情境和客户的文化背景。通过以适当的开场白和问候语开始对话，销售代表可以给客户留下良好的第一印象，建立融洽的关系，并为与客户成功互动奠定基础。
回答类型：是/否
回答选项和得分：

回答选项得分

“是” 1

“否” 0

回答选项	得分
“是”	1
“否”	0

添加“不适用”作为答案选项。如果选中此选项，相应题目将不会计入总分计算。

添加对话示例

对话示例有助于明确问题解读。校准和自定义 AI 模型需要提供示例对话，并为每个问题分配答案。AI 模型会从真实的对话数据中学习，因此请从客户体验数据分析中的现有对话中提取示例。如果您未提供任何对话示例，Quality AI 将使用基础模型，该模型不知道您的问题的预期答案。

为了提高 AI 模型的性能，请至少包含以下内容：

每个问题 100 个对话示例
每个答案选项 40 个对话示例

如果您为单个问题提供的对话示例少于 100 个，AI 模型将无法学习如何准确评判该特定问题。您的对话示例会存储起来，当数量足够时，模型会开始学习。通过一次对话，您可以教模型如何对多个问题进行评分，并且可以通过添加更多对话示例来进一步提高任何问题的评分准确性。

对于得分卡中的每个问题，请添加对话百分比来表示每个答案选项。以下示例展示了您可能需要包含多少对话，以说明两种可能的答案选项。此特定拆分不是必需的。

如果记分卡上的某个问题是“客服人员是否对客户表现出同理心？”，并且对该问题的回答可以是“是”或“否”，请同时包含以下两项：

问题	可能的回答	对话份额
客服人员是否对客户表现出同理心？	“是”	75%
	“否”	25%

对话格式示例

对话示例至少必须包含每个对话、计分卡和问题的标识符，以及预期答案。您的示例对话还可以包含答案选项、得分和说明。示例对话会作为 FeedbackLabel 资源上传。如需了解如何使用 API 修改示例对话，请参阅设置指南。

CSV

您必须以 CSV 文件格式上传示例对话。CSV 文件的第一行必须是标题，并且该文件必须包含以下类别：

ConversationId
QaScorecardId
QaQuestionId
QaAnswerLabel 或个性化字段，例如 QaAnswerScore 和 QaAnswerValue

Quality AI 可以自动创建一个示例对话模板，其中已填充上述 ID。您可以选择要用于示例对话的评分卡，并过滤模板以仅包含部分对话。如需了解如何创建模板和上传示例对话，请参阅 Quality AI 设置指南。

CSV 示例对话文件可以采用多种格式。例如，是/否答案对应于 true 或 false 值，数字保持不变，而文本答案则用英文引号括起来。这意味着 true 显示为“是/否”回答类型，并且所选的回答选项为“是”。另一方面，"Yes" 显示为文本回答类型，并选择了“是”作为回答选项。以下示例展示了一些可能的 CSV 格式。

单个标头 QaAnswerValue 不会分配得分。

ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue
convo_id,scorecard_test_id,question_id_q3,"NO"
convo_id,scorecard_test_id,question_id_q6,"YES"
convo_id,scorecard_test_id,question_id_q6,true
convo_id,scorecard_test_id,question_id_q6,false
convo_id,scorecard_test_id,question_id_q6,40.5

包含 QaAnswerValue 和 QaAnswerScore 标头。

ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue,QaAnswerScore
convo_id,scorecard_test_id,question_id_q3,"NO",score: 1.0
convo_id,scorecard_test_id,question_id_q6,"YES",score: 1.0

QaAnswerLabel 标头同时包含得分和答案，但两者之间没有用英文逗号分隔。

ConversationId,QaScorecardId,QaQuestionId,QaAnswerLabel
convo_id,scorecard_test_id,question_id_q3,score: 1.0 "NO"
convo_id,scorecard_test_id,question_id_q6,score: 0.5 40.5
convo_id,scorecard_test_id,question_id_q6,na_value:true
convo_id,scorecard_test_id,question_id_q3,true

表

在电子表格中，示例对话的直观格式是一个表格，其中每行包含用于标识单个答案的信息，每列包含单独的标识，如下表所示：

对话 ID	统计信息摘要 ID	问题 ID	答案
44748735396	5727080762913918243	4097398336657302301	`"YES"`
44748735396	5727080762913918243	3576133206121890384	`"NO"`
3495523396	5727080762913918243	4097398336657302301	`"YES"`
3495523396	5727080762913918243	3576133206121890384	`"NO"`

评估对话

人工注释者会使用评分卡问题和说明手动评估对话，并确定示例对话中每个问题的正确答案。当多人评估同一对话时，他们有时会对每个问题给出不同的答案。评估之间存在这种不一致性，会给机器学习过程带来噪声和混淆。在对话中，如果同一问题或类似问题关联了多个不同的答案，质量 AI 就无法学习问题与答案之间的映射关系。

如果多人针对同一对话回答相同的问题，以下任何情况都可能导致回答不一致：

导致注释者之间出现不同解读的主观问题。
细节不足或准则不明确的评分标准。
问题、答案选项或说明的不同版本，例如：
- 您可以先仅使用“是”/“否”答案选项，然后再改为更精细的方法，使用“否-a”“否-b”和“否-c”选项。
- 不过，将“是/否”方法与“无 A”“无 B”和“无 C”选项结合使用会使模型感到困惑。
需要较高认知负荷的评估任务。

衡量一致性

为了衡量示例对话的一致性，请让多位注释者独立评估同一对话。然后，使用 Cohen's kappa 系数计算它们之间的一致性。您希望看到 Cohen's kappa 系数不低于 0.2。如果一致性较低，请尝试以下方法之一：

优化问题和说明，尽量减少解读空间。
在注释者之间进行沟通，以便他们解决差异并就统一的评分标准达成一致。
持续监控注释者之间的一致性。
为回答经常与评分标准不同的注释者提供额外培训。