了解对账置信度分数

调解(或聚类)置信度得分是衡量实体分配到聚类的置信度水平的指标。然后,您可以过滤掉聚类模型不太确定的预测,并根据剩余的可靠结果做出决策。

置信度分数是如何生成的

聚类会生成硬分配:每个实体都分配给一个且仅一个聚类。置信度得分用于描述节点属于其分配到的聚类的置信度,取值范围为 [0, 1]。

  • 1.0 = 非常确定实体属于其分配的聚类

  • 0.0 = 实体属于其分配的聚类的可能性非常低

任意一对实体之间都有相似度/距离的概念。与跨不同集群的实体对相比,同一集群内的实体对的距离往往更小。实体与其他聚类成员的距离越远,置信度值就越低。

其他聚类也会影响置信度得分。如果实体附近有其他聚类,则其置信度会根据与这些聚类的距离而降低。

聚类密度与聚类的所有实体对之间的距离有关,也会影响置信度值:对于与聚类距离固定的任何实体,如果聚类密度较低,置信度值较高;如果聚类密度较高,置信度值较低。

为了使协调流水线能够扩缩到数百万或数十亿个实体,置信度得分计算会利用随机抽样方法来限制计算复杂性。因此,置信度得分会归入 0.1 大小的区间。因此,我们建议您不要依赖确切的置信度值来做出审核或人机协同决策。

图表键

请参阅以下说明来了解这些图表。

说明 图示
实体
实体集群。

以圆圈表示的实体聚类。聚类分布由圆圈的大小表示。
多个实体集群。颜色编码:实体及其分配到的聚类共享相同的颜色。
在某些情况下,我们会重点关注单个实体及其与其他集群的关系。所有其他实体都会从视图中隐藏。

d_a:实体到聚类 A 形心的距离
d_b:实体到聚类 B 形心的距离
c:实体的聚类置信度得分

示例图

以下图表用作示例,可帮助您直观了解确定置信度得分的总体概念。

情况 图示
实体已分配给集群 A。如果 A 是整个嵌入空间中唯一的聚类,则无论它们之间的距离如何,置信度得分始终为 1。

A 和 B 是具有相同离散度的聚类,它们的形心与实体的距离相等。

这两个聚类对实体的影响相同,因此置信度得分为 0.5。

附近其他聚类的存在会对实体产生影响,并降低置信度得分。

如果有三个分布完全相同的聚类,并且实体与这三个聚类的距离相等,则置信度得分为 0.33。

A 和 B 是具有相同离散度的聚类,但实体更接近 A 而不是 B。

A 对实体的影响更大。由于实体也分配给了 A,因此置信度得分将大于 0.5。

A 和 B 是分布相同的聚类,但实体更接近 B 而不是 A。

因此,A 对实体的影响会降低。置信度得分将低于 0.5。

A 的离散程度大于 B,但它们的形心与实体的距离相等。

A 对实体的影响更大。由于该实体也分配给了 A,因此置信度得分将大于 0.5。