瞭解對帳可信度分數

對帳 (或叢集) 信心分數是將實體指派給叢集的信心水準指標。接著,您可以篩除叢集模型不確定的預測結果,並根據其餘有把握的結果做出決策。

可信度分數的產生方式

叢集會產生硬性指派:每個實體都只會指派給一個叢集。信賴分數介於 [0, 1] 之間,用來描述節點屬於所指派叢集的信賴水準。

  • 1.0 = 非常確定實體屬於其指派的叢集

  • 0.0 = 實體屬於所指派叢集的可能性極低

任何一對實體之間都有相似度/距離的概念。叢集內的實體配對距離較短,跨叢集的配對距離則較長。實體與叢集其他成員的距離越遠,信賴度值就越低。

其他叢集也會影響信賴度分數。如果實體附近有其他叢集,系統會根據與這些叢集的距離降低實體的信賴度。

叢集密度與叢集中所有實體配對之間的距離有關,也會影響信賴度值:對於與叢集距離固定的任何實體,如果叢集密度較低,信賴度值就會較高;如果叢集密度較高,信賴度值就會較低。

為了將對帳管道擴充至數百萬或數十億個實體,信心分數計算會運用隨機取樣方法,限制運算複雜度。因此,信心分數會分組到 0.1 大小的間隔中。因此,建議您不要依據確切的可信度值做出審查或人機迴圈決策。

圖表鍵

請參閱下列說明,瞭解圖表內容。

說明 圖表
實體
實體叢集。

以圓圈表示的實體叢集。圓圈大小代表叢集擴散程度。
多個實體叢集。顏色編碼:實體及其指派的叢集共用相同顏色。
在某些情況下,我們會著重於單一實體及其與其他叢集的關係。其他所有實體都會隱藏。

d_a:實體到叢集 A 重心的距離
d_b:實體到叢集 B 重心的距離
c:實體的叢集信賴分數

圖示範例

以下圖表提供範例,協助您瞭解決定信賴分數的高階概念。

情境 圖表
實體會指派給叢集 A。如果 A 是整個嵌入空間中唯一的叢集,則無論兩者之間的距離為何,信賴分數一律為 1。

A 和 B 是擴散程度相同的叢集,且其質心與實體的距離相等。

這兩個叢集對實體具有相同影響力,因此信賴分數為 0.5。

附近其他叢集的存在會對實體產生影響,並稀釋信賴度分數。

如果有三個相同價差的叢集,且實體與這三個叢集的距離相等,則信賴分數為 0.33。

A 和 B 是擴散範圍相同的叢集,但實體與 A 的距離比與 B 更近。

A 對實體的影響力較大。由於實體也指派給 A,因此可信度分數會大於 0.5。

A 和 B 是擴散範圍相同的叢集,但實體與 B 的距離比 A 更近。

因此 A 對實體的影響力會降低。可信度分數會低於 0.5。

A 的分布範圍大於 B,但兩者的質心與實體的距離相等。

A 對實體的影響力較大。由於實體也指派給 A,因此可信度分數會大於 0.5。