調整の信頼スコアについて

調整(またはクラスタリング)の信頼スコアは、エンティティのクラスタへの割り当ての信頼度を示す指標です。クラスタリング モデルが不確実と判断した予測をフィルタで除外し、残りの確実な結果に基づいて意思決定を行うことができます。

信頼スコアの生成方法

クラスタリングではハード割り当てが生成されます。各エンティティは 1 つのクラスタにのみ割り当てられます。信頼スコアは、ノードが割り当てられたクラスタに属する信頼度を表します。値は [0, 1] の範囲です。

  • 1.0 = エンティティが割り当てられたクラスタに属していることが非常に確実である

  • 0.0 = エンティティが割り当てられたクラスタに属している可能性が非常に低い

任意のエンティティのペア間の類似性/距離の概念があります。クラスタ内のエンティティ ペアは、異なるクラスタにまたがるペアよりも距離が短くなる傾向があります。エンティティがクラスタの他のメンバーから離れるほど、信頼値は低くなります。

他のクラスタも信頼スコアに影響します。エンティティの近くに他のクラスタがある場合、そのクラスタからの距離に応じて信頼度が低下します。

クラスタ密度は、クラスタのすべてのエンティティ ペア間の距離に関連しており、信頼値にも影響します。クラスタから一定の距離にあるエンティティの場合、クラスタ密度が低いと信頼値が高くなり、クラスタ密度が高いと信頼値が低くなります。

調整パイプラインを数百万または数十億のエンティティにスケーリングするために、信頼スコアの計算では、ランダム化されたサンプリング方法を利用して計算の複雑さを制限します。そのため、信頼スコアは 0.1 単位の区間に分類されます。そのため、レビューや人間参加型の判断を行う際に、正確な信頼スコアに依存しないことをおすすめします。

図のキー

次の説明を使用して、図を理解してください。

説明
エンティティ
エンティティのクラスタ。

円で表されたエンティティ クラスタ。クラスタの広がりは円の大きさで表されます。
複数のエンティティ クラスタ。色分け: エンティティとその割り当てられたクラスタは同じ色で表示されます。
場合によっては、単一のエンティティと他のクラスタとの関係に焦点を当てます。他のすべてのエンティティは非表示になります。

d_a: エンティティからクラスタ A の重心までの距離
d_b: エンティティからクラスタ B の重心までの距離
c: エンティティのクラスタ信頼スコア

次の図は、信頼スコアの決定における大まかなコンセプトを視覚化するのに役立つ例です。

状況
エンティティはクラスタ A に割り当てられます。A がエンベディング空間全体で唯一のクラスタである場合、距離に関係なく信頼スコアは常に 1 になります。

A と B は同じ広がりを持つクラスタで、重心はエンティティから等距離にあります。

両方のクラスタがエンティティに同じ影響を与えるため、信頼スコアは 0.5 になります。

近くに他のクラスタが存在すると、エンティティに影響を与え、信頼スコアが低下します。

同じスプレッドのクラスタが 3 つあり、エンティティが 3 つすべてから等距離にある場合、信頼スコアは 0.33 になります。

A と B は同じスプレッドを持つクラスタですが、エンティティは B よりも A に近くなっています。

A はエンティティに大きな影響を与えます。エンティティは A にも割り当てられているため、信頼スコアは 0.5 より大きくなります。

A と B は同じスプレッドを持つクラスタですが、エンティティは A よりも B に近くなっています。

したがって、エンティティに対する A の影響は小さくなります。信頼スコアは 0.5 未満になります。

A は B よりも広がりが大きいが、重心はエンティティから等距離にある。

A はエンティティに大きな影響を与えます。エンティティは A にも割り当てられているため、信頼スコアは 0.5 より大きくなります。