Comprendre le score de confiance de la réconciliation

Le score de confiance de la réconciliation (ou du clustering) est une métrique qui indique le niveau de confiance de l'attribution d'une entité à un cluster. Vous pouvez ensuite filtrer les prédictions pour lesquelles le modèle de clustering est incertain et prendre des décisions en fonction des résultats restants, qui sont fiables.

Comment un score de confiance est-il généré ?

Le clustering produit des affectations strictes : chaque entité est affectée à un seul cluster. Le score de confiance décrit le niveau de confiance qu'un nœud appartient à son cluster attribué. Il est compris entre 0 et 1.

  • 1.0 = très certain que l'entité appartient à son cluster attribué

  • 0,0 = l'entité appartient très probablement à son cluster attribué

Il existe une notion de similarité/distance entre chaque paire d'entités. Les paires d'entités d'un même cluster sont plus susceptibles d'avoir des distances plus faibles que les paires qui s'étendent sur différents clusters. Plus une entité est éloignée des autres membres de son cluster, plus la niveau de confiance est faible.

D'autres clusters ont également une incidence sur le score de confiance. Si d'autres clusters sont proches d'une entité, sa confiance est réduite en fonction des distances par rapport à ces clusters.

La densité du cluster est liée aux distances entre toutes les paires d'entités du cluster et a également un effet sur la niveau de confiance : pour toute entité à une distance fixe du cluster, la niveau de confiance est élevée si la densité du cluster est faible, et la confiance est faible si la densité du cluster est élevée.

Pour que le pipeline de rapprochement puisse s'adapter à des millions ou des milliards d'entités, le calcul du score de confiance exploite des méthodes d'échantillonnage aléatoire afin de limiter la complexité de calcul. Par conséquent, les scores de confiance sont répartis dans des intervalles de taille 0,1. Par conséquent, nous vous recommandons de ne pas vous fier aux valeurs de confiance exactes pour prendre des décisions d'examen ou d'intervention humaine.

Légende du diagramme

Utilisez les descriptions suivantes pour comprendre les schémas.

Description Diagramme
Entité
Un cluster d'entités.

 Cluster d'entités représenté par un cercle. La taille du cercle représente la dispersion du cluster.
Plusieurs clusters d'entités. Code couleur : une entité et son cluster attribué partagent la même couleur.
Dans certains cas, nous nous concentrons sur une seule entité et sa relation avec d'autres clusters. Toutes les autres entités sont masquées.

d_a : distance entre l'entité et le centroïde du cluster A
d_b : distance entre l'entité et le centroïde du cluster B
c : score de confiance du cluster de l'entité

Exemples illustrés

Les schémas suivants servent d'exemples pour vous aider à visualiser le concept général de détermination des scores de confiance.

Situation Diagramme
L'entité est attribuée au cluster A. Si A est le seul cluster dans l'espace d'intégration entier, le score de confiance sera toujours de 1, quelle que soit la distance entre eux.

A et B sont des clusters qui ont la même dispersion, et leurs centroïdes sont à égale distance de l'entité.

Les deux clusters ont la même influence sur l'entité.Le score de confiance est donc de 0, 5.

La présence d'autres clusters à proximité aura une influence sur l'entité et diluera le score de confiance.

Si l'entité est à égale distance de trois clusters de dispersion identique, le score de confiance est de 0, 33.

A et B sont des clusters qui ont la même dispersion, mais l'entité est plus proche de A que de B.

A a une plus grande influence sur l'entité. Comme l'entité est également attribuée à A, le score de confiance sera supérieur à 0,5.

A et B sont des clusters qui ont la même dispersion, mais l'entité est plus proche de B que de A.

L'influence de A sur l'entité est donc réduite. Le score de confiance sera inférieur à 0,5.

A a une plus grande dispersion que B, mais leurs centroïdes sont à égale distance de l'entité.

A a une plus grande influence sur l'entité. Comme l'entité est également attribuée à A, le score de confiance sera supérieur à 0,5.