La puntuación de confianza de la reconciliación (o agrupamiento) es una métrica para el nivel de confianza de la asignación de una entidad a un clúster. Luego, puedes filtrar las predicciones sobre las que el modelo de agrupamiento no tiene certeza y tomar decisiones basadas en los resultados restantes y confiables.
Cómo se genera una puntuación de confianza
El agrupamiento produce asignaciones rígidas: cada entidad se asigna a exactamente un clúster. La puntuación de confianza describe el nivel de confianza de que un nodo pertenece a su clúster asignado, con un valor entre [0, 1].
1.0 = mucha certeza de que la entidad pertenece a su clúster asignado
0.0 = Muy incierto de que la entidad pertenezca a su clúster asignado
Existe una noción de similitud o distancia entre cualquier par de entidades. Es más probable que los pares de entidades dentro de un clúster tengan distancias más bajas que los pares que abarcan diferentes clústeres. Cuanto más lejos esté una entidad de otros miembros de su clúster, menor será el valor de confianza.
Otros clústeres también influyen en la puntuación de confianza. Si hay otros clústeres cerca de una entidad, su confianza disminuye según las distancias de esos clústeres.
La densidad del clúster se relaciona con las distancias entre todos los pares de entidades del clúster y también afecta el valor de confianza: para cualquier entidad a una distancia fija del clúster, el valor de confianza es alto si la densidad del clúster es baja, y la confianza es baja si la densidad del clúster es alta.
Para que la canalización de conciliación se escale a millones o miles de millones de entidades, el cálculo de la puntuación de confianza aprovecha los métodos de muestreo aleatorio para limitar la complejidad computacional. Por lo tanto, las puntuaciones de confianza se agrupan en intervalos de 0.1. Por lo tanto, te recomendamos que no dependas de los valores de confianza exactos para tomar decisiones de revisión o de interacción humana.
Clave del diagrama
Usa las siguientes descripciones para comprender los diagramas.
| Descripción | Diagrama |
|---|---|
| Entidad | ![]() |
| Es un clúster de entidades. Clúster de entidades representado por un círculo. La dispersión del clúster se representa con el tamaño del círculo. |
![]() |
| Son varios clústeres de entidades. Codificados por color: Una entidad y su clúster asignado comparten el mismo color. | ![]() |
| En algunos casos, nos enfocamos en una sola entidad y su relación con otros clústeres. Todas las demás entidades están ocultas. d_a: Distancia de la entidad al centroide del clúster A d_b: Distancia de la entidad al centroide del clúster B c: Puntuación de confianza del clúster de la entidad |
![]() |
Ejemplos ilustrados
Los siguientes diagramas sirven como ejemplos para ayudarte a visualizar el concepto general para determinar las puntuaciones de confianza.
| Situación | Diagrama |
|---|---|
| La entidad se asigna al clúster A. Si A es el único clúster en todo el espacio de incorporación, la puntuación de confianza siempre será 1, independientemente de la distancia entre ellos. | ![]() |
A y B son clústeres que tienen la misma dispersión, y sus centroides están a la misma distancia de la entidad. Ambos clústeres tienen la misma influencia en la entidad, por lo que la puntuación de confianza es 0.5. |
![]() |
La presencia de otros clústeres cercanos ejercerá su influencia en la entidad y diluirá la puntuación de confianza. Si hay tres clústeres de propagación idéntica y la entidad está a la misma distancia de los tres, la puntuación de confianza es 0.33. |
![]() |
A y B son clústeres que tienen la misma dispersión, pero la entidad está más cerca de A que de B. A tiene una mayor influencia en la entidad. Como la entidad también se asigna a A, la puntuación de confianza será mayor que 0.5. |
![]() |
A y B son clústeres que tienen la misma dispersión, pero la entidad está más cerca de B que de A. Por lo tanto, se reduce la influencia de A en la entidad. La puntuación de confianza será inferior a 0.5. |
![]() |
A tiene una dispersión mayor que B, pero sus centroides están a la misma distancia de la entidad. A tiene una mayor influencia en la entidad. Como la entidad también se asigna a A, la puntuación de confianza será mayor que 0.5. |
![]() |









