A pontuação de confiança da reconciliação (ou clustering) é uma métrica do nível de confiança da atribuição de uma entidade a um cluster. Em seguida, é possível filtrar as previsões sobre as quais o modelo de clusterização tem dúvidas e tomar decisões com base nos resultados restantes e confiáveis.
Como uma pontuação de confiança é produzida
O agrupamento gera atribuições fixas: cada entidade é atribuída a exatamente um cluster. A pontuação de confiança descreve o nível de confiança de que um nó pertence ao cluster atribuído, com valor entre [0, 1].
1.0 = muito certo de que a entidade pertence ao cluster atribuído
0,0 = muito incerto que a entidade pertence ao cluster atribuído
Há uma noção de similaridade/distância entre qualquer par de entidades. É mais provável que pares de entidades em um cluster tenham distâncias menores do que pares que abrangem clusters diferentes. Quanto mais distante uma entidade estiver de outros membros do cluster, menor será o valor de confiança.
Outros clusters também influenciam a pontuação de confiança. Se houver outros clusters próximos a uma entidade, a confiança será reduzida de acordo com as distâncias desses clusters.
A densidade do cluster está relacionada às distâncias entre todos os pares de entidades do cluster e também afeta o valor de confiança: para qualquer entidade a uma distância fixa do cluster, o valor de confiança é alto se a densidade do cluster for baixa e baixo se a densidade do cluster for alta.
Para que o pipeline de conciliação seja escalonado para milhões ou bilhões de entidades, o cálculo da pontuação de confiança usa métodos de amostragem aleatória para limitar a complexidade computacional. Por isso, as pontuações de confiança são divididas em intervalos de 0,1. Por isso, recomendamos que você não dependa dos valores exatos de confiança para tomar decisões de revisão ou human-in-the-loop.
Legenda do diagrama
Use as descrições a seguir para entender os diagramas.
| Descrição | Diagrama |
|---|---|
| Entidade | ![]() |
| Um cluster de entidades. Cluster de entidades representado por um círculo. A dispersão do cluster é representada pelo tamanho do círculo. |
![]() |
| Vários clusters de entidades. Codificado por cores: uma entidade e o cluster atribuído compartilham a mesma cor. | ![]() |
| Em alguns casos, focamos em uma única entidade e na relação dela com outros clusters. Todas as outras entidades ficam ocultas. d_a: distância da entidade ao centroide do cluster A d_b: distância da entidade ao centroide do cluster B c: pontuação de confiança do cluster da entidade |
![]() |
Exemplos ilustrados
Os diagramas a seguir servem como exemplos para ajudar você a visualizar o conceito de alto nível na determinação das pontuações de confiança.
| Situação | Diagrama |
|---|---|
| A entidade é atribuída ao cluster A. Se A for o único cluster em todo o espaço de incorporação, a pontuação de confiança será sempre 1, independente da distância entre eles. | ![]() |
A e B são clusters com a mesma dispersão, e os centroides estão igualmente distantes da entidade. Os dois clusters têm a mesma influência na entidade, então a pontuação de confiança é 0,5. |
![]() |
A presença de outros clusters próximos vai influenciar a entidade e diluir a pontuação de confiança. Se houver três clusters de dispersão idêntica e a entidade estiver igualmente distante dos três, a pontuação de confiança será 0, 33. |
![]() |
A e B são clusters com a mesma dispersão, mas a entidade está mais próxima de A do que de B. A tem uma influência maior na entidade. Como a entidade também é atribuída a A, a pontuação de confiança será maior que 0,5. |
![]() |
A e B são clusters com a mesma dispersão, mas a entidade está mais próxima de B do que de A. Assim, a influência de A na entidade é reduzida. A pontuação de confiança será menor que 0,5. |
![]() |
A tem uma dispersão maior que B, mas os centroides estão igualmente distantes da entidade. A tem uma influência maior na entidade. Como a entidade também é atribuída a A, a pontuação de confiança será maior que 0,5. |
![]() |









