Il punteggio di confidenza della riconciliazione (o del clustering) è una metrica per il livello di confidenza dell'assegnazione di un'entità a un cluster. Puoi quindi filtrare le previsioni su cui il modello di clustering non è sicuro e prendere decisioni in base ai risultati rimanenti e affidabili.
Come viene generato un punteggio di affidabilità
Il clustering produce assegnazioni rigide: ogni entità viene assegnata a un solo cluster. Il punteggio di confidenza descrive il livello di confidenza che un nodo appartiene al cluster assegnato, con un valore compreso tra [0, 1].
1.0 = certezza assoluta che l'entità appartenga al cluster assegnato
0.0 = è molto incerto che l'entità appartenga al cluster assegnato
Esiste una nozione di similarità/distanza tra qualsiasi coppia di entità. È più probabile che le coppie di entità all'interno di un cluster abbiano distanze inferiori rispetto alle coppie che si estendono su cluster diversi. Più un'entità è lontana dagli altri membri del cluster, più basso è il valore di affidabilità.
Anche altri cluster influenzano il punteggio di confidenza. Se ci sono altri cluster vicini a un'entità, la sua affidabilità diminuisce in base alle distanze da questi cluster.
La densità del cluster è correlata alle distanze tra tutte le coppie di entità del cluster e influisce anche sul valore di affidabilità: per qualsiasi entità a una distanza fissa dal cluster, il valore di affidabilità è elevato se la densità del cluster è bassa e basso se la densità del cluster è elevata.
Affinché la pipeline di riconciliazione possa essere scalata a milioni o miliardi di entità, il calcolo del punteggio di confidenza sfrutta metodi di campionamento casuale per limitare la complessità computazionale. Pertanto, i punteggi di confidenza vengono suddivisi in intervalli di 0,1. Di conseguenza, ti consigliamo di non basarti sui valori di confidenza esatti per prendere decisioni di revisione o human-in-the-loop.
Chiave del diagramma
Utilizza le seguenti descrizioni per comprendere i diagrammi.
| Descrizione | Diagramma |
|---|---|
| Entità | ![]() |
| Un cluster di entità. Cluster di entità rappresentato da un cerchio. La dispersione del cluster è rappresentata dalle dimensioni del cerchio. |
![]() |
| Più cluster di entità. Codifica a colori: un'entità e il relativo cluster assegnato condividono lo stesso colore. | ![]() |
| In alcuni casi ci concentriamo su una singola entità e sulla sua relazione con altri cluster. Tutte le altre entità sono nascoste. d_a: Distanza dall'entità al centroide del cluster A d_b: Distanza dall'entità al centroide del cluster B c: Punteggio di confidenza del cluster dell'entità |
![]() |
Esempi illustrati
I seguenti diagrammi servono da esempi per aiutarti a visualizzare il concetto generale per determinare i punteggi di confidenza.
| Situazione | Diagramma |
|---|---|
| L'entità è assegnata al cluster A. Se A è l'unico cluster nell'intero spazio di incorporamento, il punteggio di confidenza sarà sempre 1, indipendentemente dalla distanza tra i cluster. | ![]() |
A e B sono cluster che hanno la stessa dispersione e i cui centroidi sono equidistanti dall'entità. Entrambi i cluster hanno la stessa influenza sull'entità, quindi il punteggio di confidenza è 0,5. |
![]() |
La presenza di altri cluster nelle vicinanze eserciterà la propria influenza sull'entità e diluirà il punteggio di confidenza. Se ci sono tre cluster di diffusione identici e l'entità è equidistante da tutti e tre, il punteggio di confidenza è 0, 33. |
![]() |
A e B sono cluster con la stessa dispersione, ma l'entità è più vicina ad A che a B. A ha un'influenza maggiore sull'entità. Poiché l'entità è assegnata anche ad A, il punteggio di confidenza sarà maggiore di 0,5. |
![]() |
A e B sono cluster con la stessa dispersione, ma l'entità è più vicina a B che ad A. L'influenza di A sull'entità viene quindi ridotta. Il punteggio di affidabilità sarà inferiore a 0,5. |
![]() |
A ha una dispersione maggiore di B, ma i loro centroidi sono equidistanti dall'entità. A ha un'influenza maggiore sull'entità. Poiché l'entità è assegnata anche ad A, il punteggio di confidenza sarà maggiore di 0,5. |
![]() |









