Informazioni sul punteggio di confidenza della riconciliazione

Il punteggio di confidenza della riconciliazione (o del clustering) è una metrica per il livello di confidenza dell'assegnazione di un'entità a un cluster. Puoi quindi filtrare le previsioni su cui il modello di clustering non è sicuro e prendere decisioni in base ai risultati rimanenti e affidabili.

Come viene generato un punteggio di affidabilità

Il clustering produce assegnazioni rigide: ogni entità viene assegnata a un solo cluster. Il punteggio di confidenza descrive il livello di confidenza che un nodo appartiene al cluster assegnato, con un valore compreso tra [0, 1].

  • 1.0 = certezza assoluta che l'entità appartenga al cluster assegnato

  • 0.0 = è molto incerto che l'entità appartenga al cluster assegnato

Esiste una nozione di similarità/distanza tra qualsiasi coppia di entità. È più probabile che le coppie di entità all'interno di un cluster abbiano distanze inferiori rispetto alle coppie che si estendono su cluster diversi. Più un'entità è lontana dagli altri membri del cluster, più basso è il valore di affidabilità.

Anche altri cluster influenzano il punteggio di confidenza. Se ci sono altri cluster vicini a un'entità, la sua affidabilità diminuisce in base alle distanze da questi cluster.

La densità del cluster è correlata alle distanze tra tutte le coppie di entità del cluster e influisce anche sul valore di affidabilità: per qualsiasi entità a una distanza fissa dal cluster, il valore di affidabilità è elevato se la densità del cluster è bassa e basso se la densità del cluster è elevata.

Affinché la pipeline di riconciliazione possa essere scalata a milioni o miliardi di entità, il calcolo del punteggio di confidenza sfrutta metodi di campionamento casuale per limitare la complessità computazionale. Pertanto, i punteggi di confidenza vengono suddivisi in intervalli di 0,1. Di conseguenza, ti consigliamo di non basarti sui valori di confidenza esatti per prendere decisioni di revisione o human-in-the-loop.

Chiave del diagramma

Utilizza le seguenti descrizioni per comprendere i diagrammi.

Descrizione Diagramma
Entità
Un cluster di entità.

Cluster di entità rappresentato da un cerchio. La dispersione del cluster è rappresentata dalle dimensioni del cerchio.
Più cluster di entità. Codifica a colori: un'entità e il relativo cluster assegnato condividono lo stesso colore.
In alcuni casi ci concentriamo su una singola entità e sulla sua relazione con altri cluster. Tutte le altre entità sono nascoste.

d_a: Distanza dall'entità al centroide del cluster A
d_b: Distanza dall'entità al centroide del cluster B
c: Punteggio di confidenza del cluster dell'entità

Esempi illustrati

I seguenti diagrammi servono da esempi per aiutarti a visualizzare il concetto generale per determinare i punteggi di confidenza.

Situazione Diagramma
L'entità è assegnata al cluster A. Se A è l'unico cluster nell'intero spazio di incorporamento, il punteggio di confidenza sarà sempre 1, indipendentemente dalla distanza tra i cluster.

A e B sono cluster che hanno la stessa dispersione e i cui centroidi sono equidistanti dall'entità.

Entrambi i cluster hanno la stessa influenza sull'entità, quindi il punteggio di confidenza è 0,5.

La presenza di altri cluster nelle vicinanze eserciterà la propria influenza sull'entità e diluirà il punteggio di confidenza.

Se ci sono tre cluster di diffusione identici e l'entità è equidistante da tutti e tre, il punteggio di confidenza è 0, 33.

A e B sono cluster con la stessa dispersione, ma l'entità è più vicina ad A che a B.

A ha un'influenza maggiore sull'entità. Poiché l'entità è assegnata anche ad A, il punteggio di confidenza sarà maggiore di 0,5.

A e B sono cluster con la stessa dispersione, ma l'entità è più vicina a B che ad A.

L'influenza di A sull'entità viene quindi ridotta. Il punteggio di affidabilità sarà inferiore a 0,5.

A ha una dispersione maggiore di B, ma i loro centroidi sono equidistanti dall'entità.

A ha un'influenza maggiore sull'entità. Poiché l'entità è assegnata anche ad A, il punteggio di confidenza sarà maggiore di 0,5.