Der Abgleichs- oder Clustering-Konfidenzwert ist ein Messwert für das Konfidenzniveau der Zuordnung einer Einheit zu einem Cluster. Anschließend können Sie Vorhersagen herausfiltern, bei denen das Clustering-Modell unsicher ist, und Entscheidungen auf Grundlage der verbleibenden, zuverlässigen Ergebnisse treffen.
So wird ein Konfidenzwert berechnet
Beim Clustering werden harte Zuweisungen vorgenommen: Jede Einheit wird genau einem Cluster zugewiesen. Der Konfidenzwert beschreibt das Konfidenzniveau, mit dem ein Knoten zu seinem zugewiesenen Cluster gehört. Er liegt zwischen 0 und 1.
1,0 = sehr sicher, dass die Entität zum zugewiesenen Cluster gehört
0,0 = sehr unsicher, ob die Einheit zum zugewiesenen Cluster gehört
Es gibt ein Konzept der Ähnlichkeit/Distanz zwischen zwei beliebigen Einheiten. Entitätspaare innerhalb eines Clusters haben mit höherer Wahrscheinlichkeit geringere Distanzen als Paare, die sich über verschiedene Cluster erstrecken. Je weiter eine Einheit von anderen Mitgliedern ihres Clusters entfernt ist, desto niedriger ist der Vertrauenswert.
Auch andere Cluster wirken sich auf den Konfidenzwert aus. Wenn sich andere Cluster in der Nähe einer Einheit befinden, wird die Konfidenz entsprechend der Entfernungen zu diesen Clustern verringert.
Die Clusterdichte hängt mit den Entfernungen zwischen allen Entitätspaaren des Clusters zusammen und wirkt sich auch auf den Konfidenzwert aus: Für jede Entität in einer festen Entfernung vom Cluster ist der Konfidenzwert hoch, wenn die Clusterdichte niedrig ist, und niedrig, wenn die Clusterdichte hoch ist.
Damit die Abgleichspipeline auf Millionen oder Milliarden von Einheiten skaliert werden kann, werden bei der Berechnung des Konfidenzwerts randomisierte Stichprobenverfahren verwendet, um die Rechenkomplexität zu begrenzen. Daher werden Konfidenzwerte in Intervallen mit einer Größe von 0, 1 zusammengefasst. Daher empfehlen wir, sich bei Entscheidungen zur Überprüfung oder zur Einbeziehung von Menschen nicht auf die genauen Vertrauenswerte zu verlassen.
Diagrammlegende
Anhand der folgenden Beschreibungen können Sie die Diagramme besser nachvollziehen.
| Beschreibung | Diagramm |
|---|---|
| Entität | ![]() |
| Ein Cluster von Entitäten. Entitätscluster, der durch einen Kreis dargestellt wird. Die Streuung des Clusters wird durch die Größe des Kreises dargestellt. |
![]() |
| Mehrere Entitätencluster. Farblich codiert: Eine Entität und ihr zugewiesener Cluster haben dieselbe Farbe. | ![]() |
| In einigen Fällen konzentrieren wir uns auf eine einzelne Einheit und ihre Beziehung zu anderen Clustern. Alle anderen Entitäten werden ausgeblendet. d_a: Entfernung der Entität vom Schwerpunkt von Cluster A d_b: Entfernung der Entität vom Schwerpunkt von Cluster B c: Konfidenzwert für den Cluster der Entität |
![]() |
Beispiele zur Veranschaulichung
Die folgenden Diagramme dienen als Beispiele, um das allgemeine Konzept zur Bestimmung von Konfidenzwerten zu veranschaulichen.
| Situation | Diagramm |
|---|---|
| Die Entität ist Cluster A zugewiesen. Wenn A der einzige Cluster im gesamten Einbettungsraum ist, ist der Vertrauenswert immer 1, unabhängig von der Entfernung zwischen den beiden. | ![]() |
A und B sind Cluster mit derselben Streuung und ihre Schwerpunkte sind gleich weit von der Einheit entfernt. Beide Cluster haben denselben Einfluss auf die Einheit, daher beträgt der Konfidenzwert 0,5. |
![]() |
Wenn sich andere Cluster in der Nähe befinden, wirken sie sich auf die Einheit aus und verringern die Konfidenzbewertung. Wenn es drei Cluster mit identischer Streuung gibt und die Einheit gleich weit von allen drei entfernt ist, beträgt der Konfidenzwert 0, 33. |
![]() |
A und B sind Cluster mit derselben Streuung, aber die Entität liegt näher an A als an B. A hat einen größeren Einfluss auf die Einheit. Da die Einheit auch A zugewiesen ist, ist der Konfidenzwert größer als 0,5. |
![]() |
A und B sind Cluster mit derselben Streuung, aber die Entität liegt näher an B als an A. Der Einfluss von A auf die Einheit wird dadurch verringert. Der Konfidenzwert ist niedriger als 0,5. |
![]() |
A hat eine größere Streuung als B, aber die Schwerpunkte sind gleich weit vom Element entfernt. A hat einen größeren Einfluss auf die Einheit. Da die Einheit auch A zugewiesen ist, ist der Konfidenzwert größer als 0,5. |
![]() |









