Memahami skor keyakinan rekonsiliasi

Skor keyakinan rekonsiliasi (atau pengelompokan) adalah metrik untuk tingkat keyakinan penetapan entitas ke cluster. Kemudian, Anda dapat memfilter prediksi yang tidak pasti dari model pengelompokan dan membuat keputusan berdasarkan hasil yang tersisa dan pasti.

Cara skor keyakinan dihasilkan

Pengelompokan menghasilkan penetapan yang pasti: setiap entitas ditetapkan ke tepat satu kelompok. Skor keyakinan menjelaskan tingkat keyakinan bahwa sebuah node termasuk dalam cluster yang ditetapkan, dengan nilai antara [0, 1].

  • 1,0 = sangat yakin bahwa entity termasuk dalam cluster yang ditetapkan

  • 0,0 = sangat tidak pasti entitas termasuk dalam cluster yang ditetapkan

Ada gagasan tentang kesamaan/jarak antara pasangan entitas apa pun. Pasangan entitas dalam satu cluster cenderung memiliki jarak yang lebih rendah daripada pasangan yang mencakup cluster yang berbeda. Makin jauh jarak suatu entitas dari anggota cluster lainnya, makin rendah nilai keyakinannya.

Cluster lain juga memengaruhi skor keyakinan. Jika ada cluster lain yang dekat dengan suatu entitas, tingkat keyakinannya akan berkurang sesuai dengan jarak dari cluster tersebut.

Kepadatan cluster terkait dengan jarak antara semua pasangan entity dalam cluster, dan juga memengaruhi nilai keyakinan: untuk entity apa pun pada jarak tetap dari cluster, nilai keyakinan tinggi jika kepadatan cluster rendah; dan keyakinan rendah jika kepadatan cluster tinggi.

Agar pipeline rekonsiliasi dapat diskalakan ke jutaan atau miliaran entitas, penghitungan skor keyakinan memanfaatkan metode pengambilan sampel acak untuk membatasi kompleksitas komputasi. Dengan demikian, skor keyakinan dikelompokkan ke dalam interval berukuran 0,1. Oleh karena itu, sebaiknya Anda tidak bergantung pada nilai keyakinan yang tepat untuk membuat keputusan peninjauan atau human-in-the-loop.

Keterangan Diagram

Gunakan deskripsi berikut untuk memahami diagram.

Deskripsi Diagram
Entity
Grup entitas.

Cluster entitas yang digambarkan oleh lingkaran. Penyebaran cluster diwakili oleh ukuran lingkaran.
Cluster multi-entitas. Berkode warna: entity dan cluster yang ditetapkan memiliki warna yang sama.
Dalam beberapa kasus, kami berfokus pada satu entitas dan hubungannya dengan klaster lain. Semua entitas lainnya disembunyikan dari tampilan.

d_a: Jarak dari entitas ke sentroid cluster A
d_b: Jarak dari entitas ke sentroid cluster B
c: skor keyakinan cluster entitas

Contoh ilustrasi

Diagram berikut berfungsi sebagai contoh untuk membantu Anda memvisualisasikan konsep tingkat tinggi dalam menentukan skor keyakinan.

Situasi Diagram
Entity ditetapkan ke cluster A. Jika A adalah satu-satunya cluster dalam seluruh ruang penyematan, skor keyakinan akan selalu 1, terlepas dari jarak di antara keduanya.

A dan B adalah cluster yang memiliki penyebaran yang sama, dan sentroidnya berjarak sama dari entitas.

Kedua cluster memiliki pengaruh yang sama pada entitas, sehingga skor keyakinannya adalah 0,5.

Kehadiran cluster lain di sekitar akan memengaruhi entitas dan mengurangi skor keyakinan.

Jika ada tiga cluster dengan sebaran yang identik, dan entitas berjarak sama dari ketiganya, maka skor keyakinan adalah 0,33.

A dan B adalah cluster yang memiliki penyebaran yang sama, tetapi entitas lebih dekat ke A daripada ke B.

A memiliki pengaruh yang lebih besar pada entitas. Karena entitas juga ditetapkan ke A, skor keyakinan akan lebih besar dari 0,5.

A dan B adalah cluster yang memiliki penyebaran yang sama, tetapi entity lebih dekat ke B daripada ke A.

Dengan demikian, pengaruh A pada entitas akan berkurang. Skor keyakinan akan lebih rendah dari 0,5.

A memiliki rentang yang lebih besar daripada B, tetapi sentroidnya berjarak sama dari entitas.

A memiliki pengaruh yang lebih besar pada entitas. Karena entitas juga ditetapkan ke A, skor keyakinan akan lebih besar dari 0,5.