Mengevaluasi hasil dan kualitas

Memahami hasil

Enterprise Knowledge Graph menulis hasil ke tabel BigQuery baru untuk setiap tugas. Ini adalah snapshot data pada saat tugas dijalankan. Secara default, setiap tugas menghasilkan cluster_id acak untuk setiap cluster entitas. Namun, jika Anda ingin menjaga kestabilan ID di antara berbagai eksekusi tugas, gunakan opsi lanjutan previous BigQuery result table.

Periksa tabel hasil

Skema Output

Nama kolom Jenis Deskripsi
cluster_id STRING ID cluster ini adalah ID mesin (MID) grafik pengetahuan pribadi yang ditetapkan ke cluster catatan ini. Dapat digunakan untuk mengidentifikasi catatan dalam set data Anda secara unik. Anda dapat menggunakan Tabel BigQuery sebelumnya di Opsi Lanjutan untuk menjaga agar cluster_id ini tetap stabil dan konsisten di beberapa proses.
source_name STRING Nama sumber yang ditentukan dalam konfigurasi input, untuk membantu Anda menggabungkan set data.
source_key STRING Kunci unik dalam tabel sumber Anda, untuk membantu Anda menggabungkan set data.
keyakinan FLOAT Skor keyakinan yang menentukan seberapa kuat data ini termasuk dalam cluster ini.
assignment_age INTEGER Digunakan secara internal untuk stabilisasi cluster_id (MID) di berbagai tugas.
cloud_kg_mid STRING MID entitas tertaut Google Cloud Knowledge Graph. Anda dapat menggunakan MID ini sebagai ID permanen atau mencari detail tambahan dari Cloud Knowledge Graph API.

Menggunakan SQL untuk menggabungkan set data

Enterprise Knowledge Graph menampilkan entitas yang dikelompokkan menurut ID cluster. Cara paling sederhana untuk melihat hasilnya adalah dengan menggunakan ID cluster untuk "mengelompokkan menurut" hasil Anda. Contoh berikut melakukan pemeriksaan kewarasan cepat dengan menggabungkan tabel output dengan tabel asli.

# get all entity clusters
SELECT distinct (cluster_id) FROM `ekg-test.<dataset>.clusters_9425187210682344597` order by cluster_id LIMIT 1000;
 
# join data with original table
SELECT confidence, RS., SRC. FROM `ekg-test.<dataset>.clusters_9425187210682344597` as RS join `ekg-api-test.demo.organization` as SRC
on RS.source_key = SRC.source_key where cluster_id = "r-02b72jsgrbws18";

Cluster entity ini merepresentasikan dua catatan berbeda yang termasuk dalam cluster yang sama. cluster_id yang sama ini menandakan bahwa kedua catatan ini harus digabungkan.

Menggunakan SQL untuk menggabungkan hasil

Mengukur kesuksesan

Pair-wise

  • Presisi: Rasio entitas berbeda yang salah diidentifikasi sebagai positif palsu serupa (lebih mudah dideteksi dengan pemeriksaan manual).

  • Recall: Rasio entitas serupa yang tidak diidentifikasi sebagai negatif palsu atau lebih sulit dideteksi.

Cluster V-measure

  • Pengukuran V cluster: (1 + beta) * homogenitas * kelengkapan / (beta * homogenitas + kelengkapan) dengan beta=1.

  • Homogenitas Cluster: Rasio cluster yang memiliki entitas yang termasuk dalam entitas yang sama.

  • Kelengkapan Pengelompokan: Rasio cluster yang menempatkan semua entity yang termasuk dalam entity yang sama ke dalam cluster yang sama.