Memahami hasil
Enterprise Knowledge Graph menulis hasil ke tabel BigQuery baru untuk setiap tugas. Ini adalah snapshot data pada saat tugas dijalankan. Secara default, setiap tugas menghasilkan cluster_id acak untuk setiap cluster entitas. Namun, jika Anda ingin menjaga kestabilan ID di antara berbagai eksekusi tugas, gunakan opsi lanjutan previous BigQuery result table.

Skema Output
| Nama kolom | Jenis | Deskripsi |
|---|---|---|
| cluster_id | STRING | ID cluster ini adalah ID mesin (MID) grafik pengetahuan pribadi yang ditetapkan ke cluster catatan ini. Dapat digunakan untuk mengidentifikasi catatan dalam set data Anda secara unik. Anda dapat menggunakan Tabel BigQuery sebelumnya di Opsi Lanjutan untuk menjaga agar cluster_id ini tetap stabil dan konsisten di beberapa proses. |
| source_name | STRING | Nama sumber yang ditentukan dalam konfigurasi input, untuk membantu Anda menggabungkan set data. |
| source_key | STRING | Kunci unik dalam tabel sumber Anda, untuk membantu Anda menggabungkan set data. |
| keyakinan | FLOAT | Skor keyakinan yang menentukan seberapa kuat data ini termasuk dalam cluster ini. |
| assignment_age | INTEGER | Digunakan secara internal untuk stabilisasi cluster_id (MID) di berbagai tugas. |
| cloud_kg_mid | STRING | MID entitas tertaut Google Cloud Knowledge Graph. Anda dapat menggunakan MID ini sebagai ID permanen atau mencari detail tambahan dari Cloud Knowledge Graph API. |
Menggunakan SQL untuk menggabungkan set data
Enterprise Knowledge Graph menampilkan entitas yang dikelompokkan menurut ID cluster. Cara paling sederhana untuk melihat hasilnya adalah dengan menggunakan ID cluster untuk "mengelompokkan menurut" hasil Anda. Contoh berikut melakukan pemeriksaan kewarasan cepat dengan menggabungkan tabel output dengan tabel asli.
# get all entity clusters
SELECT distinct (cluster_id) FROM `ekg-test.<dataset>.clusters_9425187210682344597` order by cluster_id LIMIT 1000;
# join data with original table
SELECT confidence, RS., SRC. FROM `ekg-test.<dataset>.clusters_9425187210682344597` as RS join `ekg-api-test.demo.organization` as SRC
on RS.source_key = SRC.source_key where cluster_id = "r-02b72jsgrbws18";
Cluster entity ini merepresentasikan dua catatan berbeda yang termasuk dalam cluster yang sama. cluster_id yang sama ini menandakan bahwa kedua catatan ini harus digabungkan.

Mengukur kesuksesan
Pair-wise
Presisi: Rasio entitas berbeda yang salah diidentifikasi sebagai positif palsu serupa (lebih mudah dideteksi dengan pemeriksaan manual).
Recall: Rasio entitas serupa yang tidak diidentifikasi sebagai negatif palsu atau lebih sulit dideteksi.
Cluster V-measure
Pengukuran V cluster: (1 + beta) * homogenitas * kelengkapan / (beta * homogenitas + kelengkapan) dengan beta=1.
Homogenitas Cluster: Rasio cluster yang memiliki entitas yang termasuk dalam entitas yang sama.
Kelengkapan Pengelompokan: Rasio cluster yang menempatkan semua entity yang termasuk dalam entity yang sama ke dalam cluster yang sama.