Google menggunakan teknologi AI untuk menerjemahkan konten ke dalam bahasa pilihan Anda. Terjemahan AI mungkin mengandung kesalahan.

Mengevaluasi hasil dan kualitas

Memahami hasil

Enterprise Knowledge Graph menulis hasil ke dalam tabel BigQuery baru untuk setiap tugas. Ini adalah snapshot data pada saat tugas dijalankan. Secara default, setiap tugas menghasilkan cluster_id acak untuk setiap cluster entity. Namun, jika Anda ingin mempertahankan ID yang stabil di antara berbagai proses tugas, gunakan opsi lanjutan previous BigQuery result table.

Periksa tabel hasil

Skema Output

Nama kolom	Jenis	Deskripsi
cluster_id	STRING	ID cluster ini adalah ID mesin (MID) pustaka pengetahuan pribadi yang ditetapkan ke cluster data ini. ID ini dapat digunakan untuk mengidentifikasi data secara unik dalam set data Anda. Anda dapat menggunakan Previous BigQuery table di Opsi Lanjutan untuk menjaga `cluster_id` ini tetap stabil dan konsisten di beberapa proses.
source_name	STRING	Nama sumber yang ditentukan dalam konfigurasi input, untuk membantu Anda menggabungkan set data.
source_key	STRING	Kunci unik dalam tabel sumber Anda, untuk membantu Anda menggabungkan set data.
confidence	FLOAT	Skor keyakinan yang menentukan seberapa kuat data ini termasuk dalam cluster ini.
assignment_age	INTEGER	Digunakan secara internal untuk stabilisasi cluster_id (MID) di berbagai tugas.
cloud_kg_mid	STRING	MID entity tertaut Google Cloud Knowledge Graph. Anda dapat menggunakan MID ini sebagai ID permanen atau mencari detail tambahan dari Cloud Knowledge Graph API.

Menggunakan SQL untuk menggabungkan set data

Enterprise Knowledge Graph menampilkan entity yang dikelompokkan berdasarkan ID cluster. Cara paling sederhana untuk melihat hasilnya adalah dengan menggunakan ID cluster untuk "mengelompokkan menurut" hasil Anda. Contoh berikut melakukan pemeriksaan kewarasan cepat dengan menggabungkan tabel output dengan tabel asli.

# get all entity clusters
SELECT distinct (cluster_id) FROM `ekg-test.<dataset>.clusters_9425187210682344597` order by cluster_id LIMIT 1000;
 
# join data with original table
SELECT confidence, RS., SRC. FROM `ekg-test.<dataset>.clusters_9425187210682344597` as RS join `ekg-api-test.demo.organization` as SRC
on RS.source_key = SRC.source_key where cluster_id = "r-02b72jsgrbws18";

Cluster entity ini mewakili dua data berbeda yang termasuk dalam cluster yang sama. cluster_id yang sama ini menandakan bahwa kedua data ini harus digabungkan.

Menggunakan SQL untuk menggabungkan hasil

Mengukur keberhasilan

Berpasangan

Presisi: Rasio entity berbeda yang salah diidentifikasi sebagai positif palsu yang serupa (lebih mudah dideteksi dengan pemeriksaan manual).
Recall: Rasio entity serupa yang tidak diidentifikasi sebagai negatif palsu atau lebih sulit dideteksi.

Cluster V-measure

Cluster V-measure: (1 + beta) * homogeneity * completeness / (beta * homogeneity + completeness) dengan beta=1.
Homogenitas Cluster: Rasio cluster yang memiliki entity yang termasuk dalam entity yang sama.
Kelengkapan Cluster: Rasio cluster tempat semua entity yang termasuk dalam entity yang sama ditempatkan ke dalam cluster yang sama.