评估结果和质量

了解结果

Enterprise Knowledge Graph 会针对每个作业将结果写入新的 BigQuery 表中。这是作业执行时的数据快照。默认情况下,每个作业都会为每个实体聚类生成一个随机 cluster_id。不过,如果您希望在不同的作业运行之间保持 ID 的稳定性,请使用 previous BigQuery result table 高级选项。

检查结果表

输出架构

字段名称 类型 说明
cluster_id STRING 此聚类 ID 是分配给相应记录聚类的私有知识图谱机器 ID (MID)。可用于唯一标识数据集中的记录。您可以使用“高级选项”中的之前的 BigQuery 表,使此 cluster_id 在多次运行中保持稳定一致。
source_name STRING 输入配置中指定的来源名称,有助于您联接数据集。
source_key STRING 源表中的唯一键,可帮助您联接数据集。
置信度 FLOAT 用于确定相应记录属于相应聚类的程度的置信度得分。
assignment_age INTEGER 在不同作业之间用于内部稳定 cluster_id (MID)。
cloud_kg_mid STRING Google Cloud Knowledge Graph 关联实体的 MID。您可以将此 MID 用作永久 ID,也可以通过 Cloud Knowledge Graph API 查找更多详细信息。

使用 SQL 将数据集联接在一起

Enterprise Knowledge Graph 会按聚类 ID 对实体进行分组。查看结果的最简单方法是使用聚类 ID 对结果进行“分组”。以下示例通过将输出表与原始表联接来执行快速健全性检查。

# get all entity clusters
SELECT distinct (cluster_id) FROM `ekg-test.<dataset>.clusters_9425187210682344597` order by cluster_id LIMIT 1000;
 
# join data with original table
SELECT confidence, RS., SRC. FROM `ekg-test.<dataset>.clusters_9425187210682344597` as RS join `ekg-api-test.demo.organization` as SRC
on RS.source_key = SRC.source_key where cluster_id = "r-02b72jsgrbws18";

此实体聚类表示属于同一聚类的两条不同记录。此相同的 cluster_id 表明这两个记录应联接并合并。

使用 SQL 联接结果

衡量成效

成对

  • 精确率:错误识别为相似假正例(更容易通过人工检查检测到)的不同实体的比率。

  • 召回率:未被识别为假负例或难以检测的类似实体的比率。

聚类 V-measure

  • 聚类 V-measure:(1 + beta)* 同质性 * 完整性 /(beta * 同质性 + 完整性),其中 beta=1。

  • 聚类同质性:具有属于同一实体的实体的聚类所占的比率。

  • 聚类完整性:将属于同一实体的所有实体放置在同一聚类中的聚类所占的比例。