评估结果和质量

了解结果

Enterprise Knowledge Graph 会为每个作业将结果写入新的 BigQuery 表中。这是执行作业时的数据快照。默认情况下,每个作业都会为每个实体集群生成随机 cluster_id。不过,如果您希望在不同的作业运行之间保持 ID 稳定,请使用 previous BigQuery result table 高级选项。

检查结果表

输出架构

字段名称 类型 说明
cluster_id STRING 此集群 ID 是分配给此记录集群的私有知识图谱机器 ID (MID)。它可用于在数据集中唯一标识记录。您可以使用“高级选项”中的之前的 BigQuery 表 ,使此 cluster_id 在多次运行中保持稳定和一致。
source_name STRING 输入配置中指定的来源名称,可帮助您将数据集联接在一起。
source_key STRING 源表中的唯一键,可帮助您将数据集联接在一起。
confidence FLOAT 置信度得分,用于确定这些记录属于此集群的程度。
assignment_age INTEGER 在内部用于在不同作业之间稳定 cluster_id (MID)。
cloud_kg_mid STRING Google Cloud 知识图谱关联的实体 MID。您可以将此 MID 用作永久 ID,也可以从 Cloud Knowledge Graph API 中查找其他详细信息。

使用 SQL 将数据集联接在一起

Enterprise Knowledge Graph 按集群 ID 输出分组的实体。查看结果的最简单方法是使用集群 ID 对结果进行“分组依据”。以下示例通过将输出表与原始表联接,执行快速完整性检查。

# get all entity clusters
SELECT distinct (cluster_id) FROM `ekg-test.<dataset>.clusters_9425187210682344597` order by cluster_id LIMIT 1000;
 
# join data with original table
SELECT confidence, RS., SRC. FROM `ekg-test.<dataset>.clusters_9425187210682344597` as RS join `ekg-api-test.demo.organization` as SRC
on RS.source_key = SRC.source_key where cluster_id = "r-02b72jsgrbws18";

此实体集群表示属于同一集群的两条不同记录。此相同的 cluster_id 表示应联接和合并这两条记录。

使用 SQL 联接结果

衡量成功

成对

  • 精确率:错误识别为相似的误报(更容易通过人工检查检测到)的不同实体的比率。

  • 召回率:未识别为假负例或难以检测到的相似实体的比率。

集群 V 衡量指标

  • 集群 V 衡量指标:(1 + beta) * 同质性 * 完整性 / (beta * 同质性 + 完整性),其中 beta=1。

  • 集群同质性:具有属于同一实体的实体的集群的比率。

  • 集群完整性:属于同一实体的所有实体都放置在同一集群中的集群的比率。