Avaliar o resultado e a qualidade

Entender o resultado

O Enterprise Knowledge Graph grava os resultados em uma nova tabela do BigQuery para cada job. Esse é um snapshot dos dados no momento da execução do job. Por padrão, cada job gera um cluster_id aleatório para cada cluster de entidade. No entanto, se você quiser manter o ID estável em diferentes execuções de jobs, use a opção avançada previous BigQuery result table.

Analisar a tabela de resultados

Esquema de saída

Nome do campo Tipo Descrição
cluster_id STRING Esse ID é um MID do Mapa de informações particular atribuído a esse cluster de registros. Ele pode ser usado para identificar de forma exclusiva o registro no conjunto de dados. Use a tabela anterior do BigQuery nas opções avançadas para manter esse cluster_id estável e consistente em várias execuções.
source_name STRING O nome da origem especificado na configuração de entrada para ajudar você a unir conjuntos de dados.
source_key STRING A chave exclusiva na tabela de origem, para ajudar você a unir conjuntos de dados.
confiança FLOAT Uma pontuação de confiança que determina a probabilidade de esses registros pertencerem a esse cluster.
assignment_age INTEGER Usado internamente para estabilização de cluster_id (MID) em diferentes jobs.
cloud_kg_mid STRING O MID da entidade vinculada do Google Cloud Knowledge Graph. É possível usar esse MID como seu ID permanente ou pesquisar mais detalhes na API Cloud Knowledge Graph.

Usar SQL para unir o conjunto de dados

O Enterprise Knowledge Graph gera entidades agrupadas por ID de cluster. A maneira mais simples de ver o resultado é usar o ID do cluster para "agrupar por" o resultado. O exemplo a seguir realiza uma verificação rápida de integridade unindo a tabela de saída com a original.

# get all entity clusters
SELECT distinct (cluster_id) FROM `ekg-test.<dataset>.clusters_9425187210682344597` order by cluster_id LIMIT 1000;
 
# join data with original table
SELECT confidence, RS., SRC. FROM `ekg-test.<dataset>.clusters_9425187210682344597` as RS join `ekg-api-test.demo.organization` as SRC
on RS.source_key = SRC.source_key where cluster_id = "r-02b72jsgrbws18";

Esse cluster de entidades representa dois registros diferentes que pertencem ao mesmo cluster. O mesmo cluster_id indica que esses dois registros precisam ser unidos e mesclados.

Usar SQL para combinar os resultados

Avalie o sucesso

Aos pares

  • Precisão: proporção de entidades distintas identificadas incorretamente como falsos positivos semelhantes (mais fácil de detectar por inspeção manual).

  • Recall: proporção de entidades semelhantes que não são identificadas como falsos negativos ou são mais difíceis de detectar.

Medida V do cluster

  • Medida V do cluster: (1 + beta) * homogeneidade * integridade / (beta * homogeneidade + integridade), em que beta=1.

  • Homogeneidade de cluster: proporção de clusters que têm entidades pertencentes à mesma entidade.

  • Integridade do cluster: proporção de clusters em que todas as entidades pertencentes à mesma entidade são colocadas no mesmo cluster.