Avaliar o resultado e a qualidade

Entenda o resultado

O Enterprise Knowledge Graph grava os resultados em uma nova tabela do BigQuery para cada job. Esse é um snapshot dos dados no momento da execução do job. Por padrão, cada job gera um cluster_id aleatório para cada cluster de entidade. No entanto, se você quiser manter o ID estável em diferentes execuções de jobs, use a opção avançada previous BigQuery result table.

Analisar a tabela de resultados

Esquema de saída

Nome do campo Tipo Descrição
cluster_id STRING Esse ID é um MID do Mapa de informações particular atribuído a esse cluster de registros. Ele pode ser usado para identificar de forma exclusiva o registro no conjunto de dados. Use a tabela anterior do BigQuery nas opções avançadas para manter esse cluster_id estável e consistente em várias execuções.
source_name STRING O nome da origem especificado na configuração de entrada para ajudar você a unir conjuntos de dados.
source_key STRING A chave exclusiva na tabela de origem, para ajudar você a unir conjuntos de dados.
confiança FLOAT Pontuação de confiança que determina a probabilidade de esses registros pertencerem a esse cluster.
assignment_age INTEGER Usado internamente para estabilização de cluster_id (MID) em diferentes jobs.
cloud_kg_mid STRING O MID da entidade vinculada do Google Cloud Mapa de informações. Você pode usar esse MID como seu ID permanente ou pesquisar mais detalhes na API Cloud Mapa de informações.

Usar SQL para unir o conjunto de dados

O Enterprise Knowledge Graph gera entidades agrupadas por ID de cluster. A maneira mais simples de ver o resultado é usar o ID do cluster para "agrupar por" o resultado. O exemplo a seguir faz uma verificação rápida de integridade unindo a tabela de saída com a original.

# get all entity clusters
SELECT distinct (cluster_id) FROM `ekg-test.<dataset>.clusters_9425187210682344597` order by cluster_id LIMIT 1000;
 
# join data with original table
SELECT confidence, RS., SRC. FROM `ekg-test.<dataset>.clusters_9425187210682344597` as RS join `ekg-api-test.demo.organization` as SRC
on RS.source_key = SRC.source_key where cluster_id = "r-02b72jsgrbws18";

Esse cluster de entidades representa dois registros diferentes que pertencem ao mesmo cluster. O mesmo cluster_id indica que esses dois registros precisam ser unidos e mesclados.

Usar SQL para unir os resultados

Avalie o sucesso

Aos pares

  • Precisão: proporção de entidades distintas identificadas incorretamente como falsos positivos semelhantes (mais fácil de detectar por inspeção manual).

  • Recall: proporção de entidades semelhantes que não são identificadas como falsos negativos ou são mais difíceis de detectar.

Medida V do cluster

  • Medida V do cluster: (1 + beta) * homogeneidade * integridade / (beta * homogeneidade + integridade), em que beta=1.

  • Homogeneidade de cluster: proporção de clusters que têm entidades pertencentes à mesma entidade.

  • Integridade do cluster: proporção de clusters em que todas as entidades pertencentes à mesma entidade são colocadas no mesmo cluster.