Entender o resultado
O Enterprise Knowledge Graph grava os resultados em uma nova tabela do BigQuery para cada job. Esse é um snapshot dos dados no momento da execução do job. Por padrão, cada job gera um cluster_id aleatório para cada cluster de entidade. No entanto, se você quiser manter o ID estável em diferentes execuções de jobs, use a opção avançada previous BigQuery result table.

Esquema de saída
| Nome do campo | Tipo | Descrição |
|---|---|---|
| cluster_id | STRING | Esse ID é um MID do Mapa de informações particular atribuído a esse cluster de registros. Ele pode ser usado para identificar de forma exclusiva o registro no conjunto de dados. Use a tabela anterior do BigQuery nas opções avançadas para manter esse cluster_id estável e consistente em várias execuções. |
| source_name | STRING | O nome da origem especificado na configuração de entrada para ajudar você a unir conjuntos de dados. |
| source_key | STRING | A chave exclusiva na tabela de origem, para ajudar você a unir conjuntos de dados. |
| confiança | FLOAT | Uma pontuação de confiança que determina a probabilidade de esses registros pertencerem a esse cluster. |
| assignment_age | INTEGER | Usado internamente para estabilização de cluster_id (MID) em diferentes jobs. |
| cloud_kg_mid | STRING | O MID da entidade vinculada do Google Cloud Knowledge Graph. É possível usar esse MID como seu ID permanente ou pesquisar mais detalhes na API Cloud Knowledge Graph. |
Usar SQL para unir o conjunto de dados
O Enterprise Knowledge Graph gera entidades agrupadas por ID de cluster. A maneira mais simples de ver o resultado é usar o ID do cluster para "agrupar por" o resultado. O exemplo a seguir realiza uma verificação rápida de integridade unindo a tabela de saída com a original.
# get all entity clusters
SELECT distinct (cluster_id) FROM `ekg-test.<dataset>.clusters_9425187210682344597` order by cluster_id LIMIT 1000;
# join data with original table
SELECT confidence, RS., SRC. FROM `ekg-test.<dataset>.clusters_9425187210682344597` as RS join `ekg-api-test.demo.organization` as SRC
on RS.source_key = SRC.source_key where cluster_id = "r-02b72jsgrbws18";
Esse cluster de entidades representa dois registros diferentes que pertencem ao mesmo cluster. O mesmo cluster_id indica que esses dois registros precisam ser unidos e mesclados.

Avalie o sucesso
Aos pares
Precisão: proporção de entidades distintas identificadas incorretamente como falsos positivos semelhantes (mais fácil de detectar por inspeção manual).
Recall: proporção de entidades semelhantes que não são identificadas como falsos negativos ou são mais difíceis de detectar.
Medida V do cluster
Medida V do cluster: (1 + beta) * homogeneidade * integridade / (beta * homogeneidade + integridade), em que beta=1.
Homogeneidade de cluster: proporção de clusters que têm entidades pertencentes à mesma entidade.
Integridade do cluster: proporção de clusters em que todas as entidades pertencentes à mesma entidade são colocadas no mesmo cluster.