Comprende el resultado
Enterprise Knowledge Graph escribe los resultados en una nueva tabla de BigQuery para cada trabajo. Esta es una instantánea de los datos en el momento en que se ejecuta el trabajo. De forma predeterminada, cada trabajo genera un cluster_id aleatorio para cada clúster de entidades. Sin embargo, si deseas mantener el ID estable entre diferentes ejecuciones de trabajos, usa la opción avanzada previous BigQuery result table.

Esquema de salida
| Nombre del campo | Tipo | Descripción |
|---|---|---|
| cluster_id | STRING | Este ID de clúster es un ID de máquina (MID) del gráfico de conocimiento privado asignado a este clúster de registros. Se puede usar para identificar de forma única el registro en tu conjunto de datos. Puedes usar la tabla de BigQuery anterior en las opciones avanzadas para mantener este cluster_id estable y coherente en varias ejecuciones. |
| source_name | STRING | El nombre de la fuente especificado en la configuración de entrada para ayudarte a unir el conjunto de datos. |
| source_key | STRING | La clave única en tu tabla de origen para ayudarte a unir el conjunto de datos. |
| confianza | FLOAT | Puntuación de confianza que determina qué tan firmemente pertenecen estos registros a este clúster. |
| assignment_age | INTEGER | Se usa internamente para la estabilización de cluster_id (MID) en diferentes trabajos. |
| cloud_kg_mid | STRING | El MID de la entidad vinculada de Google Cloud Knowledge Graph. Puedes usar este MID como tu ID permanente o buscar detalles adicionales en la API de Cloud Knowledge Graph. |
Usa SQL para unir el conjunto de datos
Enterprise Knowledge Graph genera entidades agrupadas por ID de clúster. La forma más sencilla de ver el resultado es usar el ID de clúster para "agrupar por" tu resultado. En el siguiente ejemplo, se realiza una verificación rápida de coherencia uniendo la tabla de salida con la tabla original.
# get all entity clusters
SELECT distinct (cluster_id) FROM `ekg-test.<dataset>.clusters_9425187210682344597` order by cluster_id LIMIT 1000;
# join data with original table
SELECT confidence, RS., SRC. FROM `ekg-test.<dataset>.clusters_9425187210682344597` as RS join `ekg-api-test.demo.organization` as SRC
on RS.source_key = SRC.source_key where cluster_id = "r-02b72jsgrbws18";
Este clúster de entidades representa dos registros diferentes que pertenecen al mismo clúster. Este mismo cluster_id indica que estos dos registros deben unirse y combinarse.

Mida el éxito
Por pares
Precisión: Es la proporción de entidades distintas identificadas incorrectamente como falsos positivos similares (más fáciles de detectar mediante la inspección manual).
Recuperación: Es la proporción de entidades similares que no se identifican como falsos negativos o que son más difíciles de detectar.
Medida V del clúster
Medida V del clúster: (1 + beta) * homogeneidad * integridad / (beta * homogeneidad + integridad), donde beta=1.
Homogeneidad del clúster: Es la proporción de clústeres que tienen entidades que pertenecen a la misma entidad.
Integridad del clúster: Es la proporción de clústeres en los que todas las entidades que pertenecen a la misma entidad se colocan en el mismo clúster.