결과 이해하기
Enterprise Knowledge Graph는 작업마다 결과를 새 BigQuery 테이블에 씁니다. 작업이 실행될 때의 데이터 스냅샷입니다. 기본적으로 모든 작업은 각 엔티티 클러스터에 대해 임의의 cluster_id를 생성합니다. 하지만 여러 작업 실행 간에 ID를 안정적으로 유지하려면 previous BigQuery result table 고급 옵션을 사용하세요.

출력 스키마
| 필드 이름 | 유형 | 설명 |
|---|---|---|
| cluster_id | 문자열 | 이 클러스터 ID는 이 레코드 클러스터에 할당된 비공개 지식 그래프 머신 ID (MID)입니다. 데이터 세트에서 레코드를 고유하게 식별하는 데 사용할 수 있습니다. 고급 옵션의 이전 BigQuery 테이블을 사용하여 여러 실행에서 이 cluster_id을 안정적이고 일관되게 유지할 수 있습니다. |
| source_name | 문자열 | 데이터 세트를 함께 조인하는 데 도움이 되는 입력 구성에 지정된 소스 이름입니다. |
| source_key | 문자열 | 데이터 세트를 결합하는 데 도움이 되는 소스 테이블의 고유 키입니다. |
| 신뢰도 | FLOAT | 이 레코드가 이 클러스터에 속할 가능성을 결정하는 신뢰도 점수입니다. |
| assignment_age | 정수 | 여러 작업에서 cluster_id (MID) 안정화를 위해 내부적으로 사용됩니다. |
| cloud_kg_mid | 문자열 | Google Cloud Knowledge Graph에 연결된 항목 MID입니다. 이 MID를 영구 ID로 사용하거나 Cloud Knowledge Graph API에서 추가 세부정보를 조회할 수 있습니다. |
SQL을 사용하여 데이터 세트 결합
Enterprise Knowledge Graph는 클러스터 ID별로 그룹화된 항목을 출력합니다. 결과를 보는 가장 간단한 방법은 클러스터 ID를 사용하여 결과를 '그룹화'하는 것입니다. 다음 예에서는 출력 테이블을 원본 테이블과 조인하여 간단한 건전성 검사를 실행합니다.
# get all entity clusters
SELECT distinct (cluster_id) FROM `ekg-test.<dataset>.clusters_9425187210682344597` order by cluster_id LIMIT 1000;
# join data with original table
SELECT confidence, RS., SRC. FROM `ekg-test.<dataset>.clusters_9425187210682344597` as RS join `ekg-api-test.demo.organization` as SRC
on RS.source_key = SRC.source_key where cluster_id = "r-02b72jsgrbws18";
이 항목 클러스터는 동일한 클러스터에 속하는 두 개의 서로 다른 레코드를 나타냅니다. 이 동일한 cluster_id는 이 두 레코드를 결합하고 병합해야 함을 나타냅니다.

효과 측정
Pair-wise
정밀도: 유사한 거짓양성으로 잘못 식별된 고유 항목의 비율 (수동 검사로 감지하기 쉬움)
재현율: 거짓음성으로 식별되지 않거나 감지하기 어려운 유사한 항목의 비율입니다.
클러스터 V-측정
클러스터 V 측정: (1 + beta) * 동질성 * 완전성 / (beta * 동질성 + 완전성)(여기서 beta=1)
클러스터 동질성: 동일한 항목에 속하는 항목이 있는 클러스터의 비율입니다.
클러스터 완전성: 동일한 항목에 속하는 모든 항목이 동일한 클러스터에 배치된 클러스터의 비율입니다.