BigQuery와 함께 Knowledge Catalog 사용
Knowledge Catalog(이전 명칭: Dataplex Universal Catalog)는 BigQuery의 메타데이터를 위한 중앙 데이터 거버넌스 및 에이전트 액세스 레이어로 BigQuery와 상호작용합니다. 자세한 내용은 Knowledge Catalog 개요를 참조하세요.
BigQuery와 함께 Knowledge Catalog를 사용하려면 어떻게 해야 하나요?
Knowledge Catalog는 다음과 같은 방식으로 BigQuery와 상호작용합니다.
자동화된 메타데이터 수집
Knowledge Catalog는 BigQuery 애셋의 기술 메타데이터를 자동으로 탐색하고 색인을 생성합니다. 여기에는 다음이 포함됩니다.
- 애셋 유형: 데이터 세트, 테이블, 뷰, 모델, 루틴, 연결, 연결된 데이터 세트
- BigQuery Sharing: 교환 및 등록정보 BigQuery Sharing (이전 명칭: Analytics Hub)
- 실시간 업데이트: 시스템은 거의 실시간 수집을 지원하고 메타데이터 변경 피드를 사용하여 Pub/Sub를 통해 BigQuery의 스키마 변경 또는 삭제를 다운스트림 시스템에 알립니다.
- 다크 데이터 탐색: Knowledge Catalog는 비정형 파일 스캔(Cloud Storage의 PDF와 같은), 항목 추출, BigQuery에서 쿼리 가능한 애셋으로 변환이 가능합니다. 이 기능을 사용하면 이전에 액세스할 수 없었던 '다크 데이터'를 BigQuery 기반 분석 및 AI 그라운딩에 사용할 수 있습니다.
메타데이터 표현 및 보강
- 항목: 각 BigQuery
테이블 또는 애셋은 전체 테이블이 아닌 카탈로그의 항목
으로 표현됩니다(예:
project.dataset.table). - 열 수준 메타데이터: 개별 열 또는 필드는 경로로 표현되므로 테이블 자체뿐만 아니라 BigQuery 테이블 내의 개별 필드에 PII 마커 또는 데이터 품질 점수와 같은 특정 메타데이터를 연결할 수 있습니다.
- 관점: 기술 메타데이터는 소유권, 데이터 품질, 문서와 같은 데이터에 비즈니스 컨텍스트를 추가하는 관점으로 보강됩니다.
- 데이터 제품: 관련 BigQuery 애셋을 공유 액세스 및 거버넌스 제약조건이 있는 데이터 제품(예: 전자상거래 비즈니스 데이터)으로 패키징할 수 있습니다.
데이터 탐색 및 검색
- 시맨틱 검색: 사용자는 자연어를 사용하여 BigQuery 데이터를 검색할 수 있습니다. 이는 데이터 과학자와 AI 에이전트가 길거나 복잡한 쿼리를 사용하여 신뢰할 수 있는 데이터 제품을 찾는 데 특히 유용합니다.
- 이름 변환: 더 쉬운 프로그래매틱 조회를 위해 시스템은 BigQuery SQL 이름 또는 정규화된 이름을 Knowledge Catalog 항목 이름으로 변환할 수 있습니다.
에이전트형 액세스 및 그라운딩
- 에이전트 액세스: AI 에이전트는 로컬 또는 원격 MCP 서버를 통해 Knowledge Catalog 도구를 탐색하고 적응적으로 사용할 수 있습니다.
- AI 에이전트의 컨텍스트: Knowledge Catalog는 BigQuery 데이터 세트를 비즈니스 시맨틱과 연결하는 컨텍스트 그래프를 큐레이션하여 모델이 엔터프라이즈 승인 데이터를 사용하도록 함으로써 AI 환각을 줄이는 데 도움이 됩니다.
거버넌스 및 규정 준수
- 데이터 계보: Knowledge Catalog 는 데이터가 BigQuery 테이블로 유입되고 변환되는 방식을 자동으로 추적합니다. 이 기능은 데이터 자산 전반에서 PII와 같은 민감한 정보를 감사하는 데 매우 중요합니다.
- 액세스 제어: 메타데이터 관리는 Identity and Access Management (IAM) 및 VPC 서비스 제어와 통합되어 BigQuery 메타데이터의 탐색 및 액세스가 조직 보안 정책을 준수하도록 합니다.
마이그레이션 고려사항
지원 중단된 Data Catalog에서 Knowledge Catalog로 마이그레이션하려면 여러 단계가 필요합니다. BigQuery의 표준 메타데이터(예: 데이터 세트, 테이블, 뷰)는 Knowledge Catalog에서 자동으로 사용할 수 있으므로 마이그레이션 프로세스는 주로 커스텀 메타데이터, API 사용, 사용자 인터페이스 기본값에 중점을 둡니다.
마이그레이션 시 고려해야 할 주요 사항은 다음과 같습니다.
변경사항 이해하기
Knowledge Catalog는 Data Catalog에 비해 메타데이터 관리, 거버넌스, 탐색을 위한 향상된 기능을 제공합니다. Knowledge Catalog는 다른 API (Knowledge Catalog API)를 사용하고 데이터 모델이 약간 다릅니다. 예를 들어 Knowledge Catalog는 관점 및 관점 유형 대신 태그 및 태그 템플릿을 사용합니다.
현재 Data Catalog 사용량 평가
- 커스텀 메타데이터 없음: 커스텀 태그, 태그 템플릿, 커스텀 항목 또는 항목 그룹을 만들지 않고 표준 BigQuery 메타데이터의 자동 수집 및 탐색에만 Knowledge Catalog 를 사용한 경우 전환이 간단합니다. Knowledge Catalog 인터페이스를 즉시 사용할 수 있습니다.
- 커스텀 메타데이터 또는 프로그래매틱 사용: 커스텀 태그 또는 템플릿, 커스텀 항목을 만들었거나 Data Catalog API, 클라이언트 라이브러리, Google Cloud CLI 명령어 또는 Terraform을 사용하는 경우 더 구조화된 전환이 필요합니다.
BigQuery 관련 고려사항
- 자동 수집: BigQuery 애셋 (데이터 세트, 테이블, 뷰, 모델, 루틴)의 기술 메타데이터는 Dataplex Universal Catalog와 마찬가지로 Knowledge Catalog로 계속 자동으로 수집됩니다.
- 정책 태그: BigQuery 열 수준 액세스 제어에 사용되는 정책 태그는 지원 중단되지 않으며 관리는 BigQuery 내에 유지됩니다.
- 계보: BigQuery 작업의 데이터 계보는 Knowledge Catalog 내에 표시됩니다. 데이터 계보에 대한 자세한 내용은 BigQuery 테이블의 데이터 계보 추적을 참조하세요.
전환 가이드 따르기
Knowledge Catalog로 마이그레이션하려면 Data Catalog에서 Knowledge Catalog로 전환의 단계를 따르세요.
프로그래매틱 워크플로를 Knowledge Catalog API로 업데이트하려면 Data Catalog API 메서드를 Knowledge Catalog에 매핑을 참조하세요.
다음 단계
Knowledge Catalog에 대해 자세히 알아보세요.