Knowledge Catalog 살펴보기
Knowledge Catalog (이전의 Dataplex Universal Catalog)는 에이전트가 생성된 콘텐츠를 근거로 삼을 수 있도록 고품질 데이터 컨텍스트를 제공하는 AI 기반 데이터 거버넌스 솔루션입니다. 이 페이지에서는 Knowledge Catalog를 시작하는 데 도움이 되는 실습 사용 사례를 제공합니다.
AI 에이전트 빌드 및 구동
데이터를 검색하는 에이전트 빌드
Knowledge Catalog API 호출을 실행하는 검색 에이전트를 사용하여 엔터프라이즈 데이터 애셋에 대해 복잡한 자연어 쿼리를 실행합니다 (Python).
메타데이터를 보강하는 에이전트 빌드
Knowledge Catalog API 호출을 실행하는 보강 에이전트를 사용하여 데이터 애셋에 대한 AI 기반 개요를 대규모로 생성합니다 (Python).
Gemini CLI 에이전트를 사용하여 데이터 컨텍스트 테스트
로컬 MCP 서버에 연결된 Gemini CLI에 자연어 쿼리를 사용하여 Knowledge Catalog가 소스 데이터와 임시 파생 상품을 구분할 수 있는지 확인합니다.
데이터 거버넌스 설정
데이터 기반 구축
BigQuery에서 현실적이고 '지저분한' 데이터 레이크를 설정하고, 엄격한 메타데이터 태그 (측면)를 적용하여 유효한 데이터를 노이즈와 구분하고, Gemini CLI를 사용하여 규칙을 따르는지 확인합니다.
기본 거버넌스 설정
Google Cloud 콘솔을 사용하여 구조화된 스키마 기반 메타데이터 (관점)와 비즈니스 정의 (용어집)를 데이터 애셋 (항목)에 연결합니다.
관리형 Iceberg 레이크하우스 빌드
Apache Iceberg 테이블을 만들고, 열 수준 보안을 위한 중앙 집중식 데이터 정책을 적용하고, 보안 정책을 정의하고, 자동화된 데이터 계보를 시각화합니다.
데이터 계보 분석
데이터 변경의 영향 분석
데이터 변환이 다운스트림 리소스, 데이터 무결성, 워크플로에 미치는 영향을 파악합니다.
PII 유출 원인 분석
민감한 정보의 흐름을 추적하여 신뢰할 수 있는 위치에서 신뢰할 수 없는 위치로 이동하는 프로세스를 파악합니다.
스토리지 비용 최적화
다른 프로세스의 소스로 활발하게 사용되지 않는 애셋을 식별하여 스토리지 비용을 절감합니다.
AI로 데이터 품질 자동화
데이터 품질 스캔 자동화
Gemini CLI를 통해 자연어 쿼리를 사용하여 데이터를 프로파일링하고 품질 규칙을 생성한 다음 데이터 품질 규칙을 자동 스캔으로 배포합니다.