데이터 생태계가 점점 더 복잡해짐에 따라 AI 애플리케이션에는 원시 데이터 액세스 이상의 기능이 필요합니다. 비즈니스 컨텍스트가 필요합니다. Knowledge Catalog는 Dataplex에서 발전한 것으로, AI 및 에이전트형 시스템을 지원하는 데 중점을 둡니다.
이 플랫폼의 핵심은 통합된 지도로, 실제 데이터 애셋을 비즈니스 시맨틱, 거버넌스 규칙, 사용 관계와 연결합니다. Knowledge Catalog를 AI 워크플로에 통합하면 다음을 달성할 수 있습니다.
AI 에이전트가 에이전트 추론을 안내하는 신뢰할 수 있고 최신 상태이며 컨텍스트에 맞는 메타데이터를 제공하도록 그라운딩합니다.
할루시네이션을 줄이고 생성형 모델이 확립된 엔터프라이즈 정보를 기반으로 답변하도록 합니다.
AI 에이전트에게 통합된 컨텍스트, 즉 데이터 환경에 대한 단일의 관리되는 뷰를 제공합니다.
사용 사례
Knowledge Catalog는 데이터 및 AI 수명 주기 전반에서 다음과 같은 고유한 역할을 수행합니다.
AI 개발자 및 에이전트 빌더. 엔터프라이즈 데이터를 쿼리하고 이해해야 하는 맞춤 봇 또는 에이전트 (예: LangChain 또는 에이전트 개발 키트 (ADK) 사용)를 빌드하는 개발자
- 사용 사례: 에이전트가 엔터프라이즈 데이터로 작업할 수 있도록 자연어 검색 및 컨텍스트 검색, 에이전트 기반 데이터 검색
데이터 분석가. BigQuery 또는 Looker의 Gemini와 같은 AI 지원 도구를 사용하여 데이터를 찾고 비즈니스 의미를 파악하는 사용자
- 사용 사례: 자연어 쿼리 및 대화형 데이터 탐색
데이터 관리자. AI 기반 메타데이터 보강을 감독하고 카탈로그 컨텍스트의 품질을 보장하는 도메인 전문가입니다.
- 사용 사례: AI 생성 메타데이터 및 설명을 검토, 선별, 홍보합니다.
MCP로 Knowledge Catalog 컨텍스트에 액세스
모델 컨텍스트 프로토콜 (MCP)은 AI 에이전트와 도구가 Knowledge Catalog와 같은 데이터 소스에 원활하게 연결할 수 있도록 지원하는 표준화된 브리지입니다.
다양한 배포 워크플로를 수용하기 위해 Knowledge Catalog는 두 가지 유형의 MCP 구현을 제공합니다. 각각을 언제 사용하는지 이해하는 것이 환경 설정에 중요합니다.
원격 MCP 서버: 클라우드 네이티브 애플리케이션을 빌드하거나, 서버리스 환경 (예: Cloud Run)에 에이전트를 배포하거나, 로컬 인프라 관리를 피하려는 외부 관리 서비스와 통합하는 경우
로컬 MCP Toolbox: 로컬 에이전트 개발, 신속한 프로토타입 제작 또는 VS Code, Cursor와 같은 로컬 데스크톱 IDE와 직접 통합해야 하는 경우
원격 MCP 서버
AI 애플리케이션 및 서비스(예: Cloud Run에서 실행되는 에이전트 또는 Claude와 같은 외부 서비스)의 Knowledge Catalog 도구에 직접 액세스할 수 있는 Google 호스팅 엔드포인트입니다.
- 엔드포인트:
https://dataplex.googleapis.com/mcp - 이점: 로컬 MCP 서버를 실행할 필요가 없으며 서버리스 환경에 적합합니다.
- 참고: 원격 MCP 서버 사용
로컬 MCP 도구 상자
IDE (예: VS Code, Cursor) 또는 로컬 도구와 Knowledge Catalog 간의 로컬 프록시 역할을 하는 명령줄 도구입니다.
- 설치: 다운로드 가능한 바이너리
- 구성: 일반적으로 프로젝트 또는 IDE 구성의
.mcp.json또는 설정 파일이 포함됩니다. - 이점: 로컬 보안 개발 환경과 다양한 IDE와의 통합에 적합합니다.
- 참조: 로컬 MCP 서버 사용
Knowledge Catalog의 컨텍스트 보강
AI를 위한 Knowledge Catalog의 가치를 극대화하려면 기본 그래프에 비즈니스 컨텍스트가 풍부해야 합니다. 기본 제공 기능 또는 맞춤 에이전트 보강을 통해 이를 달성할 수 있습니다.
데이터 인사이트를 사용한 즉시 사용 가능한 보강
데이터 통계 (BigQuery의 Gemini 기반)는 카탈로그를 자동으로 보강하여 새로운 데이터 플랫폼의 '콜드 스타트' 문제를 줄여줍니다. 사용 설정하면 다음이 자동으로 생성됩니다.
- 데이터 세트 및 열 수준 설명
- 테이블 간의 관계 그래프
- 이전 사용 패턴을 기반으로 한 쿼리의 예입니다.
이를 통해 수동 데이터 관리 책임 없이 다운스트림 에이전트에게 즉각적인 의미론적 이해를 제공할 수 있습니다.
예를 들어 telco_churn라는 테이블의 경우 데이터 인사이트는 Tenure 및 MonthlyCharges과 같은 필드의 설명을 자동으로 생성하고, 고객 테이블과의 관계를 추론하고, 세그먼트별 이탈률을 찾는 것과 같은 예시 쿼리를 카탈로그에 게시할 수 있습니다.
에이전트를 사용한 맞춤 컨텍스트 보강
전문 지식 베이스가 있는 조직의 경우 맞춤형 소스(예: 내부 위키, 코드 저장소, 독점 시스템)에서 메타데이터를 수집하는 맞춤형 보강 에이전트를 빌드할 수 있습니다.
Knowledge Catalog API (CRUD 작업): 카탈로그에서 메타데이터를 추가하거나 업데이트하는 데 사용됩니다.
- 예를 들어
UpdateEntryAPI 메서드를 호출하여 내부 시스템에서 추출한 문서를 사용하여 테이블에 개요 측면을 프로그래매틱 방식으로 연결합니다.
- 예를 들어
ADK와 같은 도구: 보강 에이전트를 빌드하는 데 사용됩니다.
- 예를 들어 내부 도구를 사용하여 기술 위키 페이지를 추출하고, LLM을 사용하여 이를 용어집 용어로 파싱하고, 용어를 Knowledge Catalog에 동기화하는 Java 기반 ADK 에이전트를 빌드합니다.
내보내기 및 가져오기 작업: 검토를 통해 메타데이터를 일괄 업데이트하는 데 사용합니다.
- 예를 들어 AI 생성 비즈니스 용어를 파일로 내보내고, 데이터 관리자가 공동으로 정의를 검토하고 수정하도록 한 다음, 최종 파일을 카탈로그로 다시 가져옵니다.