데이터 생태계가 점점 더 복잡해짐에 따라 AI 애플리케이션에는 원시 데이터 액세스 이상의 기능이 필요합니다. 비즈니스 컨텍스트가 필요합니다. Knowledge Catalog는 Dataplex에서 진화한 것으로, AI 및 에이전트 시스템 지원에 중점을 둡니다.
이 플랫폼의 핵심에는 통합된 지도가 실제 데이터 애셋을 비즈니스 시맨틱스, 거버넌스 규칙, 사용 관계와 연결합니다. Knowledge Catalog를 AI 워크플로에 통합하면 다음을 달성할 수 있습니다.
AI 에이전트를 그라운딩하여 에이전트 추론을 안내하는 신뢰할 수 있는 최신 컨텍스트 메타데이터를 제공합니다.
할루시네이션을 줄이고 생성형 모델이 확립된 엔터프라이즈 정보에 기반하여 답변하도록 합니다.
AI 에이전트에 통합된 컨텍스트(데이터 환경의 단일 관리 뷰)를 제공합니다.
사용 사례
Knowledge Catalog는 데이터 및 AI 수명 주기 전반에서 고유한 역할을 합니다.
AI 개발자 및 에이전트 빌더. 엔터프라이즈 데이터를 쿼리하고 이해해야 하는 커스텀 봇 또는 에이전트 (예: LangChain 또는 에이전트 개발 키트 (ADK) 사용)를 빌드하는 개발자입니다.
- 사용 사례: 에이전트가 엔터프라이즈 데이터로 작업할 수 있도록 컨텍스트의 자연어 검색 및 검색, 에이전트 데이터 검색
데이터 분석가. BigQuery의 Gemini 또는 Looker와 같은 AI 지원 도구를 사용하여 데이터를 찾고 비즈니스 의미를 이해하는 사용자입니다.
- 사용 사례: 자연어 쿼리 및 대화형 데이터 탐색
데이터 책임자. AI 기반 메타데이터 보강을 감독하고 카탈로그 컨텍스트의 품질을 보장하는 도메인 전문가입니다.
- 사용 사례: AI 생성 메타데이터 및 설명 검토, 큐레이션, 홍보
MCP로 Knowledge Catalog 컨텍스트에 액세스
모델 컨텍스트 프로토콜 (MCP)은 AI 에이전트와 도구가 Knowledge Catalog와 같은 데이터 소스에 원활하게 연결할 수 있도록 지원하는 표준화된 브리지입니다.
다양한 배포 워크플로를 수용하기 위해 Knowledge Catalog는 두 가지 유형의 MCP 구현을 제공합니다. 각 구현을 언제 사용해야 하는지 이해하는 것이 환경을 설정하는 데 중요합니다.
원격 MCP 서버: 클라우드 네이티브 애플리케이션을 빌드하거나, 서버리스 환경 (예: Cloud Run)에 에이전트를 배포하거나, 로컬 인프라 관리를 피하려는 외부 관리형 서비스와 통합할 때
로컬 MCP 도구 상자: 로컬 에이전트 개발, 신속한 프로토타입 제작 또는 VS Code 또는 Cursor와 같은 로컬 데스크톱 IDE와 직접 통합해야 하는 경우
원격 MCP 서버
AI 애플리케이션 및 서비스(예: Cloud Run에서 실행되는 에이전트 또는 Claude와 같은 외부 서비스)를 위한 Knowledge Catalog 도구에 직접 액세스할 수 있는 Google 호스팅 엔드포인트입니다.
- 엔드포인트:
https://dataplex.googleapis.com/mcp - 이점: 로컬 MCP 서버를 실행할 필요가 없으며 서버리스 환경에 적합합니다.
- 참조: 원격 MCP 서버 사용
로컬 MCP 도구 상자
IDE (예: VS Code, Cursor) 또는 로컬 도구와 Knowledge Catalog 간의 로컬 프록시 역할을 하는 명령줄 도구입니다.
- 설치: 다운로드 가능한 바이너리입니다.
- 구성: 일반적으로 프로젝트 또는 IDE 구성에
.mcp.json또는 설정 파일이 포함됩니다. - 이점: 로컬로 안전한 개발 환경과 다양한 IDE와의 통합에 적합합니다.
- 참조: 로컬 MCP 서버 사용
Knowledge Catalog의 컨텍스트 보강
AI를 위한 Knowledge Catalog의 가치를 극대화하려면 기본 그래프에 비즈니스 컨텍스트가 풍부해야 합니다. 기본 제공 기능 또는 커스텀 에이전트 보강을 통해 이를 달성할 수 있습니다.
데이터 인사이트를 사용한 기본 제공 보강
데이터 인사이트 (BigQuery의 Gemini로 구동)는 카탈로그를 자동으로 보강하여 새로운 데이터 플랫폼의 '콜드 스타트' 문제를 줄입니다. 사용 설정하면 다음이 자동으로 생성됩니다.
- 데이터 세트 및 열 수준 설명
- 테이블 간의 관계 그래프
- 이전 사용량 패턴을 기반으로 한 쿼리 예시
이를 통해 수동 데이터 관리 책임 없이 다운스트림 에이전트에 즉각적인 시맨틱 이해를 제공할 수 있습니다.
예를 들어 telco_churn이라는 테이블의 경우 데이터 인사이트는 Tenure 및 MonthlyCharges와 같은 필드의 설명을 자동으로 생성하고, 고객 테이블과의 관계를 추론하고, 카탈로그에 세그먼트별 이탈률 찾기와 같은 쿼리 예시를 게시할 수 있습니다.
에이전트를 사용한 커스텀 컨텍스트 보강
전문 기술 자료가 있는 조직의 경우 커스텀 보강 에이전트를 빌드하여 내부 위키, 코드 저장소 또는 독점 시스템과 같은 맞춤형 소스에서 메타데이터를 수집할 수 있습니다.
Knowledge Catalog API (CRUD 작업): 카탈로그에 메타데이터를 추가하거나 업데이트하는 데 사용합니다.
- 예를 들어 내부 시스템에서 추출한 문서를 사용하여 테이블에 개요 측면을 프로그래매틱 방식으로 연결하려면
UpdateEntryAPI 메서드를 호출합니다.
- 예를 들어 내부 시스템에서 추출한 문서를 사용하여 테이블에 개요 측면을 프로그래매틱 방식으로 연결하려면
ADK와 같은 도구: 보강 에이전트를 빌드하는 데 사용합니다.
- 예를 들어 내부 도구를 사용하여 기술 위키 페이지를 추출하고, LLM을 사용하여 용어집 용어로 파싱하고, 용어를 Knowledge Catalog에 동기화하는 Java 기반 ADK 에이전트를 빌드합니다.
내보내기 및 가져오기 작업: 검토를 통해 대량 메타데이터 업데이트에 사용합니다.
- 예를 들어 AI 생성 비즈니스 용어집을 파일로 내보내고, 데이터 책임자가 정의를 공동으로 검토하고 구체화한 후, 최종 파일을 카탈로그로 다시 가져옵니다.
다음 단계
Knowledge Catalog 원격 MCP 서버를 사용합니다.
MCP, Gemini, 기타 에이전트와 함께 Knowledge Catalog를 사용합니다.