AI 에이전트를 위한 Knowledge Catalog

데이터 생태계가 점점 더 복잡해짐에 따라 AI 애플리케이션에는 원시 데이터 액세스 이상의 기능이 필요합니다. 비즈니스 컨텍스트가 필요합니다. Knowledge Catalog는 Dataplex에서 진화한 것으로, AI 및 에이전트 시스템 지원에 중점을 둡니다.

이 플랫폼의 핵심에는 통합된 지도가 실제 데이터 애셋을 비즈니스 시맨틱스, 거버넌스 규칙, 사용 관계와 연결합니다. Knowledge Catalog를 AI 워크플로에 통합하면 다음을 달성할 수 있습니다.

  • AI 에이전트를 그라운딩하여 에이전트 추론을 안내하는 신뢰할 수 있는 최신 컨텍스트 메타데이터를 제공합니다.

  • 할루시네이션을 줄이고 생성형 모델이 확립된 엔터프라이즈 정보에 기반하여 답변하도록 합니다.

  • AI 에이전트에 통합된 컨텍스트(데이터 환경의 단일 관리 뷰)를 제공합니다.

사용 사례

Knowledge Catalog는 데이터 및 AI 수명 주기 전반에서 고유한 역할을 합니다.

  • AI 개발자 및 에이전트 빌더. 엔터프라이즈 데이터를 쿼리하고 이해해야 하는 커스텀 봇 또는 에이전트 (예: LangChain 또는 에이전트 개발 키트 (ADK) 사용)를 빌드하는 개발자입니다.

    • 사용 사례: 에이전트가 엔터프라이즈 데이터로 작업할 수 있도록 컨텍스트의 자연어 검색 및 검색, 에이전트 데이터 검색
  • 데이터 분석가. BigQuery의 Gemini 또는 Looker와 같은 AI 지원 도구를 사용하여 데이터를 찾고 비즈니스 의미를 이해하는 사용자입니다.

    • 사용 사례: 자연어 쿼리 및 대화형 데이터 탐색
  • 데이터 책임자. AI 기반 메타데이터 보강을 감독하고 카탈로그 컨텍스트의 품질을 보장하는 도메인 전문가입니다.

    • 사용 사례: AI 생성 메타데이터 및 설명 검토, 큐레이션, 홍보

MCP로 Knowledge Catalog 컨텍스트에 액세스

모델 컨텍스트 프로토콜 (MCP)은 AI 에이전트와 도구가 Knowledge Catalog와 같은 데이터 소스에 원활하게 연결할 수 있도록 지원하는 표준화된 브리지입니다.

다양한 배포 워크플로를 수용하기 위해 Knowledge Catalog는 두 가지 유형의 MCP 구현을 제공합니다. 각 구현을 언제 사용해야 하는지 이해하는 것이 환경을 설정하는 데 중요합니다.

  • 원격 MCP 서버: 클라우드 네이티브 애플리케이션을 빌드하거나, 서버리스 환경 (예: Cloud Run)에 에이전트를 배포하거나, 로컬 인프라 관리를 피하려는 외부 관리형 서비스와 통합할 때

  • 로컬 MCP 도구 상자: 로컬 에이전트 개발, 신속한 프로토타입 제작 또는 VS Code 또는 Cursor와 같은 로컬 데스크톱 IDE와 직접 통합해야 하는 경우

원격 MCP 서버

AI 애플리케이션 및 서비스(예: Cloud Run에서 실행되는 에이전트 또는 Claude와 같은 외부 서비스)를 위한 Knowledge Catalog 도구에 직접 액세스할 수 있는 Google 호스팅 엔드포인트입니다.

  • 엔드포인트: https://dataplex.googleapis.com/mcp
  • 이점: 로컬 MCP 서버를 실행할 필요가 없으며 서버리스 환경에 적합합니다.
  • 참조: 원격 MCP 서버 사용

로컬 MCP 도구 상자

IDE (예: VS Code, Cursor) 또는 로컬 도구와 Knowledge Catalog 간의 로컬 프록시 역할을 하는 명령줄 도구입니다.

  • 설치: 다운로드 가능한 바이너리입니다.
  • 구성: 일반적으로 프로젝트 또는 IDE 구성에 .mcp.json 또는 설정 파일이 포함됩니다.
  • 이점: 로컬로 안전한 개발 환경과 다양한 IDE와의 통합에 적합합니다.
  • 참조: 로컬 MCP 서버 사용

Knowledge Catalog의 컨텍스트 보강

AI를 위한 Knowledge Catalog의 가치를 극대화하려면 기본 그래프에 비즈니스 컨텍스트가 풍부해야 합니다. 기본 제공 기능 또는 커스텀 에이전트 보강을 통해 이를 달성할 수 있습니다.

데이터 인사이트를 사용한 기본 제공 보강

데이터 인사이트 (BigQuery의 Gemini로 구동)는 카탈로그를 자동으로 보강하여 새로운 데이터 플랫폼의 '콜드 스타트' 문제를 줄입니다. 사용 설정하면 다음이 자동으로 생성됩니다.

  • 데이터 세트 및 열 수준 설명
  • 테이블 간의 관계 그래프
  • 이전 사용량 패턴을 기반으로 한 쿼리 예시

이를 통해 수동 데이터 관리 책임 없이 다운스트림 에이전트에 즉각적인 시맨틱 이해를 제공할 수 있습니다.

예를 들어 telco_churn이라는 테이블의 경우 데이터 인사이트는 TenureMonthlyCharges와 같은 필드의 설명을 자동으로 생성하고, 고객 테이블과의 관계를 추론하고, 카탈로그에 세그먼트별 이탈률 찾기와 같은 쿼리 예시를 게시할 수 있습니다.

에이전트를 사용한 커스텀 컨텍스트 보강

전문 기술 자료가 있는 조직의 경우 커스텀 보강 에이전트를 빌드하여 내부 위키, 코드 저장소 또는 독점 시스템과 같은 맞춤형 소스에서 메타데이터를 수집할 수 있습니다.

  • Knowledge Catalog API (CRUD 작업): 카탈로그에 메타데이터를 추가하거나 업데이트하는 데 사용합니다.

    • 예를 들어 내부 시스템에서 추출한 문서를 사용하여 테이블에 개요 측면을 프로그래매틱 방식으로 연결하려면 UpdateEntry API 메서드를 호출합니다.
  • ADK와 같은 도구: 보강 에이전트를 빌드하는 데 사용합니다.

    • 예를 들어 내부 도구를 사용하여 기술 위키 페이지를 추출하고, LLM을 사용하여 용어집 용어로 파싱하고, 용어를 Knowledge Catalog에 동기화하는 Java 기반 ADK 에이전트를 빌드합니다.
  • 내보내기 및 가져오기 작업: 검토를 통해 대량 메타데이터 업데이트에 사용합니다.

    • 예를 들어 AI 생성 비즈니스 용어집을 파일로 내보내고, 데이터 책임자가 정의를 공동으로 검토하고 구체화한 후, 최종 파일을 카탈로그로 다시 가져옵니다.

다음 단계