멀티 리전 계보 검색 정보

이 문서에서는 Knowledge Catalog (이전의 Dataplex Universal Catalog)에서 여러 지리적 리전에 걸쳐 데이터 계보를 검색하는 개념, 메서드, 사용 사례를 설명합니다.

Knowledge Catalog의 데이터 계보는 리전화된 서비스입니다. 링크, 프로세스, 이벤트를 포함한 계보 데이터는 기본 데이터 변환 또는 데이터 이동이 발생한 특정 지리적 위치 내에서 기록되고 저장됩니다.

하지만 엔터프라이즈 데이터 파이프라인은 여러 Google Cloud 프로젝트와 리전에 걸쳐 있는 경우가 많습니다 (예: BigQuery 테이블이 us-central1 스토리지 버킷에 데이터를 복사). 이러한 경계를 넘어 데이터 애셋을 포괄적으로 추적하려면 멀티 리전 계보 검색을 실행해야 합니다.europe-west1

Knowledge Catalog는 교차 리전 계보 그래프를 검색하고 집계하는 두 가지 방법을 제공합니다.

  • searchLineageStreaming API(미리보기)를 사용하는 서버 측 자동화 메서드(권장)
  • searchLinks API를 사용하는 클라이언트 측 팬아웃 메서드

핵심 개념

멀티 리전 계보 검색을 이해하려면 시스템에서 그래프 순회를 처리하는 방법을 이해하는 것이 좋습니다.

  • 루트 기준: 계보 검색의 시작점으로, 하나 이상의 애셋 이름 (예: BigQuery 테이블 또는 Pub/Sub 주제) 또는 세분화된 열 필드로 정의됩니다.

  • 방향: 루트 기준을 기준으로 하는 그래프 순회의 방향입니다. 업스트림 (데이터의 출처 확인) 또는 다운스트림 (데이터의 이동 위치 확인)을 검색할 수 있습니다.

  • 너비 우선 검색: 연결된 노드를 찾는 데 사용되는 아키텍처 메커니즘입니다. 검색은 계보 그래프를 계층별로 순회하여 리전 경계를 넘어 연결된 각 애셋의 실행 깊이를 정확하게 계산합니다.

검색 방법 비교

두 방법 모두 데이터의 교차 리전 뷰를 구성할 수 있지만, 복잡한 작업을 처리하는 방식은 다릅니다.

기능 서버 측 자동화
searchLineageStreaming API
클라이언트 측 팬아웃
searchLinks API
실행 모델 서버 측 자동화: 라우팅 엔진이 여러 리전을 기본적으로 순회합니다. Google Cloud 클라이언트 측 오케스트레이션: 애플리케이션 스크립트가 요청을 수동으로 루핑 하고 관리해야 합니다.
요청 오버헤드 단일 API 요청: 단일 HTTP POST 호출로 멀티 리전 검색이 시작됩니다. 여러 API 요청: 모든 리전 과 모든 그래프 계층에 별도의 HTTP 호출이 필요합니다.
응답 처리 실시간 스트림: 결과가 발견되는 즉시 클라이언트에 푸시되어 시간 초과를 방지합니다. 정적 페이로드: 개별 JSON 배열을 수동으로 수신, 수집, 병합해야 합니다.
심층 그래프 (2개 이상의 계층) 최대 100단계까지 심층 중첩 계보 그래프를 자동으로 처리합니다. N+1 쿼리 문제가 발생하며 클라이언트에서 반복적이고 느린 왕복 이 필요합니다.

사용 사례에 적합한 방법 선택

다음 시나리오를 검토하여 워크로드에 적합한 멀티 리전 검색 방법을 결정하세요.

다음 사용 사례에 스트리밍 API 메서드를 선택합니다.

  • 심층 또는 복잡한 그래프 추적: 데이터가 여러 리전에 걸쳐 여러 중간 테이블, 버킷 또는 파이프라인을 통해 이동하므로 다단계 순회 (maxDepth가 2보다 큼)가 필요합니다.

  • 열 수준 계보 추적: 리전 간에 필드를 추적하거나 와일드 카드 (*) 검색을 활용하여 모든 열 종속 항목을 한 번에 가져오려고 합니다.

  • 경량 코드 유지: 단일 API 호출을 실행하고 Google Cloud 라우팅, 중복 삭제, 그래프 어셈블리를 처리하도록 하는 것이 좋습니다.

  • 파이프라인 메타데이터 필요: 동일한 요청 페이로드에서 파이프라인을 실행하는 프로세스에 관한 구조적 세부정보를 선택적으로 검색하려고 합니다.

다음 시나리오에 클라이언트 측 팬아웃 메서드를 선택합니다.

  • 얕은 단일 홉 계보만 추적: 계보 그래프가 복잡하지 않으며 알려진 리전의 소규모 고정된 수에 걸쳐 직접 상위 또는 하위 링크 (maxDepth가 1과 같음)만 조회하면 됩니다.

  • 엄격한 기존 시스템 내에서 작업: 표준 SearchLinks 엔드포인트를 중심으로 구축된 기존 데이터 거버넌스 애플리케이션이 있으며 스트리밍 응답 소비자를 구현하지 않고 구조적 이전 버전과의 호환성을 유지하려고 합니다.

다음 단계

  • 서버 측 자동화를 사용하여 멀티 리전 계보를 검색하는 방법을 알아봅니다.

  • 클라이언트 측 팬아웃을 사용하여 멀티 리전 계보를 검색하는 방법을 알아봅니다.