Knowledge Catalog로 데이터 계보 추적

이 페이지에서는 Knowledge Catalog를 사용하여 Looker (Google Cloud 핵심 서비스) 인스턴스의 데이터 계보를 추적하는 방법을 설명합니다.

데이터 계보 는 시스템을 통해 데이터가 흐르는 방식을 추적하는 프로세스입니다. Looker (Google Cloud 핵심 서비스)를 Knowledge Catalog와 통합하면 BigQuery의 소스에서 Looker 시맨틱 레이어 (LookML 뷰 및 Explore)를 거쳐 대시보드 및 Look의 다운스트림 소비에 이르기까지 데이터의 전체 여정을 시각화할 수 있습니다.

이 가시성을 통해 데이터 엔지니어와 관리자는 영향 분석 을 수행할 수 있습니다. 예를 들어 BigQuery 테이블에서 열을 삭제하기 전에 계보 그래프를 확인하여 변경으로 인해 어떤 Looker 대시보드가 중단되는지 정확히 확인할 수 있습니다.

시작하기 전에

Looker (Google Cloud 핵심 서비스)에서 데이터 계보를 사용하려면 다음 사전 요구사항을 충족해야 합니다.

  1. Looker (Google Cloud 핵심 서비스): 데이터 계보는 모든 버전 유형의 Looker (Google Cloud 핵심 서비스) 인스턴스에서 지원됩니다. Looker (원본) 인스턴스는 Knowledge Catalog와 통합되지 않습니다.
  2. 필수 권한: 계보 그래프를 보려면 다음 IAM 역할이 필요합니다.
    • Looker (Google Cloud 핵심 서비스) 인스턴스를 호스팅하는 프로젝트의 Looker 스키마 뷰어 (roles/looker.schemaViewer)
    • Knowledge Catalog 애셋을 볼 수 있는 Dataplex 뷰어 (roles/dataplex.viewer) 또는 이와 동등한 권한
    • 계보 데이터를 읽을 수 있는 데이터 계보 뷰어 (roles/datalineage.viewer)

데이터 계보 사용 설정

데이터 계보를 사용 설정하려면 다음 단계를 완료하세요.

  1. Looker (Google Cloud 핵심 서비스)의 Universal Catalog 통합 사용 설정: Looker (Google Cloud 핵심 서비스) 인스턴스와 Knowledge Catalog 간의 통합은 Google Cloud 콘솔에서 기본적으로 사용 설정됩니다. 통합이 사용 중지된 경우 다시 사용 설정해야 합니다. 안내는 통합 사용 설정을 참조하세요.
  2. Looker 내에서 Knowledge Catalog 계보 미리보기 기능 사용 설정: Knowledge Catalog 계보 미리보기 기능은 Looker (Google Cloud 핵심 서비스) 인스턴스 내 관리 패널의 미리보기 기능 페이지에서 기본적으로 사용 중지되어 있습니다.
  3. Data Lineage API 사용 설정: Looker (Google Cloud 핵심 서비스) 인스턴스와 BigQuery 데이터를 호스팅하는 모든 Google Cloud 프로젝트에서 Data Lineage API (datalineage.googleapis.com)를 사용 설정해야 합니다.

    Data Lineage API 사용 설정

  4. 서비스 수준 계보 수집 사용 설정: Ensure 및 Looker (Google Cloud 핵심 서비스) 서비스 수준 통합이 사용 설정되어 있는지 확인합니다. 서비스 수준 계보는 다음 기본 상태를 준수합니다.
    • 향후 가격 책정 영향을 방지하기 위해 이 기능의 미리보기 출시 날짜에 Data Lineage API가 사용 설정되어 있고 하나 이상의 Looker (Google Cloud 핵심 서비스) 인스턴스를 호스팅한 프로젝트의 경우 Looker (Google Cloud 핵심 서비스) 서비스 수준 계보 수집이 기본적으로 사용 중지됩니다.
    • Data Lineage API가 사용 설정된 프로젝트에서 이 기능의 미리보기 출시 날짜 이후에 생성된 Looker (Google Cloud 핵심 서비스) 인스턴스의 경우 서비스 수준 계보 수집이 기본적으로 사용 설정됩니다.

프로젝트의 계보 구성을 보려면 현재 구성 가져오기 문서를 참조하세요. Google Cloud Looker (Google Cloud 핵심 서비스)와의 통합이 사용 중지된 경우 명령어는 다음과 유사한 출력을 반환합니다.

    {
    "name": "projects/123456789012/locations/global/config",
    "ingestion": {
      "rules": [
        {
          "integrationSelector": {
            "integration": "LOOKER_CORE"
          },
          "lineageEnablement": {
            "enabled": false
          }
        }
      ]
    },
    "etag": "Wb35wDxTTLd6Z+QAL+Yd4g=="
  }

응답의 프로젝트 ID는 요청의 ID를 반영합니다. etag 필드는 서버에서 생성되고 구성의 현재 값을 기반으로 하는 체크섬입니다.

데이터 계보 보기

통합이 사용 설정되고 초기 동기화가 완료되면 (최대 24시간이 걸릴 수 있음) Knowledge Catalog 콘솔에서 계보를 볼 수 있습니다.

  1. 콘솔에서 Knowledge Catalog 페이지로 이동합니다. Google Cloud

    Knowledge Catalog로 이동

  2. 왼쪽 탐색창에서 검색 을 클릭합니다.
  3. BigQuery 테이블 또는 Looker (Google Cloud 핵심 서비스) 애셋 (예: 대시보드 또는 Explore)을 검색합니다.
    • 필터 패널을 사용하여 시스템 > Looker 로 필터링할 수 있습니다.
  4. 애셋 이름을 클릭하여 세부정보 페이지를 엽니다.
  5. 계보 탭을 클릭합니다.

계보 그래프는 애셋을 중앙 노드로 표시하고 업스트림 소스를 왼쪽에, 다운스트림 소비자를 오른쪽에 표시합니다.

계보 그래프 해석

계보 그래프는 노드링크 로 구성됩니다.

  • 노드: 데이터 애셋을 나타냅니다. 지원되는 Looker (Google Cloud 핵심 서비스) 애셋은 다음과 같습니다.
    • Looker 대시보드
    • Looker 대시보드 요소 (타일)
    • Looker Look
    • LookML Explore
    • LookML 뷰
  • 링크: 데이터 흐름을 나타냅니다. 예를 들어 BigQuery 테이블에서 LookML 뷰로 연결되는 링크는 뷰가 해당 테이블에서 데이터를 선택함을 나타냅니다.

애셋 소유자 식별

변경으로 인해 영향을 받을 수 있는 다운스트림 애셋의 소유자를 확인하려면 다음 단계를 따르세요.

  1. 계보 그래프에서 애셋의 노드 (예: Looker 대시보드)를 클릭합니다.
  2. 화면 오른쪽에 정보 패널이 열립니다.
  3. 소유자 (이메일 주소)를 찾으려면 측면 섹션을 찾습니다.

계보 목록 필터링

계보의 목록 뷰에 있는 경우 속성 이름 또는 값으로 항목을 필터링할 수 있습니다. 예를 들어 복잡한 LookML 모델은 중간 항목이 많은 대규모 계보 그래프를 생성할 수 있습니다. 비즈니스 영향에 집중하려면 다음 단계에 따라 항목 유형별로 필터링하면 됩니다.

  1. 계보 탭에서 목록 뷰로 전환합니다.
  2. 툴바에서 필터 옵션을 찾습니다.
  3. 항목 필터에서 Looker 대시보드Looker Look 을 입력하여 LookML 뷰Looker Explore 와 같은 중간 유형을 필터링합니다.

항목 목록이 업데이트되어 선택한 애셋 유형만 표시되므로 사용자 대상 콘텐츠를 더 쉽게 식별할 수 있습니다.

제한사항

Looker (Google Cloud 핵심 서비스) 계보 통합에는 미리보기 출시 중에 다음과 같은 제한사항이 있습니다.

  • 데이터 소스: 미리보기에서는 계보가 BigQuery 데이터 소스에만 지원됩니다.
  • 세분성: 계보는 객체 수준 (테이블, 뷰, Explore, 대시보드)에서 제공됩니다. 열 수준 계보 는 지원되지 않습니다.
  • 지연 시간: 계보 데이터는 실시간이 아닙니다. 동기화 프로세스는 일반적으로 4시간이 걸립니다. 하지만 Looker 메타데이터 내보내기 및 계보 데이터 소비 시점에 따라 동기화에 최대 8시간이 걸릴 수 있습니다. Looker 또는 BigQuery에서 변경한 사항이 계보 그래프에 표시되는 데 시간이 걸릴 수 있습니다.
  • 복잡한 SQL: 복잡한 맞춤 SQL (예: Liquid 템플릿, 복잡한 조인이 있는 파생 테이블)로 정의된 LookML은 완전히 파싱되지 않아 노드가 연결 해제될 수 있습니다.

가격 책정

미리보기 출시 중에는 이 통합과 함께 사용되는 데이터 계보 기능에 대한 요금이 청구되지 않습니다.

데이터 계보가 일반 안정화 버전으로 제공되면 가격이 책정됩니다. 향후 가격 책정 영향을 방지하기 위해 이 기능의 미리보기 출시 날짜에 Data Lineage API가 사용 설정되어 있고 하나 이상의 Looker (Google Cloud 핵심 서비스) 인스턴스를 호스팅한 프로젝트의 경우 Looker (Google Cloud 핵심 서비스) 계보 수집이 기본적으로 사용 중지됩니다.

자세한 내용은 Knowledge Catalog 가격 책정 페이지를 참조하세요.

다음 단계