데이터 계보 정보

데이터 계보를 사용하면 시스템을 통해 데이터 이동 방식을 추적할 수 있습니다. 데이터 애셋에 적용된 출처, 대상, 변환을 확인할 수 있습니다.

Google Cloud 콘솔에서 Dataplex Universal Catalog, BigQuery, Vertex AI 애셋의 계보 정보를 보거나 Data Lineage API를 사용하여 해당 정보를 검색할 수 있습니다.

데이터 계보가 필요한 이유

대규모 데이터 세트를 사용하려면 텍스트 파일, 테이블, 보고서, 대시보드, 모델과 같은 특정 프로젝트에 맞게 데이터를 다양한 형식으로 변환해야 하는 경우가 많습니다.

예를 들어 온라인 상점에는 다음과 같은 흐름의 데이터 파이프라인이 있을 수 있습니다.

  1. Dataflow 작업은 Pub/Sub 주제에서 원시 구매 이벤트, Cloud Storage 파일에서 제품 세부정보, BigQuery 테이블에서 고객 정보를 읽습니다. 작업은 이 정보를 조인하고 BigQuery에 purchases 테이블을 만듭니다.

  2. 후속 BigQuery 작업은 purchases 테이블을 변환하여 region 또는 brand와 같은 더 작은 집계 테이블을 만들고 total_profit과 같은 새 열을 계산합니다.

  3. 분석가는 이러한 테이블을 사용하여 Looker에서 보고서와 대시보드를 생성합니다.

이 일반적인 시나리오에는 다음과 같은 몇 가지 문제가 있을 수 있습니다.

  • 데이터 소비자에게 데이터가 신뢰할 수 있는 소스에서 비롯되는지 확인할 수 있는 셀프 서비스 방법이 없습니다.

  • 데이터 엔지니어는 모든 데이터 변환을 안정적으로 추적할 수 없으므로 문제의 근본 원인을 찾는 데 어려움을 겪습니다. 예를 들어 분석가가 total_profit 열에서 오류를 발견하면 오류의 출처를 추적하기가 어렵습니다.

  • 데이터 엔지니어와 분석가는 테이블을 수정하거나 삭제할 때 발생할 수 있는 영향을 완전히 평가할 수 없습니다. 예를 들어 데이터 엔지니어와 분석가는 product_id 열을 지원 중단하기 전에 보고서가 중단되지 않도록 모든 종속 다운스트림 열을 식별해야 합니다.

  • 데이터 거버넌스 담당자는 조직 전체에서 민감한 정보가 사용되는 방식을 파악할 수 없으므로 규제 요구사항을 준수하기가 어렵습니다.

데이터 계보는 데이터 여정에 대한 명확하고 시각적인 지도로 제공하여 이러한 문제를 해결합니다. 데이터 계보를 사용하면 다음 작업을 수행할 수 있습니다.

  • 계보 그래프를 사용하여 데이터가 소싱되고 변환되는 방식을 이해합니다.

  • 데이터 항목 및 작업에서 발생한 오류의 근본 원인을 추적합니다.

  • 영향 분석을 통해 변경 관리를 더욱 효율적으로 지원하여 다운타임이나 예기치 않은 오류를 방지하고 종속 항목을 이해하며 이해관계자와 공동작업을 수행합니다.

데이터 계보 워크플로

데이터 계보 워크플로에는 다음 단계가 포함됩니다.

  1. 데이터 소스 및 수집: 데이터 소스의 계보 정보에서 전체 프로세스를 시작합니다. 자세한 내용은 계보 소스를 참조하세요.

    • Google Cloud 서비스: Data Lineage API가 사용 설정되면 BigQuery 및 Dataflow와 같은 지원되는 서비스에서 데이터가 이동하거나 변환될 때마다 계보 이벤트를 자동으로 보고합니다.

    • 커스텀 소스:Google Cloud 통합에서 자동으로 지원하지 않는 시스템의 경우 Data Lineage API를 사용하여 계보 정보를 수동으로 기록할 수 있습니다. OpenLineage 표준에 따라 형식이 지정된 이벤트를 가져오는 것이 좋습니다.

  2. 계보 플랫폼: 이 중앙 플랫폼은 모든 계보 데이터를 수집, 모델링, 저장합니다. 자세한 내용은 계보 정보 모델 및 세부사항을 참조하세요.

    • Data Lineage API: 이 API는 모든 수신 계보 정보의 단일 진입점 역할을 합니다. 프로세스, 실행, 이벤트 등 세 가지 핵심 개념으로 구성된 계층적 데이터 모델을 사용합니다.

    • 처리 및 스토리지: 플랫폼은 수신 데이터를 처리하고 쿼리에 최적화된 신뢰할 수 잇는 데이터베이스에 저장합니다.

  3. 사용자 경험: 저장된 계보 정보와 상호작용하는 두 가지 기본 방법이 있습니다.

    • 시각적 탐색: Google Cloud 콘솔에서 프런트엔드 서비스가 계보 데이터를 가져와 대화형 그래프나 목록으로 렌더링합니다. Dataplex Universal Catalog, BigQuery, Vertex AI (모델, 데이터 세트, Feature Store 뷰, 특성 그룹)에 지원됩니다. 데이터 여정을 시각적으로 탐색하는 데 적합합니다. 자세한 내용은 Google Cloud 콘솔의 계보 보기를 참조하세요.

    • 프로그래매틱 액세스: API 클라이언트를 사용하여 Data Lineage API와 직접 통신해 계보 관리를 자동화할 수 있습니다. 이를 통해 커스텀 소스에서 계보 정보를 작성할 수 있습니다. 또한 다른 애플리케이션에서 사용하거나 커스텀 보고서를 빌드할 수 있도록 저장된 계보 데이터를 읽고 쿼리할 수 있습니다.

계보 소스

다음과 같은 방법으로 Dataplex Universal Catalog에 계보 정보를 채울 수 있습니다.

  • 통합 Google Cloud 서비스에서 자동으로 채웁니다.
  • 커스텀 소스용 Data Lineage API를 사용하여 수동으로 채웁니다.
  • OpenLineage에서 이벤트를 가져와 채웁니다.

자동화된 데이터 계보 추적

Data Lineage API를 사용 설정하면 데이터 계보를 지원하는 Google Cloud 시스템에서 데이터 이동을 보고하기 시작합니다. 각 통합 시스템은 다양한 데이터 소스의 계보 정보를 제출할 수 있습니다.

BigQuery

BigQuery 프로젝트에서 데이터 계보를 사용 설정하면 Dataplex Universal Catalog에서 다음 계보 정보를 자동으로 기록합니다.

BigQuery 복사, 쿼리, 로드 작업은 프로세스로 표현됩니다.

프로세스 세부정보를 보려면 계보 그래프에서 을 클릭합니다.

각 프로세스에는 최신 BigQuery 작업에 대한 속성 목록의 BigQuery job_id가 포함되어 있습니다.

기타 서비스

데이터 계보는 다음Google Cloud 서비스와 통합될 수 있습니다.

커스텀 데이터 소스의 데이터 계보

Data Lineage API를 사용하여 통합 시스템에서 지원하지 않는 모든 데이터 소스의 계보 정보를 수동으로 기록할 수 있습니다.

기존 Dataplex Universal Catalog 항목의 정규화된 이름과 일치하는 fullyQualifiedName를 사용하면 Dataplex 범용 카탈로그에서 수동으로 기록된 계보에 대한 계보 그래프를 만들 수 있습니다. 커스텀 데이터 소스의 계보를 기록하려면 먼저 커스텀 항목을 만들어야 합니다.

커스텀 데이터 소스의 각 프로세스에는 속성 목록의 sql 키가 포함될 수 있습니다. 이 키의 값은 데이터 계보 그래프의 세부정보 패널에서 코드 강조 표시를 렌더링하는 데 사용됩니다. SQL 문은 제공된 대로 표시됩니다. 개발자가 민감한 정보를 필터링해야 합니다. sql 키 이름은 대소문자를 구분합니다.

OpenLineage

이미 OpenLineage를 사용하여 다른 데이터 소스에서 계보 정보를 수집하고 있는 경우 OpenLineage 이벤트를 Dataplex Universal Catalog로 가져와 Google Cloud 콘솔에서 이러한 이벤트를 볼 수 있습니다. 자세한 내용은 OpenLineage와 통합을 참조하세요.

제한사항

데이터 계보에는 다음과 같은 제한사항이 있습니다.

  • 모든 계보 정보는 30일 동안만 시스템에 보관됩니다.

  • 계보 정보는 관련 데이터 소스를 삭제한 후에도 유지됩니다. 예를 들어 BigQuery 테이블을 삭제해도 API와 콘솔을 통해 최대 30일 동안 계보를 볼 수 있습니다.

열 수준 계보 제한사항

열 수준 계보에는 다음과 같은 추가 제한사항이 있습니다.

  • BigQuery 로드 작업이나 루틴에 대해서는 열 수준 계보가 수집되지 않습니다.

  • 외부 테이블에 대해 업스트림 열 수준 계보가 수집되지 않습니다.

  • 작업에서 1,500개가 넘는 열 수준 링크를 만들면 열 수준 계보는 수집되지 않습니다. 이러한 경우에는 테이블 수준 계보만 수집됩니다.

  • 열 수준 계보를 생성, 읽기, 업데이트, 삭제 또는 검색하는 API는 없습니다.

  • _PARTITIONDATE_PARTITIONTIME과 같은 파티셔닝 열이 계보 그래프에서 인식되지 않으므로 파티션을 나눈 테이블에 대한 지원이 제한됩니다.

  • 콘솔 제한사항은 다음과 같습니다.

    • 계보 그래프 탐색은 각 방향으로 깊이 20단계와 링크 10,000개로 제한됩니다.

    • 루트 테이블이 있는 리전에서만 열 수준 계보를 가져옵니다. 그래프 뷰에서는 리전 간 계보가 지원되지 않습니다.

가격 책정

  • Dataplex Universal Catalog는 프리미엄 처리 SKU를 사용하여 데이터 계보 요금을 청구합니다. 자세한 내용은 가격 책정을 참조하세요.

  • 데이터 계보 요금을 Dataplex Universal Catalog 프리미엄 처리 SKU의 다른 요금과 구분하려면 Cloud Billing 보고서에서 LINEAGE 값과 함께 goog-dataplex-workload-type 라벨을 사용합니다.

  • CUSTOM이 아닌 값으로 Data Lineage API Origin sourceType을 호출하면 추가 비용이 발생합니다.

다음 단계