데이터 계보 정보

데이터 계보는 데이터 전체 수명 주기를 추적하는 시각적 지도입니다. 데이터 출처, 이동 경로(대상), 이동 중에 발생하는 모든 변경사항 또는 변환을 보여줍니다.

Dataplex Universal Catalog, BigQuery, Vertex AI와 같은 제품에서 생성된 애셋의Google Cloud 콘솔에서 데이터 여정의 전체 지도를 직접 볼 수 있습니다. 고급 사용자는 Data Lineage API를 사용하여 이 정보를 검색할 수도 있습니다.

데이터 계보가 필요한 이유

현대 기업은 대량의 데이터를 지속적으로 이동하고 변경합니다. 예를 들어 원시 고객 구매를 보고서, 대시보드, 머신러닝 모델로 변환합니다. 이러한 복잡성으로 인해 팀에 다음과 같은 심각한 문제가 발생합니다.

  • 신뢰 및 확인: 데이터 사용자는 자신이 보고 있는 보고서와 숫자가 정확하고 신뢰할 수 있는 소스에서 제공되는지 확인하기 어려운 경우가 자주 있습니다.

  • 문제 해결: 최종 보고서에 오류가 표시되면 데이터팀에서 모든 단계를 거쳐 문제 근본 원인을 추적하는 데 곤란함을 겪고 시간이 오래 걸릴 수 있습니다.

  • 변경 관리: 테이블의 열과 같은 데이터를 변경하거나 삭제하기 전에 팀은 중요한 시스템이 중단되지 않도록 이 데이터를 사용하는 모든 다운스트림 보고서나 모델을 알아야 합니다.

  • 규정 준수: 리더는 규제 요구사항을 충족하기 위해 조직 전체에서 민감한 정보(예: 고객 또는 금융 정보)가 사용되는 방식을 파악해야 합니다.

데이터 계보는 데이터의 명확하고 시각적이며 문서화된 여정을 제공함으로써 이러한 문제를 해결합니다. 이를 통해 데이터 소스를 빠르게 파악하고 오류를 추적하고 변경사항의 영향을 평가하며 규정 준수를 유지할 수 있습니다.

데이터 계보 워크플로

데이터 계보 워크플로에는 다음 단계가 포함됩니다.

  1. 데이터 소스 및 수집: 데이터 소스의 계보 정보에서 전체 프로세스를 시작합니다. 자세한 내용은 계보 소스를 참조하세요.

    • Google Cloud 서비스: Data Lineage API가 사용 설정되면 BigQuery 및 Dataflow와 같은 지원되는 서비스에서 데이터가 이동하거나 변환될 때마다 계보 이벤트를 자동으로 보고합니다.

    • 커스텀 소스:Google Cloud 통합에서 자동으로 지원하지 않는 시스템의 경우 Data Lineage API를 사용하여 계보 정보를 수동으로 기록할 수 있습니다. OpenLineage 표준에 따라 형식이 지정된 이벤트를 가져오는 것이 좋습니다.

  2. 계보 플랫폼: 이 중앙 플랫폼은 모든 계보 데이터를 수집, 모델링, 저장합니다. 자세한 내용은 계보 정보 모델 및 세부사항을 참조하세요.

    • Data Lineage API: 이 API는 모든 수신 계보 정보의 단일 진입점 역할을 합니다. 프로세스, 실행, 이벤트 등 세 가지 핵심 개념으로 구성된 계층적 데이터 모델을 사용합니다.

    • 처리 및 스토리지: 플랫폼은 수신 데이터를 처리하고 쿼리에 최적화된 신뢰할 수 있는 데이터베이스에 저장합니다.

  3. 사용자 경험: 다음 두 가지 기본 방법으로 저장된 계보 정보와 상호작용할 수 있습니다.

    • 시각적 탐색: Google Cloud 콘솔에서 프런트엔드 서비스가 계보 데이터를 가져와 대화형 그래프나 목록으로 렌더링합니다. Dataplex Universal Catalog, BigQuery, Vertex AI (모델, 데이터 세트, Feature Store 뷰, 특성 그룹)에 지원됩니다. 데이터 여정을 시각적으로 탐색하는 데 적합합니다. 자세한 내용은 Google Cloud 콘솔에서 계보 보기를 참조하세요.

    • 프로그래매틱 방식으로 액세스: API 클라이언트를 사용하면 Data Lineage API와 직접 통신하여 계보 관리를 자동화할 수 있습니다. 이렇게 하면 커스텀 소스에서 계보 정보를 작성할 수 있습니다. 또한 다른 애플리케이션에서 사용하거나 커스텀 보고서를 빌드할 수 있도록 저장된 계보 데이터를 읽고 쿼리할 수 있습니다.

계보 소스

다음과 같은 방법으로 Dataplex Universal Catalog에 계보 정보를 채울 수 있습니다.

  • 통합 Google Cloud 서비스에서 자동으로 채웁니다.
  • 커스텀 소스용 Data Lineage API를 사용하여 수동으로 채웁니다.
  • OpenLineage에서 이벤트를 가져와 채웁니다.

자동화된 데이터 계보 추적

Data Lineage API를 사용 설정하면 데이터 계보를 지원하는 Google Cloud 시스템에서 데이터 이동을 보고합니다. 각 통합 시스템에서 다양한 데이터 소스의 계보 정보를 제출할 수 있습니다.

BigQuery

BigQuery 프로젝트에서 데이터 계보를 사용 설정하면 Dataplex Universal Catalog에서 다음 계보 정보를 자동으로 기록합니다.

BigQuery 복사, 쿼리, 로드 작업은 프로세스로 표현됩니다.

프로세스 세부정보를 보려면 계보 그래프에서 을 클릭합니다.

각 프로세스는 최신 BigQuery 작업의 속성 목록에 BigQuery job_id를 포함합니다.

기타 서비스

데이터 계보는 다음Google Cloud 서비스와 통합될 수 있습니다.

커스텀 데이터 소스의 데이터 계보

Data Lineage API를 사용하여 통합 시스템에서 지원하지 않는 모든 데이터 소스의 계보 정보를 수동으로 기록할 수 있습니다.

기존 Dataplex Universal Catalog 항목의 정규화된 이름과 일치하는 fullyQualifiedName을 사용하면 Dataplex Universal Catalog에서 수동으로 기록된 계보에 대한 계보 그래프를 만들 수 있습니다. 커스텀 데이터 소스의 계보를 기록하려면 먼저 커스텀 항목을 만들어야 합니다.

커스텀 데이터 소스의 각 프로세스에는 속성 목록의 sql 키가 포함될 수 있습니다. 이 키의 값은 데이터 계보 그래프의 세부정보 패널에서 코드 강조 표시를 렌더링하는 데 사용됩니다. SQL 문은 제공된 대로 표시됩니다. 개발자가 민감한 정보를 필터링해야 합니다. sql 키 이름은 대소문자를 구분합니다.

OpenLineage

이미 OpenLineage를 사용하여 다른 데이터 소스에서 계보 정보를 수집하고 있으면 OpenLineage 이벤트를 Dataplex Universal Catalog로 가져와 Google Cloud 콘솔에서 이러한 이벤트를 볼 수 있습니다. 자세한 내용은 OpenLineage와 통합을 참조하세요.

제한사항

데이터 계보에는 다음과 같은 제한사항이 있습니다.

  • 모든 계보 정보는 30일 동안만 시스템에 보관됩니다.

  • 계보 정보는 개발자가 관련 데이터 소스를 삭제한 후에도 유지됩니다. 예를 들어 BigQuery 테이블을 삭제해도 API와 콘솔을 통해 최대 30일 동안 계보를 계속 볼 수 있습니다.

  • 데이터 계보는 BigQuery 루틴의 직접 계보 정보를 자동으로 기록하지 않습니다. 쿼리에서 루틴이 사용되면 데이터 계보는 루틴에서 읽는 테이블 간 계보를 쿼리가 작성하는 테이블의 종속 항목으로 기록합니다.

열 수준 계보 제한사항

열 수준 계보에는 다음과 같은 추가 제한사항이 있습니다.

  • BigQuery 로드 작업이나 루틴에 대한 열 수준 계보는 수집되지 않습니다.

  • 외부 테이블에 대한 업스트림 열 수준 계보는 수집되지 않습니다.

  • 작업에서 1,500개가 넘는 열 수준 링크를 만들면 열 수준 계보는 수집되지 않습니다. 이러한 경우에는 테이블 수준 계보만 수집됩니다.

  • 열 수준 계보를 생성, 읽기, 업데이트, 삭제 또는 검색하는 API는 없습니다.

  • _PARTITIONDATE_PARTITIONTIME과 같은 파티셔닝 열은 계보 그래프에서 인식되지 않으므로 파티션을 나눈 테이블에 대한 지원이 제한됩니다.

  • 콘솔 제한사항은 다음과 같습니다.

    • 계보 그래프 탐색은 각 방향으로 깊이 20단계와 링크 10,000개로 제한됩니다.

    • 루트 테이블이 있는 리전에서만 열 수준 계보를 가져옵니다. 그래프 뷰에서는 리전 간 계보가 지원되지 않습니다.

가격 책정

  • Dataplex Universal Catalog는 프리미엄 처리 SKU를 사용하여 데이터 계보 요금을 청구합니다. 자세한 내용은 가격 책정을 참조하세요.

  • 데이터 계보 요금을 Dataplex Universal Catalog 프리미엄 처리 SKU의 다른 요금과 구분하려면 Cloud Billing 보고서에서 LINEAGE 값과 함께 goog-dataplex-workload-type 라벨을 사용합니다.

  • CUSTOM 이외의 값으로 Data Lineage API Origin sourceType을 호출하면 추가 비용이 발생합니다.

다음 단계