데이터 제품 정보

이 문서에서는 Dataplex Universal Catalog의 데이터 제품 아키텍처와 주요 개념을 설명합니다.

데이터 제품은 검색 가능하고, 신뢰할 수 있으며, 액세스할 수 있도록 공식적으로 패키징된 데이터 애셋의 논리적이고 선별된 모음입니다. 데이터 제품의 주요 기능은 다음과 같습니다.

  • 특정 비즈니스 문제를 해결하고 인사이트 도달 시간을 단축하는 논리적 단위로 카탈로그 애셋을 정리합니다.
  • 설명, 문서, 측면을 포함하는 컨텍스트와 함께 배포합니다.
  • 데이터 생산자가 데이터 소비자에게 보증을 제공할 수 있는 계약을 통해 신뢰를 구축합니다.
  • 데이터 소비자가 데이터 제품을 평가하고 데이터에 액세스할 수 있도록 셀프 서비스 워크플로를 제공합니다.

주요 개념

이 섹션에서는 데이터 제품과 관련된 주요 개념과 용어를 설명합니다.

데이터 제품

특정 비즈니스 문제를 해결하기 위해 검색 가능하고, 신뢰할 수 있으며, 액세스 가능하도록 공식적으로 패키징된 선별된 논리적 데이터 애셋 그룹입니다.

확장 소재

BigQuery 데이터 세트, 테이블 또는 뷰와 같은 실제 데이터 리소스에 대한 포인터입니다. 데이터 제품은 하나 이상의 애셋으로 구성됩니다.

액세스 그룹

Google 그룹은 데이터 제품 소유자가 구성하며 데이터 제품 소비자가 액세스를 요청하는 데 사용합니다. 애셋 권한은 이러한 액세스 그룹에 할당됩니다.

액세스 그룹을 사용하면 데이터 제품의 권한 관리가 간소화됩니다. 기본 IAM 그룹의 사용자 친화적인 별칭(예: Reader 또는 Analyst) 역할을 합니다. 이를 통해 데이터 제품 소유자는 높은 수준에서 권한을 할당할 수 있으며 소비자는 올바른 수준의 액세스를 요청할 수 있습니다.

데이터 제품 소유자 또는 데이터 생산자

데이터 제품의 생성 및 관리를 담당하는 개인 또는 팀입니다. 여기에는 품질, 액세스, 문서 관리가 포함됩니다.

데이터 제품 소비자

데이터 제품을 소비하여 인사이트를 생성하는 개인, 팀 또는 AI 에이전트입니다.

계약

데이터 제품 소유자와 소비자 간의 계약입니다. 이 계약은 업데이트 일정 및 품질 표준과 같은 데이터 제공 및 사용 방법에 관한 구체적인 용어를 정의하여 명확한 기대치를 설정합니다.

사용 사례

전자상거래 비즈니스를 분석하는 데이터 과학자를 생각해 보세요. 목표는 트래픽 소스별 평균 주문 금액(AOV)을 파악하고 사용자 연령과 주문 규모 간에 상관관계가 있는지 확인하는 것입니다. 이렇게 하려면 order_details, user_traffic, user_demographic과 같은 여러 테이블의 데이터를 결합해야 합니다.

일반적인 설정에서는 이 프로세스가 마찰을 일으킵니다. 인사이트를 생성하려면 데이터 과학자가 먼저 조직의 방대한 데이터 환경 내에서 올바른 테이블을 찾아야 합니다. 그런 다음 각 데이터 소유자에게 연락하여 액세스 요청을 정당화하고 승인을 기다려야 합니다.

데이터 제품을 사용하면 데이터 소유자가 관련 애셋을 '이커머스 비즈니스 데이터'라는 단일 제품으로 패키징하여 이 환경을 간소화할 수 있습니다. 이 패키지에는 다음이 포함됩니다.

  • 애셋

    • BigQuery 테이블 order_detailsuser_traffic(이전 주문 데이터 및 트래픽 소스 포함)
    • BigQuery 보기 user_demographics(PII가 제외된 사용자 세부정보 제공)
  • 액세스 그룹

    • 액세스 요청을 간소화하기 위해 사전 정의된 ReaderWriter 그룹
  • 계약

    • 데이터 새로고침 빈도를 정의하는 계약(예:오전 8시(PST)에 매주)
  • 컨텍스트

    • 샘플 쿼리 및 기타 세부정보가 포함된 문서
    • 데이터 민감도를 나타내는 추가 메타데이터

이제 데이터 과학자는 이 데이터 제품을 단일 논리 단위로 검색할 수 있습니다. 이를 통해 '각 트래픽 소스의 평균 주문 금액은 얼마인가요?'와 같은 질문에 대한 인사이트를 자신 있게 생성하여 궁극적으로 가장 가치 있는 고객을 생성하는 소스를 파악할 수 있습니다.

데이터 제품 사용자 플로우

Dataplex Universal Catalog의 데이터 제품 수명 주기에는 두 가지 주요 사용자 여정이 포함됩니다. 하나는 데이터를 만들고 관리하는 데이터 제품 소유자(또는 생산자)를 위한 것이고, 다른 하나는 데이터를 검색하고 사용하는 데이터 제품 소비자를 위한 것입니다.

데이터 제품 소유자 여정

이 여정에서는 신뢰할 수 있고 액세스 가능한 데이터 제품을 패키징하고, 보호하고, 관리하는 데 중점을 둡니다.

  • 만들기: 데이터 제품을 정의하고 애셋을 포함합니다. 여기에는 다음 작업이 포함됩니다.

    • 고유 이름, 프로젝트, 리전, 설명을 구성합니다.
    • BigQuery 테이블, 데이터 세트, 뷰와 같은 애셋을 추가합니다.
    • 액세스 그룹(예: Analyst 또는 Reader)을 구성하고 기본 Google 그룹에 매핑하여 권한 관리를 간소화합니다.
    • 특정 애셋에 대해 이러한 액세스 그룹에 필요한 IAM 역할을 할당합니다.
    • 합의된 데이터 새로고침 주기, 빈도, 기준점을 공식적으로 전달하기 위해 계약(시스템 측면)을 추가합니다.

    자세한 내용은 데이터 제품 만들기를 참고하세요.

  • 관리: 데이터 제품을 업데이트하고 검색 가능성을 보장합니다. 여기에는 다음 작업이 포함됩니다.

    • 기본 세부정보, 애셋, 권한, 보조 측면(메타데이터), 서식 있는 텍스트 문서를 업데이트합니다.
    • 소비자가 데이터 제품을 검색하고 액세스를 요청할 수 있도록 액세스 권한을 부여합니다.

    자세한 내용은 데이터 제품 관리를 참고하세요.

데이터 제품 고객 여정

이 여정은 신뢰할 수 있는 데이터를 빠르게 찾고 이를 사용하는 데 필요한 권한을 얻는 데 중점을 둡니다.

  • 발견: 특정 비즈니스 문제와 관련된 신뢰할 수 있는 데이터를 찾습니다. 여기에는 다음 작업이 포함됩니다.

    • 키워드 또는 자연어를 사용하여 Dataplex Universal Catalog 검색으로 패키지 데이터 제품을 찾습니다.
    • 데이터 제품의 개요, 애셋, 계약 및 기타 측면을 검토하여 사용 적합성을 확인합니다.

    자세한 내용은 데이터 제품 검색을 참고하세요.

  • 액세스 권한 요청: 데이터에 액세스할 수 있는 권한을 데이터 제품 소유자에게 요청합니다.

    자세한 내용은 데이터 제품에 대한 액세스 권한 요청을 참고하세요.

  • 사용: 기본 애셋에 액세스하여 인사이트를 생성합니다. 여기에는 다음 작업이 포함됩니다.

    • 승인되면 제품과 애셋에 액세스할 수 있습니다. 예를 들어 애셋이 BigQuery 테이블인 경우 BigQuery 스튜디오로 이동하여 데이터를 직접 쿼리할 수 있습니다.

    자세한 내용은 데이터 제품 사용을 참고하세요.

지원되는 애셋

데이터 제품은 하나 이상의 데이터 애셋으로 구성될 수 있습니다. 프리뷰에서는 다음 데이터 애셋이 지원됩니다.

  • BigQuery 데이터 세트
  • BigQuery 테이블
  • BigQuery 뷰

제한사항

  • 데이터 제품과 기본 애셋은 동일한Google Cloud 위치에 있어야 합니다.
  • 데이터 제품에는 최대 10개의 애셋이 포함될 수 있습니다.
  • 프로젝트당 최대 50개의 데이터 제품을 만들 수 있습니다.
  • 승인 요청 워크플로 통합은 프리뷰에서 사용할 수 없습니다. 하지만 데이터 제품 소비자는 데이터 제품 소유자에게 이메일 알림을 트리거하여 액세스를 요청할 수 있습니다.

다음 단계