Dataplex Universal Catalog를 사용하여 데이터 메시 아키텍처를 빌드할 수 있습니다. 이 빠른 시작에서는 레이크, 영역, 애셋과 같은 Dataplex Universal Catalog 기능을 사용하여 데이터 메시를 빌드하는 방법을 설명합니다.
데이터 메시는 데이터 소유권을 도메인 데이터 소유자 간에 분산하는 조직적이면서 기술적인 방법입니다. 이러한 소유자는 표준화된 방식을 통해 데이터를 제품으로 제공하고 조직의 여러 부서 간 소통을 촉진하여 데이터 세트를 여러 위치에 분산합니다. 데이터 메시 아키텍처에 대해 자세히 알아보세요.
도메인 만들기
Google Cloud 콘솔에서 Dataplex Universal Catalog 레이크 페이지로 이동합니다.
만들기를 클릭하여 데이터 메시 역할을 하는 새 레이크를 만듭니다.
표시 이름 필드에
My data mesh
을 입력합니다.리전에서
us-central1
을 선택합니다.이전에 만들어 연결된 metastore로 구성한 Dataproc Metastore 서비스를 선택합니다.
만들기를 클릭합니다.
레이크에 영역 만들기
Dataplex Universal Catalog 레이크를 만들어 도메인을 만든 후 영역을 사용하여 도메인 내에서 관리형 데이터 계약과 개별 팀을 호스팅할 수 있습니다. 영역에는 두 가지 유형이 있습니다.
원시 영역은 일반적으로 형식에 상관없이 Cloud Storage 외부 소스의 데이터를 저장하는 데 사용됩니다. 원시 영역은 소비할 수 있으려면 먼저 추가 처리가 필요한 데이터에 유용합니다.
선별된 영역은 특정 파일 형식을 준수해야 하는 Cloud Storage의 구조화된 데이터에 사용되며 Hive 호환 디렉터리 레이아웃으로 구성됩니다. 소비 및 분석에 사용할 수 있는 데이터에 가장 유용합니다.
각 도메인(예: sales
, customers
, products
)에는 최소한 원시 데이터 영역과 선별 데이터 영역이 하나씩 있어야 합니다.
추가 영역은 팀 간 데이터 계약을 관리하거나 지정된 도메인 내의 팀을 위한 보다 세분화된 분석을 제공하는 데 사용됩니다. 예를 들어 제품 도메인 내의 인벤토리 관리가 해당합니다. 데이터 소유자는 도메인 내의 데이터를 관리하고 데이터에 액세스할 수 있습니다.
Google Cloud 콘솔에서 Dataplex Universal Catalog 관리 뷰로 이동합니다.
영역을 추가할 레이크(
My data mesh
)의 이름을 클릭합니다.영역 탭에서
영역 추가를 클릭합니다.표시 이름 필드에
My sub domain
을 입력합니다. Dataplex Universal Catalog가 영역의 ID를 자동으로 생성합니다.유형에서 원시 데이터 영역을 선택합니다.
만들기를 클릭합니다.
영역에 애셋 연결
영역에 데이터 애셋을 연결합니다. 데이터가 포함된 스토리지 리소스인 데이터 애셋은 Cloud Storage 버킷 또는 BigQuery 데이터 세트일 수 있습니다. 데이터 메시 아키텍처를 만드는 마지막 단계입니다.
Dataplex Universal Catalog 관리 뷰에서 직접 만든 레이크(
My data mesh
)를 클릭합니다.영역 탭에서 애셋을 추가할 영역(
My sub domain
)을 클릭합니다.애셋 탭에서
애셋 추가를 클릭합니다.애셋 추가를 클릭합니다.
유형에서 Cloud Storage 버킷을 선택합니다.
표시 이름 필드에
Data mesh asset
을 입력합니다. Dataplex Universal Catalog가 애셋 ID를 자동으로 생성합니다.버킷 필드에서 찾아보기를 클릭합니다.
- 목록에서 버킷을 선택합니다.
- 선택을 클릭합니다.
완료를 클릭한 다음 계속을 클릭합니다.
계속을 클릭하여 기본 고급 설정을 수락합니다.
제출을 클릭합니다.