Dataplex Universal Catalog는 조직의 데이터 애셋을 관리, 이해, 사용하는 데 도움이 되는 지능형 통합 데이터 거버넌스 솔루션입니다. Dataplex Universal Catalog는 AI를 사용하여 다양한 시스템에 분산된 데이터를 사용하는 작업을 간소화하므로 유용한 통계를 얻는 데 집중할 수 있습니다.
예를 들어 대량 판매, 인벤토리, 고객 데이터를 생성하여 Cloud Storage, Spanner, Pub/Sub에 저장하는 글로벌 소매업체가 있다고 가정해 보겠습니다. 이러한 방식으로 데이터가 여러 시스템에 분산되어 있으면 거버넌스 관리, 품질 보장, 규정 준수 유지가 복잡하고 시간이 오래 걸리는 작업일 수 있습니다. Dataplex Universal Catalog는 조직 데이터 애셋을 탐색, 프로파일링, 검증하고 계보를 추적하고 액세스를 제어할 수 있는 중앙 데이터 카탈로그를 제공하여 이러한 프로세스를 간소화합니다.
이 문서에서는 Dataplex Universal Catalog 핵심 기능을 설명하고 주요 사용 사례를 강조합니다.
데이터 거버넌스를 위한 Dataplex Universal Catalog 기능
Dataplex Universal Catalog는 다음 기능을 통해 데이터를 관리합니다.
- 메타데이터 분류. 즉석 데이터 카탈로그를 위해 Google Cloud 리소스 (BigQuery, Cloud SQL, Spanner, Vertex AI, Pub/Sub, Dataform, Dataproc Metastore) 및 Dataplex Universal Catalog로 가져온 서드 파티 리소스의 메타데이터를 검색합니다.
- 데이터 탐색. Cloud Storage 버킷에서 정형 데이터와 비정형 데이터를 스캔하여 메타데이터를 추출하고 분류합니다.
- 데이터 통계. AI를 사용하여 데이터에 대한 자연어 질문을 생성하고 패턴을 파악하고 데이터 품질을 평가하며 통계 분석을 수행합니다.
- 데이터 프로파일링. BigQuery 테이블의 일반적인 열 데이터 특성(예: 일반적인 데이터 값, 데이터 분포, null 개수)을 식별하여 데이터 분류와 품질 보증에 참고할 수 있습니다.
- 데이터 품질. 조직 정책에 따라 데이터를 검증하고 데이터가 품질 기준을 충족하지 못하는 경우 알림을 로깅하여 BigQuery 테이블에서 데이터 품질을 정의하고 측정합니다.
- 비즈니스 용어집. 조직 전반에서 비즈니스 관련 용어와 정의를 관리하고 용어를 테이블 열에 연결하여 데이터 사용에 대한 일관된 이해를 유도합니다.
- 데이터 계보. 시스템을 통해 데이터가 이동하는 방식, 즉 데이터의 출처, 데이터가 전달되는 위치, 데이터에 적용되는 변환을 추적합니다.
Dataplex Universal Catalog는 분산된 탐색부터 비즈니스 통계에 이르기까지 엔드 투 엔드 데이터 수명 주기를 지원합니다. 거버넌스 기능은 BigQuery를 통해서도 사용 가능합니다.
사용 사례
Dataplex Universal Catalog를 사용하여 다음을 수행할 수 있습니다.
데이터를 탐색하고 및 이해합니다. Dataplex Universal Catalog는 조직 전체의 데이터 리소스에 대한 가시성을 제공합니다. 이를 통해 데이터 소비 니즈 관련 리소스를 찾을 수 있습니다. 데이터 리소스의 컨텍스트를 제공하므로 데이터 소비자 니즈에 대한 데이터 리소스 적합성을 파악할 수 있습니다.
데이터 거버넌스와 데이터 관리를 지원합니다. Dataplex Universal Catalog는 데이터 거버넌스와 데이터 관리 기능을 지원하고 강화할 수 있는 메타데이터를 제공합니다.
중앙 데이터 카탈로그를 만듭니다. Dataplex Universal Catalog는 Google Cloud 리소스에서 자동으로 수집된 메타데이터를 저장하고 이에 대한 액세스 권한을 제공합니다.Google Cloud 이외의 시스템에서 자체 메타데이터를 통합할 수 있습니다. 비즈니스 및 기술 메타데이터 주석을 추가하여 모든 메타데이터를 보강할 수 있습니다.
Dataplex Universal Catalog 시작하기
Dataplex Universal Catalog를 처음 사용하는 경우에는 다음 빠른 시작을 수행하는 것이 좋습니다.
다음 단계
- 데이터 거버넌스 알아보기
- Dataplex Universal Catalog의 메타데이터 관리 알아보기
- 데이터 애셋을 검색하는 방법 알아보기
- 항목 관리 및 커스텀 소스 수집 방법 알아보기
- Dataplex Universal Catalog로 메타데이터를 가져오는 방법 알아보기
- BigQuery 거버넌스 알아보기