Dataplex Universal Catalog는 조직의 데이터 애셋을 관리, 이해, 사용하는 데 도움이 되는 통합 지능형 데이터 거버넌스 솔루션입니다. Dataplex Universal Catalog는 AI를 사용하여 다양한 시스템에 분산된 데이터 작업을 간소화하므로 유용한 통계를 얻는 데 집중할 수 있습니다.
예를 들어 Cloud Storage, Spanner, Pub/Sub에 저장된 대량의 판매, 인벤토리, 고객 데이터를 생성하는 글로벌 소매업체가 있다고 가정해 보겠습니다. 이러한 방식으로 데이터가 여러 시스템에 분산되어 있으면 거버넌스 관리, 품질 보장, 규정 준수 유지가 복잡하고 시간이 오래 걸리는 작업일 수 있습니다. Dataplex Universal Catalog는 조직의 데이터 애셋을 탐색, 프로파일링, 검증하고 계보를 추적하고 액세스를 제어할 수 있는 중앙 데이터 카탈로그를 제공하여 이러한 프로세스를 간소화합니다.
이 문서에서는 Dataplex Universal Catalog 핵심 기능을 설명하고 주요 사용 사례를 강조합니다.
Dataplex 범용 카탈로그 기능
Dataplex Universal Catalog는 다음 기능을 통해 데이터를 관리합니다.
- 메타데이터 분류. 즉시 데이터 카탈로그를 위해 Google Cloud 리소스 (BigQuery, Cloud SQL, Spanner, Vertex AI, Pub/Sub, Dataform, Dataproc Metastore) 및 Dataplex Universal Catalog로 가져온 서드 파티 리소스의 메타데이터를 검색합니다.
- 데이터 탐색. Cloud Storage 버킷에서 정형 데이터와 비정형 데이터를 스캔하여 메타데이터를 추출하고 분류합니다.
- 데이터 인사이트. AI를 사용하여 데이터에 관한 자연어 질문을 생성하고, 패턴을 파악하고, 데이터 품질을 평가하고, 통계 분석을 수행합니다.
- 데이터 프로파일링. BigQuery 테이블의 열 데이터의 일반적인 특성(예: 일반적인 데이터 값, 데이터 분포, null 개수)을 식별하여 데이터 분류 및 품질 보증에 참고할 수 있습니다.
- 데이터 품질. 조직 정책에 따라 데이터를 검증하고 데이터가 품질 기준을 충족하지 않는 경우 알림을 로깅하여 BigQuery 테이블의 데이터 품질을 정의하고 측정합니다.
- 비즈니스 용어집. 조직 전반에서 비즈니스 관련 용어 및 정의를 관리하고 용어를 테이블 열에 연결하여 데이터 사용에 대한 일관된 이해를 유도합니다.
- 데이터 계보. 시스템을 통해 데이터가 이동하는 방식, 즉 데이터의 출처, 데이터가 전달되는 위치, 데이터에 적용되는 변환을 추적합니다.
Dataplex Universal Catalog는 분산된 탐색에서 비즈니스 인사이트에 이르기까지 엔드 투 엔드 데이터 수명 주기를 지원합니다. 거버넌스 기능은 BigQuery를 통해서도 사용할 수 있습니다.
사용 사례
Dataplex Universal Catalog를 사용하여 다음을 수행할 수 있습니다.
데이터를 탐색하고 및 이해합니다. Dataplex Universal Catalog는 조직 전체의 데이터 리소스에 대한 가시성을 제공합니다. 이를 통해 데이터 소비 요구사항의 관련 리소스를 찾을 수 있습니다. 데이터 리소스의 컨텍스트를 제공하므로 데이터 소비자 니즈에 대한 데이터 리소스 적합성을 파악할 수 있습니다.
데이터 거버넌스 및 데이터 관리를 지원합니다. Dataplex Universal Catalog는 데이터 거버넌스 및 데이터 관리 기능을 지원하고 강화할 수 있는 메타데이터를 제공합니다.
중앙 데이터 카탈로그 만들기 Dataplex Universal Catalog는 Google Cloud 리소스에서 자동으로 수집된 메타데이터를 저장하고 이에 대한 액세스를 제공합니다.Google Cloud 외 시스템의 자체 메타데이터를 통합할 수 있습니다. 비즈니스 및 기술 메타데이터 주석을 추가하여 모든 메타데이터를 보강할 수 있습니다.
시작하기
Dataplex Universal Catalog를 처음 사용하는 경우 다음 빠른 시작을 참조하세요.
다음 단계
- Dataplex Universal Catalog의 메타데이터 관리 알아보기
- 데이터 애셋을 검색하는 방법 알아보기
- 항목 관리 및 커스텀 소스 수집 방법 알아보기
- Dataplex Universal Catalog로 메타데이터를 가져오는 방법 알아보기
- BigQuery 거버넌스 알아보기