메타데이터를 저장, 관리, 액세스할 수 있는 플랫폼인 Knowledge Catalog를 사용하여 Datastream 리소스를 검색하고 관리할 수 있습니다. Knowledge Catalog를 사용하여 다음을 수행할 수 있습니다.
- 데이터 스트림 메타데이터를 검색, 분석, 이해합니다.
- 스트림, 연결 프로필, 연결 구성과 같은 Datastream 리소스를 탐색합니다.
- 문제 해결 및 데이터 파이프라인 관리를 위한 운영 가시성 개선
- 실시간 및 배치 동기화를 통해 일관된 메타데이터 수집을 위한 거의 실시간 및 주기적 메커니즘을 모두 설정합니다. 자세한 내용은 동기화 모드를 참고하세요.
Knowledge Catalog 모델링
Datastream 리소스는 Knowledge Catalog에서 예약된 Knowledge Catalog 소유 항목 그룹 및 특정 항목 유형으로 모델링됩니다.
| Knowledge Catalog entity(지식 카탈로그 항목) | 리소스 식별자 |
|---|---|
| 항목 그룹 | @datastream |
| 항목 유형 | datastream-stream |
| 항목 유형 | datastream-connection-profile |
| 항목 유형 | datastream-private-connection |
메타데이터 탐색 유형
Knowledge Catalog 메타데이터 검색은 연결된 데이터 소스(예: Datastream)를 스캔하여 데이터 애셋을 식별하고 기술 메타데이터를 Knowledge Catalog로 추출하는 자동화된 프로세스입니다.
이 프로세스는 실시간 동기화와 주기적 동기화를 모두 사용하여 카탈로그를 소스 시스템과 일관되게 유지합니다. Datastream의 경우 모든 스트림, 연결 프로필, 비공개 연결 구성의 메타데이터가 기본적으로 검색됩니다.
| 리소스 유형 | 검색한 메타데이터 |
|---|---|
| 스트림 |
|
| 연결 프로필 |
|
| 비공개 연결 구성 |
|
동기화 모드
Datastream은 다음 동기화 모드를 사용하여 Knowledge Catalog를 소스 시스템과 일관되게 유지합니다.
- 실시간 동기화: 이 모드에서는 메타데이터가 변경될 때마다 Datastream이 Pub/Sub 주제에 이벤트를 게시합니다. 이렇게 하면 Knowledge Catalog가 이러한 주제를 구독하여 거의 실시간 업데이트를 받을 수 있습니다.
- 일괄 동기화: 이 모드에서 Datastream은 지정된 Cloud Storage 버킷에 전체 메타데이터 내보내기 (체크포인트)를 주기적으로 게시하며, Knowledge Catalog는 이 버킷에서 데이터를 수집합니다.
키워드 및 자연어 검색
Knowledge Catalog는 키워드 검색과 자연어 검색을 지원합니다.
- 키워드 검색을 사용하면 특정 키워드, 필터, 정의된 구문을 사용하여 리소스를 찾을 수 있습니다. 예를 들어
system=Datastream AND type=Stream를 입력하여 모든 Datastream 스트림을 볼 수 있습니다. - 자연어 검색(프리뷰)은 AI를 사용하여 시맨틱 쿼리를 이해합니다. 일상적인 언어를 사용하여 리소스를 찾을 수 있으므로 복잡한 구문이 필요 없습니다. 예를 들어
List all Datastream streams with BigQuery destination와 같은 쿼리를 입력할 수 있습니다.
자세한 내용은 Knowledge Catalog 검색 구문을 참고하세요.
시작하기 전에
- Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
프로젝트에 Dataplex API를 사용 설정합니다.
- 필요한 권한이 있는지 확인합니다.
필요한 IAM 역할
이 섹션에서는 리소스를 검색하고 검색 결과에 액세스하는 데 필요한 역할과 권한을 설명합니다.
검색 결과에 액세스하는 데 필요한 역할
Knowledge Catalog에서 Datastream 메타데이터를 검색하고 보려면 주 구성원에게 dataplex.projects.search 권한을 포함한 Datastream 리소스를 볼 수 있는 권한이 있어야 합니다.
사용자, 그룹 또는 서비스 계정과 같은 주 구성원에게 이러한 권한을 부여하려면 Datastream 리소스가 포함된 프로젝트에 대한 Datastream 뷰어(roles/datastream.viewer) IAM 역할을 할당합니다.
| Knowledge Catalog 작업 | Datastream 리소스 | 필요한 역할이나 권한 |
|---|---|---|
| Datastream 리소스 검색 | 스트림 | datastream.streams.get |
| 연결 프로필 | datastream.connectionProfiles.get |
|
| 비공개 연결 구성 | datastream.privateConnections.get |
역할 부여에 대한 자세한 내용은 액세스 관리를 참조하세요. Datastream IAM 역할에 대한 자세한 내용은 Datastream의 IAM 역할 및 권한을 참고하세요.
항목 검색에 필요한 역할
항목을 검색하려면 검색에 사용되는 프로젝트에 대한 다음 IAM 역할이 최소 하나 이상 필요합니다.
- Dataplex Catalog 관리자(
roles/dataplex.catalogAdmin) - Dataplex Catalog 편집자(
roles/dataplex.catalogEditor) - Dataplex Catalog 뷰어(
roles/dataplex.catalogViewer)
검색 결과에 대한 권한은 선택한 프로젝트와는 별도로 확인됩니다. 자세한 내용은 Knowledge Catalog로 데이터 애셋 검색을 참고하세요.
Datastream 애셋 검색
Google Cloud 콘솔의 Knowledge Catalog 검색 페이지를 사용하여 Datastream 애셋을 검색합니다.
Knowledge Catalog 검색 페이지로 이동합니다.
검색 플랫폼 선택에서 Knowledge Catalog를 선택합니다.
필터 패널에서 시스템을 클릭한 후 Datastream을 선택합니다.
선택사항입니다. 유형 별칭에서 다음 유형 별칭 중 하나 이상을 선택하여 특정 유형의 Datastream 애셋으로 검색 결과를 필터링할 수 있습니다.
- 데이터 스트림: Datastream 스트림을 검색합니다.
- 연결 프로필: Datastream 연결 프로필을 검색합니다.
- 연결: Datastream 비공개 연결 구성을 검색합니다.
쿼리를 사용하여 키워드 검색 수행
Knowledge Catalog의 검색창을 사용하여 키워드 검색어를 수행할 수 있습니다. 예를 들어 system=Datastream AND type=Stream를 입력하여 모든 Datastream 스트림을 볼 수 있습니다.
자세한 내용은 Knowledge Catalog 검색 구문을 참고하세요.
모든 Datastream 애셋을 보려면 system=Datastream를 입력합니다.
그런 다음 구체적인 키워드를 입력할 수 있습니다. 예를 들어 모든 Datastream 스트림을 보려면 다음 명령어를 실행합니다.
system=Datastream AND type=Stream
모든 연결 프로필을 보려면 다음 쿼리를 입력합니다.
system=Datastream AND type=ConnectionProfile
또한 복잡한 표현식에 괄호 및 논리 연산자 AND와 OR을 사용할 수도 있습니다. 검색창에서 사용할 수 있는 표현식에 대한 자세한 내용은 Knowledge Catalog 검색 구문을 참고하세요.
특정 Datastream 애셋에 대한 검색어를 검색창에 직접 입력할 수 있습니다. 쿼리 문자열 형식은 다음과 같습니다.
type="projects/dataplex-types/locations/global/entryTypes/QUERY_STRING"
다음을 바꿉니다.
QUERY_STRING: 다음 목록을 사용하여 쿼리할 Datastream 애셋 유형에 따라 쿼리 문자열을 식별합니다.datastream-streamdatastream-connection-profiledatastream-private-connection
예시 쿼리는 다음과 같습니다.
type="projects/dataplex-types/locations/global/entryTypes/datastream-stream"
가격 책정
Knowledge Catalog에 Datastream 기술 메타데이터를 저장하는 데는 요금이 청구되지 않습니다. 표준 Knowledge Catalog 가격 책정은 API 호출 및 추가 비즈니스 메타데이터 보강에 적용됩니다. 자세한 내용은 Knowledge Catalog 가격 책정 페이지를 참고하세요.
다음 단계
- Knowledge Catalog의 메타데이터 관리에 대해 알아봅니다.
- Knowledge Catalog ID 및 액세스 관리 역할에 대해 알아보세요.