이 문서에서는 Dataplex Universal Catalog를 사용하여 BigQuery 데이터 세트, Cloud SQL 인스턴스, 기타 지원되는 소스와 같은 리소스를 검색하는 방법을 설명합니다. 분산된 데이터 소스를 중앙에 배치하면 회사 데이터를 카탈로그화하고, 분류하고, 액세스를 제어하고, 관리할 수 있습니다.
Dataplex Universal Catalog는 두 가지 검색 모드를 제공합니다.
- 키워드 검색을 사용하면 특정 키워드, 필터, 정의된 구문을 사용하여 리소스를 찾을 수 있습니다.
- 자연어 검색은 AI를 활용하여 시맨틱 쿼리를 지원합니다. 일상적인 언어를 사용하여 리소스를 찾을 수 있으므로 복잡한 구문이 필요 없습니다.
검색 범위
Dataplex Universal Catalog의 검색 결과는 소스 시스템에서 해당 리소스에 대해 사용자가 가진 권한을 준수합니다.
예를 들어 객체에 대해 BigQuery 메타데이터 읽기 액세스 권한이 있으면 해당 객체가 Dataplex Universal Catalog 검색 결과에 표시됩니다. BigQuery 테이블에 대해 액세스 권한이 있지만 이 테이블을 포함하는 데이터 세트에 대해서는 액세스 권한이 없는 경우에도 예상한 대로 테이블이 Dataplex Universal Catalog 검색에 표시됩니다.
기본적으로 검색 범위는 조직으로 지정됩니다. 결과에는 검색 중인 프로젝트와 동일한 조직의 리소스만 포함됩니다.
검색 결과에는 검색이 수행되는 프로젝트와 동일한 VPC-SC 경계에 속하는 리소스만 포함됩니다.Google Cloud 콘솔을 사용하는 경우 이는 콘솔에서 선택한 프로젝트입니다.
프로젝트의 VPC 서비스 제어 경계 내 리소스 이상으로 검색 결과의 범위를 확장하려면 VPC 서비스 제어 인그레스 및 이그레스 규칙을 사용하세요. 이러한 규칙은 조직 전반에서 효율적인 비공개 데이터 교환을 용이하게 합니다.Google Cloud 콘솔을 사용하거나 JSON 또는 YAML 파일을 통해 인그레스 및 이그레스 규칙을 구성할 수 있습니다. 다음 YAML 예시를 참조하고 VPC 서비스 제어 문서를 참고하여 특정 요구사항에 맞게 규칙을 조정하세요.
egressPolicies:
- egressFrom:
identityType: ANY_USER_ACCOUNT
egressTo:
# Specify which resources should be present in the search results. In this example,
# BigQuery.
operations:
- methodSelectors:
- method: '*'
serviceName: bigquery.googleapis.com
# Specify project ids under which the search is performed.
resources:
- projects/SEARCH_PROJECT_ID
ingressPolicies:
- ingressFrom:
identityType: ANY_USER_ACCOUNT
sources:
- accessLevel: '*'
ingressTo:
# Specify which resources should be present in the search results. In this example,
# BigQuery.
operations:
- methodSelectors:
- method: '*'
serviceName: bigquery.googleapis.com
# Specify project ids to expose in search results.
resources:
- projects/INGRESS_PROJECT_ID
Dataplex Universal Catalog 검색을 사용하는 데 필요한 Identity and Access Management 역할에 관한 자세한 내용은 Dataplex Universal Catalog IAM 역할을 참조하세요.
VPC 서비스 제어를 사용하여 환경별로 검색 결과 격리
개발, 테스트, 프로덕션과 같은 환경 간에 Dataplex Universal Catalog 검색 결과를 격리하려면 각 환경에 대해 별도의 VPC 서비스 제어 경계를 구성하세요. 데이터 애셋이 포함된 프로젝트와 검색을 실행하는 데 사용되는 프로젝트를 모두 해당 환경의 경계에 할당합니다. 특정 경계 내의 프로젝트에서 실행되는 검색은 동일한 경계 내에 있는 애셋의 결과만 반환합니다.
검색에서 재현율 제한
Dataplex Universal Catalog 검색어는 전체 재현율을 보장하지 않습니다. 쿼리와 일치하는 결과가 반환되지 않을 수 있습니다. 또한 검색어를 반복하면 반환된(및 반환되지 않는) 결과가 달라질 수 있습니다.
모든 Dataplex Universal Catalog 메타데이터를 쿼리하려면 메타데이터를 Cloud Storage로 내보낸 다음 BigQuery에서 쿼리하면 됩니다. 자세한 내용은 메타데이터 내보내기를 참조하세요.
필터
필터를 사용하면 검색 결과 범위를 좁힐 수 있습니다. 필터는 키워드 검색과 자연어 검색 모두에서 사용할 수 있지만 사용 가능한 옵션은 모드에 따라 약간 다를 수 있습니다.
여러 섹션에 필터를 제공하면 필터는 AND
논리 연산자를 통해 평가됩니다. 검색 결과에는 선택한 모든 섹션에서 조건 하나 이상과 일치하는 리소스가 포함됩니다. 예를 들어 BigQuery 시스템과 데이터 세트 리소스 유형을 선택하면 검색 결과에 BigQuery 데이터 세트가 포함되지만 Vertex AI 데이터 세트는 포함되지 않습니다.
단일 섹션 내에서 필터를 여러 개 선택하면 필터는 OR
논리 연산자를 통해 평가됩니다. 예를 들어 데이터 세트 리소스 유형과 테이블 리소스 유형을 선택하면 검색 결과에 데이터 세트와 테이블 모두 포함됩니다.
키워드 검색 필터
키워드 검색의 경우 필터가 다음 섹션으로 그룹화됩니다.
- BigQuery, Cloud SQL과 같은 시스템. Dataplex Universal Catalog 시스템에는 커스텀 항목이 포함되어 있습니다.
- 사용할 수 있는 모든 관점이 나열된 관점(태그)
- 사용할 수 있는 모든 프로젝트가 나열된 프로젝트
- 데이터베이스, 데이터 세트, 모델, 테이블, 뷰, 서비스, 커스텀 유형과 같은 리소스 유형을 설명하는 유형 별칭
- 데이터 세트는 BigQuery에서 가져옵니다.
관점 값으로 필터링
관점 필터를 사용하면 특정 템플릿을 사용하여 태그된 애셋을 쿼리할 수 있습니다. 맞춤설정 메뉴를 사용하여 결과를 미세 조정하고 특정 관점 값으로 필터링할 수 있습니다. 관점 값 필터 조건은 해당 관점 필드의 데이터 유형에 따라 달라집니다. 예를 들어 datetime
및 number
필드의 경우 특정 날짜 또는 범위를 지정할 수 있습니다.
필터 공개 상태
시스템, 유형 별칭, 프로젝트, 데이터 세트 필터는 검색 필드의 현재 검색어에 따라 표시됩니다.
자연어 검색 필터
자연어 검색의 경우 다음 필터를 사용할 수 있습니다.
- 범위: 조직(기본값), 현재 프로젝트 또는 별표표시된 리소스만 검색합니다. 자세한 내용은 이 문서의 검색 범위 섹션을 참조하세요.
- 시스템: 리소스가 속한 Google Cloud 서비스(예: BigQuery)입니다. Dataplex Universal Catalog 시스템에는 항목 그룹이 포함되어 있습니다.
- 프로젝트: 검색할 프로젝트입니다.
- 유형: 리소스 유형입니다(예: BigQuery 연결, Cloud Storage 버킷, 데이터베이스). 리소스 유형에 따라 연결 유형이나 SQL 언어와 같은 하위 유형으로 필터링할 수도 있습니다.
- 위치 선택: 검색할 위치입니다.
- 데이터 세트 선택: 검색 결과가 선택한 BigQuery 데이터 세트에 속하는 BigQuery 리소스로 제한됩니다. 필터링할 항목 입력 필드에 데이터 세트의 이름을 입력합니다.
- 관점 유형: 검색 중인 리소스와 연결된 Dataplex Universal Catalog 관점 유형입니다. 관점 값으로 필터링하려면 주석 값 필터링을 클릭한 다음 값을 선택합니다.
시작하기 전에
검색을 수행하기 전에 필요한 역할이 부여되었고 필요한 API가 사용 설정되어 있는지 확인합니다.
필요한 역할
이 섹션에서는 리소스를 검색하고 검색 결과에 액세스하는 데 필요한 역할과 권한에 대해 설명합니다.
역할 부여에 대한 자세한 내용은 액세스 관리를 참조하세요.
커스텀 역할 또는 기타 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.
항목 검색에 필요한 역할
항목을 검색하려면 검색에 사용되는 프로젝트에 대한 Dataplex 카탈로그 관리자, Dataplex 카탈로그 편집자, Dataplex 카탈로그 뷰어 IAM 역할 중 하나 이상이 필요합니다. 검색 결과에 대한 권한은 선택한 프로젝트와는 별도로 확인됩니다.
검색 결과에 액세스하는 데 필요한 역할
Dataplex Universal Catalog의 검색 결과는 역할에 따라 범위가 지정됩니다. Dataplex Universal Catalog에서 애셋을 검색하려면 소스 시스템에서 해당 리소스에 액세스할 권한이 있어야 합니다. 자세한 내용은 이 문서의 검색 범위 섹션을 참조하세요.
예를 들어 BigQuery 데이터 세트, 테이블, 뷰, 모델을 검색하려면 해당 항목에 대한 권한이 필요합니다. 자세한 내용은 BigQuery 권한을 참조하세요.
다음 목록에서는 필요한 최소 권한을 설명합니다.
- 테이블을 검색하려면 해당 테이블에 대한
bigquery.tables.get
권한이 필요합니다. - 데이터 세트를 검색하려면 해당 데이터 세트에 대한
bigquery.datasets.get
권한이 필요합니다. - 데이터 세트 또는 테이블의 메타데이터를 검색하려면 BigQuery 메타데이터 뷰어 역할(
roles/bigquery.metadataViewer
)이 필요합니다.
또 다른 예시로 Cloud SQL 인스턴스, 데이터베이스, 스키마, 테이블, 뷰를 검색하려면 해당 항목에 대한 권한이 필요합니다. 자세한 내용은 Cloud SQL 역할 및 권한을 참조하세요.
커스텀 항목을 검색하려면 Dataplex 카탈로그 뷰어 역할(roles/dataplex.catalogViewer
)이 필요합니다.
API 사용 설정
Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin
), which
contains the serviceusage.services.enable
permission. Learn how to grant
roles.
리소스 검색
콘솔
리소스를 검색하려면 다음 단계를 따르세요.
Google Cloud 콘솔에서 Dataplex Universal Catalog 검색 페이지로 이동합니다.
검색 플랫폼 선택에서 Dataplex Universal Catalog를 선택합니다.
Dataplex Universal Catalog를 선택하면 Dataplex Universal Catalog 메타데이터 스토리지를 검색할 수 있습니다. 기존 Data Catalog 사용자가 Data Catalog를 선택하면 Data Catalog 저장소를 검색할 수 있습니다.
키워드 검색을 사용하려면 다음 단계를 수행합니다.
프로젝트 전반에서 리소스 찾기 필드에 쿼리를 입력합니다.
검색을 미세 조정하려면 필터 패널을 사용합니다. 사용 가능한 필터 목록은 키워드 검색 필터를 참조하세요.
다음 필터를 수동으로 추가할 수 있습니다.
- 프로젝트 필터 추가: 프로젝트에서 프로젝트 추가를 클릭합니다. 특정 프로젝트를 검색하여 프로젝트를 선택한 다음 열기를 클릭합니다.
- 관점 유형 필터 추가: 관점에서 관점 유형 추가 메뉴를 클릭합니다. 특정 템플릿을 검색하여 템플릿을 선택한 다음 확인을 클릭합니다.
선택사항: 사용 가능한 애셋 외에도 공개 데이터 세트 포함을 선택하여 Google Cloud 에서 공개적으로 사용할 수 있는 리소스를 검색할 수 있습니다.
다음 도움말을 사용하여 검색어를 작성하세요.
- 공백이 포함된 경우 검색 표현식을 따옴표로 묶습니다. 예를 들면
"search terms"
입니다. - 키워드 앞에
NOT
을 추가하여keyword:term
필터의 논리적 부정과 일치하는 항목을 찾습니다.AND
및OR
불리언 연산자를 사용하여 검색 표현식을 조합할 수도 있습니다.AND
,OR
,NOT
연산자는 대소문자를 구분하지 않습니다.
예를 들어
NOT column:term
은 지정된 용어와 일치하는 열을 제외한 모든 열을 나열합니다. Dataplex Universal Catalog 검색 표현식에 사용할 수 있는 키워드와 기타 용어의 목록은 검색 구문을 참조하세요.- 공백이 포함된 경우 검색 표현식을 따옴표로 묶습니다. 예를 들면
자연어 검색을 사용하려면 다음 단계를 수행합니다.
자연어 검색 사용해 보기를 클릭합니다.
자연어로 프로젝트 전반에서 리소스 찾기 필드에 자연어로 쿼리를 입력한 후 Enter 키를 누릅니다.
다음은 몇 가지 샘플 쿼리입니다.
Show me the datasets that contain taxi information
Find data on vaccine distribution across different countries
Get tables with historical temperature data for major world cities
Search for hurricane tracking and storm activity datasets
Population data by country
검색을 미세 조정하려면 필터를 클릭합니다. 사용 가능한 필터 목록은 자연어 검색 필터를 참조하세요.
검색된 리소스에 대한 자세한 정보를 보려면 검색 결과에서 리소스 이름을 클릭합니다. 그러면 항목 세부정보 페이지가 열립니다.
gcloud
리소스를 검색하려면 gcloud dataplex entries search
명령어를 사용합니다.
REST
리소스를 검색하려면 searchEntries
메서드를 사용합니다.
항목 세부정보 보기
콘솔
Dataplex Universal Catalog 검색을 사용하여 항목의 세부정보를 확인합니다.
gcloud
항목 세부정보를 보려면 gcloud dataplex entries lookup
명령어를 사용합니다.
REST
항목의 세부정보를 보려면 lookupEntry
메서드를 사용합니다.
제한사항
자연어 검색 제한사항은 다음과 같습니다.
자연어 검색은 가장 관련성 높은 결과를 제한적으로 반환하므로 탐색과 탐색 분석에 최적화되어 있습니다. 일치하는 모든 항목의 전체 목록을 제공하지 않을 수 있으므로 큐레이션 파이프라인과 같이 이 목록을 사용하는 워크로드에는 적합하지 않을 수 있습니다.
자연어 검색은 스키마, 설명, 관점을 포함한 리소스 메타데이터만 고려합니다. 테이블 내 데이터에 대한 질문(예: '지난달 매출이 얼마였어?')에 답하거나 메타데이터에 대한 분석 쿼리(예: '데이터 세트 X에 테이블이 몇 개 있어?')를 수행하지 않습니다.
공개 리소스는 자연어 검색 범위에 포함되지 않습니다.
다음 단계
- Dataplex Universal Catalog 검색 구문 이해하기
- Dataplex Universal Catalog의 메타데이터 관리 자세히 알아보기
- 관점을 사용하여 메타데이터로 항목을 보강하는 방법 알아보기
- 항목 관리 및 커스텀 소스 수집 방법 알아보기