이 문서에서는 구조화된 데이터의 데이터 통계를 생성, 확인, 관리하는 방법을 설명합니다. AI 기반 데이터 통계를 사용하면 테이블 및 데이터 세트 메타데이터에서 설명, 관계 그래프, SQL 쿼리를 자동으로 생성하여 데이터 탐색을 가속화할 수 있습니다.
BigQuery Studio에서는 BigQuery 데이터 세트, 테이블, 뷰, BigLake 테이블, BigQuery 외부 테이블의 데이터 통계를 생성할 수 있습니다.
Knowledge Catalog에서는 BigLake 및 Iceberg REST 카탈로그 테이블의 데이터 통계를 생성할 수 있습니다.
시작하기 전에
데이터 통계를 사용하기 전에 다음 기본 요건을 완료해야 합니다.
필요한 역할
데이터 통계를 사용하는 데 필요한 권한을 얻으려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.
-
생성된 통계에 대한 읽기 전용 액세스 권한을 얻으려면 리소스가 포함된 프로젝트에 대한 Dataplex DataScan 데이터 뷰어 (
roles/dataplex.dataScanDataViewer)를 사용하세요. -
Iceberg REST 카탈로그 테이블 데이터 읽기:
리소스의 BigLake 뷰어 (
roles/biglake.viewer) -
설명을 관점으로 게시:
리소스에 대한 Dataplex 카탈로그 편집자 (
roles/dataplex.catalogEditor) -
쿼리를 측면으로 게시:
Dataplex 항목 및 항목 링크 소유자 (
roles/dataplex.entryOwner) 리소스에 대한
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
이러한 사전 정의된 역할에는 데이터 통계를 사용하는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.
필수 권한
데이터 통계를 사용하려면 다음 권한이 필요합니다.
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.run
커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.
API 사용 설정
데이터 인사이트를 사용하려면 프로젝트에서 다음 API를 사용 설정해야 합니다.
- Dataplex API
- BigQuery API
- Gemini for Google Cloud API
API 사용 설정에 필요한 역할
API를 사용 설정하려면 serviceusage.services.enable 권한이 포함된 서비스 사용량 관리자 IAM 역할(roles/serviceusage.serviceUsageAdmin)이 필요합니다. 역할 부여 방법 알아보기
Gemini for Google Cloud API 사용 설정에 대한 상세 설명은 Google Cloud 프로젝트에서 Gemini for Google Cloud API 사용 설정을 참고하세요.
데이터 준비
BigLake 테이블의 경우 데이터가 Cloud Storage에 있고 BigLake 테이블이 생성되었는지 확인합니다.
Iceberg REST 카탈로그 테이블의 경우 테이블이 BigLake metastore에 등록되어 있는지 확인합니다.
BigQuery에서 통계 생성
BigQuery 데이터 세트, 테이블, 뷰, BigLake 테이블, BigQuery 외부 테이블의 데이터 인사이트는 BigQuery의 Gemini를 사용하여 생성되며 BigQuery Studio에서만 생성될 수 있습니다.
먼저 BigQuery의 Gemini를 설정한 다음 인사이트를 생성해야 합니다. 인사이트를 생성한 후에는 Knowledge Catalog에서 인사이트를 보고 수정할 수 있습니다.
BigQuery에서 통계를 생성하는 방법에 대한 자세한 내용은 다음 문서를 참고하세요.
Iceberg REST 카탈로그 테이블의 통계 생성
Google Cloud 콘솔에서 Knowledge Catalog 검색 페이지로 이동합니다.
필터에서 BigLake를 선택합니다.
인사이트를 생성할 Iceberg REST 카탈로그 테이블을 선택합니다.
통계 탭을 클릭합니다. 탭이 비어 있는 경우 이 테이블의 통계가 아직 생성되지 않았음을 의미합니다.
통계를 생성하고 측면으로 테이블에 영구적으로 연결하려면 생성 및 게시를 클릭합니다. 이렇게 하면 통계를 색인화하고 검색할 수 있으며, 지식 카탈로그 내에서 조직의 다른 사용자에게 표시할 수 있습니다.
현재 세션 중에 통계를 생성하고 일시적으로 보려면 게시하지 않고 생성을 클릭합니다. 메타데이터를 Knowledge Catalog에 저장하지 않고 데이터의 빠른 분석만 필요한 경우 이 옵션을 사용하세요.
생성 및 게시 모드와 게시 없이 생성 모드의 차이점에 관한 자세한 내용은 데이터 통계 생성 모드를 참고하세요.
인사이트를 생성할 리전을 선택하고 생성을 클릭합니다.
통계가 채워지는 데 몇 분 정도 걸립니다.
인사이트 탭을 클릭하고 다음을 검토합니다.
- 설명: 테이블의 목적을 설명하고 특정 열을 자세히 설명하는 AI 생성 요약입니다.
- 샘플 쿼리: 데이터 세트 스키마와 콘텐츠에 맞게 특별히 설계된 맞춤 SQL 쿼리 목록입니다.
질문에 답하는 SQL 쿼리를 보려면 질문을 클릭합니다.
리소스에 대해 생성된 인사이트 검토
리소스에 대해 생성된 통계를 보려면 다음 단계를 완료하세요.
Google Cloud 콘솔에서 Knowledge Catalog 검색 페이지로 이동합니다.
통계를 보려는 리소스를 검색합니다.
검색 결과에서 리소스를 클릭하여 항목 세부정보 페이지를 엽니다.
선택한 리소스에 대해 생성된 설명과 쿼리를 검토합니다.
관계 그래프를 확인하여 데이터 포인트가 연결되는 방식을 파악하려면 관계 (미리보기) 탭을 클릭합니다. 관계는 데이터 세트 수준이 아닌 테이블 수준에서만 볼 수 있습니다.
표 통계 관리
표 통계를 생성하고 게시한 후에는 Knowledge Catalog에서 메타데이터 측면으로 검토하고 관리할 수 있습니다. 표 수준 통계에는 표 및 열 설명, 샘플 쿼리가 포함됩니다.
표의 생성된 설명 업데이트
Dataplex API를 사용해서만 테이블 및 열 설명을 업데이트할 수 있습니다. 이렇게 하려면 entries.patch 메서드를 사용합니다.
표의 생성된 쿼리 업데이트
Google Cloud 콘솔과 Dataplex API를 모두 사용하여 테이블의 생성된 쿼리를 업데이트할 수 있습니다.
콘솔
생성된 쿼리를 업데이트할 테이블을 검색합니다.
검색 결과에서 테이블을 클릭하여 항목 세부정보 페이지를 엽니다.
쿼리 섹션에서 수정을 클릭합니다.
필요에 따라 쿼리 설명을 업데이트합니다.
소유권 관리: 기본적으로 소스는 상담사로 설정됩니다. 쿼리를 수정하고 소스를 사용자로 변경하면 이후 통계 생성 실행에서 변경사항이 재정의되지 않습니다. 소스가 에이전트로 유지되면 재생성 중에 질문이 대체될 수 있습니다.
재실행 중에 모든 쿼리가 재정의되지 않도록 하려면 사용자 관리 옵션을 True로 설정하면 됩니다. 이는 해당 메타데이터 측면의 전체 쿼리 집합에 적용되므로 수동 변경사항이 손실되지 않습니다.
REST
표의 쿼리를 업데이트하려면 entries.patch 메서드를 사용합니다.
테이블의 생성된 관계 업데이트
Dataplex API만 사용하여 관계를 업데이트할 수 있습니다. 이렇게 하려면 entries.patch 메서드를 사용합니다.
데이터 세트 인사이트 관리
데이터 세트 수준 통계는 개략적인 설명과 데이터 세트 전체 쿼리에 중점을 둡니다.
데이터 세트의 생성된 설명 업데이트
Dataplex API를 사용해서만 데이터 세트 설명을 업데이트할 수 있습니다. 이렇게 하려면 entries.patch 메서드를 사용합니다.
데이터 세트의 생성된 쿼리 업데이트
Google Cloud 콘솔과 Dataplex API를 모두 사용하여 데이터 세트의 생성된 쿼리를 업데이트할 수 있습니다.
콘솔
생성된 쿼리를 업데이트할 데이터 세트를 검색합니다.
검색 결과에서 데이터 세트를 클릭하여 항목 세부정보 페이지를 엽니다.
쿼리 섹션에서 수정을 클릭합니다.
필요에 따라 설명을 업데이트합니다.
소유권 관리: 기본적으로 소스는 상담사로 설정됩니다. 쿼리를 수정하고 소스를 사용자로 변경하면 이후 통계 생성 실행에서 변경사항이 재정의되지 않습니다. 소스가 에이전트로 유지되면 재생성 중에 질문이 대체될 수 있습니다.
재실행 중에 모든 쿼리가 재정의되지 않도록 하려면 사용자 관리 옵션을 True로 설정하면 됩니다. 이는 해당 메타데이터 측면의 전체 쿼리 집합에 적용되므로 수동 변경사항이 손실되지 않습니다.
REST
데이터 세트의 쿼리를 업데이트하려면 entries.patch 메서드를 사용합니다.
다음 단계
구조화된 데이터의 데이터 통계에 대해 자세히 알아보세요.
비정형 데이터에 대한 통계를 생성하는 방법 알아보기