Knowledge Catalog (이전 명칭: Dataplex Universal Catalog) 데이터 인사이트는 테이블 및 데이터 세트 메타데이터에서 설명, 관계 그래프, SQL 쿼리를 자동으로 생성합니다. 이 정보를 통해 광범위한 수동 설정 없이 데이터 구조, 콘텐츠, 관계를 빠르게 이해할 수 있습니다. 자세히 조사하려면 데이터 캔버스에서 후속 질문을 할 수 있습니다.
데이터 분석가는 익숙하지 않은 새 테이블을 탐색할 때 쿼리 작성을 시작하는 방법에 대한 콜드 스타트 문제에 직면하는 경우가 많습니다. 이 문제는 데이터 구조와 데이터의 주요 패턴에 대한 불확실성과 관련될 수 있습니다. Knowledge Catalog 데이터 인사이트 기능은 데이터를 탐색하고 이해할 수 있도록 자동화된 방법을 제공합니다. 이를 통해 패턴을 파악하고 데이터 품질을 평가하며 통계 분석을 수행할 수 있습니다.
데이터 통계는 어떻게 작동하나요?
데이터 인사이트는 Gemini를 사용하여 메타데이터를 분석하고 다음을 생성합니다.
설명: 데이터 세트의 목적, 테이블 구조, 특정 열의 세부정보를 설명하는 AI 생성 요약입니다.
샘플 쿼리: 데이터 세트 또는 테이블의 스키마와 콘텐츠에 맞게 특별히 설계된 맞춤형 SQL 쿼리입니다.
관계 그래프: 데이터 세트 내의 여러 테이블 간의 연결과 종속성을 보여주는 시각화입니다.
지원되는 리소스
데이터 통계는 다음 구조화된 데이터 유형에 사용할 수 있습니다.
- BigQuery 데이터 세트, 테이블, 뷰
- BigLake 테이블 (Apache Iceberg 포함)
- 외부 테이블
- Iceberg REST 카탈로그 테이블
통계 실행의 예
데이터 인사이트는 테이블의 메타데이터를 기반으로 자연어 쿼리와 이에 상응하는 SQL을 자동으로 생성합니다.
다음 메타데이터가 포함된 telco_churn 테이블이 있다고 가정해 보겠습니다.
| 필드 이름 | 유형 |
|---|---|
| CustomerID | STRING |
| Gender | STRING |
| Tenure | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| Contract | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| Churn | BOOLEAN |
다음은 데이터 인사이트에서 테이블에 생성하는 몇 가지 샘플 쿼리입니다.
모든 프리미엄 서비스를 구독하고 50개월 넘게 고객으로 등록된 고객을 식별합니다.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;고객 이탈이 가장 많은 인터넷 서비스를 파악합니다.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;가치가 높은 고객의 세그먼트별 이탈률을 파악합니다.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
데이터 통계 생성 모드
데이터 통계를 생성할 때 Knowledge Catalog는 다음 두 가지 모드를 제공합니다.
| 모드 | 설명 | 사용 |
|---|---|---|
| 생성 및 게시 |
생성된 데이터 통계를 메타데이터 측면으로 Knowledge Catalog에 유지합니다. 게시하려면 필요한 권한이 있어야 합니다. 생성 및 게시를 사용하면 다음 작업이 발생합니다.
|
이 모드는 지속되고 재사용 가능한 전사적 데이터 문서를 작성하거나 카탈로그 기반 거버넌스 워크플로를 빌드할 때 사용합니다. |
| 게시하지 않고 생성 |
설명, 자연어 질문, SQL 쿼리와 같은 데이터 인사이트를 요청 시 생성합니다. 게시하지 않고 생성은 Knowledge Catalog에 통계를 게시하지 않습니다. |
카탈로그가 어수선해지지 않도록 임시로 빠르게 탐색하려면 이 모드를 사용하세요. |
가격 책정
이 기능의 가격 책정에 대한 상세 설명은 BigQuery의 Gemini 가격 책정 개요를 참조하세요.
할당량 및 한도
이 기능의 할당량 및 한도에 대한 상세 설명은 BigQuery의 Gemini 할당량을 참조하세요.
위치
모든 BigQuery 위치에서 데이터 인사이트를 사용할 수 있습니다. BigQuery의 Gemini에서 데이터를 처리하는 위치에 대해 알아보려면 BigQuery의 Gemini에서 데이터를 처리하는 위치를 참고하세요.
제한사항
- 멀티 클라우드 고객은 다른 클라우드의 데이터를 사용할 수 없습니다.
- 데이터 통계는
Geo또는JSON열 유형을 지원하지 않습니다. - 통계를 실행할 때마다 매번 쿼리가 표시되는 것은 아닙니다. 보다 흥미로운 쿼리를 생성할 가능성을 높이려면 BigQuery Studio에서 인사이트를 다시 생성합니다.
다음 단계
- BigQuery에서 통계를 생성하는 방법 알아보기
- 데이터 프로필 스캔을 생성하는 방법 알아보기
- BigQuery에서 Gemini 지원을 사용하여 쿼리를 작성하는 방법 알아보기