Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

구조화된 데이터의 데이터 통계 정보

Knowledge Catalog (이전의 Dataplex Universal Catalog) 데이터 인사이트는 테이블 및 데이터 세트 메타데이터에서 설명, 관계 그래프, SQL 쿼리를 자동으로 생성합니다. 이 정보를 통해 광범위한 수동 설정 없이 데이터 구조, 콘텐츠, 관계를 빠르게 파악할 수 있습니다. 자세히 조사하려면 데이터 캔버스에서 후속 질문을 할 수 있습니다.

데이터 분석가는 익숙하지 않은 새 테이블을 탐색할 때 쿼리 작성을 시작하는 방법에 대한 콜드 스타트 문제에 직면하는 경우가 많습니다. 이 문제는 데이터 구조와 데이터의 주요 패턴에 대한 불확실성과 관련될 수 있습니다. Knowledge Catalog 데이터 인사이트 기능은 데이터를 탐색하고 이해할 수 있도록 자동화된 방법을 제공합니다. 이를 통해 패턴을 파악하고 데이터 품질을 평가하며 통계 분석을 수행할 수 있습니다.

개요

데이터 인사이트는 Gemini를 사용하여 메타데이터를 분석하고 다음을 생성합니다.

설명: 데이터 세트의 목적, 테이블 구조, 특정 열의 세부정보를 설명하는 AI 생성 요약입니다.
샘플 쿼리: 데이터 세트 또는 테이블의 스키마와 콘텐츠를 위해 특별히 설계된 맞춤형 SQL 쿼리입니다.
관계 그래프: 데이터 세트 내의 여러 테이블 간의 연결과 종속성을 보여주는 시각화입니다.

지원되는 리소스

데이터 인사이트는 다음 구조화된 데이터 유형에 사용할 수 있습니다.

BigQuery 데이터 세트, 테이블, 뷰
Google Cloud 레이크하우스 테이블 (Apache Iceberg 포함)
외부 테이블
Iceberg REST 카탈로그 테이블

통계 실행의 예

데이터 인사이트는 테이블의 메타데이터를 기반으로 자연어 쿼리와 이에 상응하는 SQL을 자동으로 생성합니다.

다음 메타데이터가 포함된 telco_churn 테이블이 있다고 가정해 보겠습니다.

필드 이름	유형
CustomerID	`STRING`
성별	`STRING`
Tenure	`INT64`
InternetService	`STRING`
StreamingTV	`STRING`
OnlineBackup	`STRING`
계약	`STRING`
TechSupport	`STRING`
PaymentMethod	`STRING`
MonthlyCharges	`FLOAT`
Churn	`BOOLEAN`

다음은 데이터 인사이트에서 테이블에 생성하는 몇 가지 샘플 쿼리입니다.

모든 프리미엄 서비스를 구독하고 50개월 넘게 고객으로 등록된 고객을 식별합니다.

SELECT
  CustomerID,
  Contract,
  Tenure
FROM
  agentville_datasets.telco_churn
WHERE
  OnlineBackup = 'Yes'
  AND TechSupport = 'Yes'
  AND StreamingTV = 'Yes'
  AND Tenure > 50;

고객 이탈이 가장 많은 인터넷 서비스를 파악합니다.

SELECT
  InternetService,
  COUNT(DISTINCT CustomerID) AS total_customers
FROM
  agentville_datasets.telco_churn
WHERE
  Churn = TRUE
GROUP BY
  InternetService
ORDER BY
  total_customers DESC
LIMIT 1;

가치가 높은 고객의 세그먼트별 이탈률을 파악합니다.

SELECT
  Contract,
  InternetService,
  Gender,
  PaymentMethod,
  COUNT(DISTINCT CustomerID) AS total_customers,
  SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
  (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
  * 100 AS churn_rate
FROM
  agentville_datasets.telco_churn
WHERE
  MonthlyCharges > 100
GROUP BY
  Contract,
  InternetService,
  Gender,
  PaymentMethod;

데이터 인사이트 생성 모드

데이터 인사이트를 생성할 때 Knowledge Catalog는 두 가지 모드를 제공합니다.

모드	설명	사용
생성 및 게시	생성된 데이터 인사이트를 메타데이터 측면으로 Knowledge Catalog에 유지합니다. 게시하려면 필요한 권한이 있어야 합니다. 생성 및 게시를 사용하면 다음 작업이 발생합니다. Knowledge Catalog에 테이블 및 열 설명을 저장합니다. 제안된 쿼리 및 질문을 재사용 가능한 측면으로 캡처합니다. 적절한 Knowledge Catalog 액세스 권한이 있는 모든 사용자가 게시된 인사이트에 액세스할 수 있도록 하여 조직 지식을 공유합니다. Knowledge Catalog에서 직접 설명을 수정하고 저장할 수 있습니다.	유지되고 재사용 가능한 전사적 데이터 문서화 또는 카탈로그 기반 거버넌스 워크플로를 빌드할 때 이 모드를 사용합니다.
게시하지 않고 생성	설명, 자연어 질문, SQL 쿼리와 같은 데이터 인사이트를 주문형으로 만듭니다. 게시하지 않고 생성은 Knowledge Catalog에 인사이트를 게시하지 않습니다.	카탈로그를 어수선하게 만들지 않도록 빠른 임시 탐색에 이 모드를 사용합니다.

모드

설명

사용

생성 및 게시

생성된 데이터 인사이트를 메타데이터 측면으로 Knowledge Catalog에 유지합니다. 게시하려면 필요한 권한이 있어야 합니다. 생성 및 게시를 사용하면 다음 작업이 발생합니다.

Knowledge Catalog에 테이블 및 열 설명을 저장합니다.
제안된 쿼리 및 질문을 재사용 가능한 측면으로 캡처합니다.
적절한 Knowledge Catalog 액세스 권한이 있는 모든 사용자가 게시된 인사이트에 액세스할 수 있도록 하여 조직 지식을 공유합니다.
Knowledge Catalog에서 직접 설명을 수정하고 저장할 수 있습니다.

유지되고 재사용 가능한 전사적 데이터 문서화 또는 카탈로그 기반 거버넌스 워크플로를 빌드할 때 이 모드를 사용합니다.

게시하지 않고 생성

설명, 자연어 질문, SQL 쿼리와 같은 데이터 인사이트를 주문형으로 만듭니다. 게시하지 않고 생성은 Knowledge Catalog에 인사이트를 게시하지 않습니다.

카탈로그를 어수선하게 만들지 않도록 빠른 임시 탐색에 이 모드를 사용합니다.

가격 책정

이 기능의 가격 책정에 대한 자세한 내용은 데이터 클라우드 에이전트 가격 책정을 참고하세요.

위치

모든 BigQuery 위치에서 데이터 인사이트를 사용할 수 있습니다. BigQuery의 Gemini에서 데이터를 처리하는 위치에 대한 자세한 내용은 다음 항목을 참고하세요. BigQuery의 Gemini에서 데이터를 처리하는 위치

제한사항

멀티 클라우드 고객은 다른 클라우드의 데이터를 사용할 수 없습니다.
데이터 인사이트는 Geo 또는 JSON 열 유형을 지원하지 않습니다.
통계를 실행할 때마다 매번 쿼리가 표시되는 것은 아닙니다. 보다 흥미로운 쿼리를 생성할 가능성을 높이려면 BigQuery Studio에서 인사이트를 다시 생성합니다.

다음 단계

BigQuery에서 통계를 생성하는 방법 알아보기
데이터 프로필 스캔을 생성하는 방법 알아보기
BigQuery에서 Gemini 지원을 사용하여 쿼리를 작성하는 방법 알아보기