구조화된 데이터의 데이터 통계 정보

Knowledge Catalog (이전 명칭: Dataplex Universal Catalog) 데이터 인사이트는 테이블 및 데이터 세트 메타데이터에서 설명, 관계 그래프, SQL 쿼리를 자동으로 생성합니다. 이 정보를 통해 광범위한 수동 설정 없이 데이터 구조, 콘텐츠, 관계를 빠르게 이해할 수 있습니다. 자세히 조사하려면 데이터 캔버스에서 후속 질문을 할 수 있습니다.

데이터 분석가는 익숙하지 않은 새 테이블을 탐색할 때 쿼리 작성을 시작하는 방법에 대한 콜드 스타트 문제에 직면하는 경우가 많습니다. 이 문제는 데이터 구조와 데이터의 주요 패턴에 대한 불확실성과 관련될 수 있습니다. Knowledge Catalog 데이터 인사이트 기능은 데이터를 탐색하고 이해할 수 있도록 자동화된 방법을 제공합니다. 이를 통해 패턴을 파악하고 데이터 품질을 평가하며 통계 분석을 수행할 수 있습니다.

데이터 통계는 어떻게 작동하나요?

데이터 인사이트는 Gemini를 사용하여 메타데이터를 분석하고 다음을 생성합니다.

  • 설명: 데이터 세트의 목적, 테이블 구조, 특정 열의 세부정보를 설명하는 AI 생성 요약입니다.

  • 샘플 쿼리: 데이터 세트 또는 테이블의 스키마와 콘텐츠에 맞게 특별히 설계된 맞춤형 SQL 쿼리입니다.

  • 관계 그래프: 데이터 세트 내의 여러 테이블 간의 연결과 종속성을 보여주는 시각화입니다.

지원되는 리소스

데이터 통계는 다음 구조화된 데이터 유형에 사용할 수 있습니다.

  • BigQuery 데이터 세트, 테이블, 뷰
  • BigLake 테이블 (Apache Iceberg 포함)
  • 외부 테이블
  • Iceberg REST 카탈로그 테이블

통계 실행의 예

데이터 인사이트는 테이블의 메타데이터를 기반으로 자연어 쿼리와 이에 상응하는 SQL을 자동으로 생성합니다.

다음 메타데이터가 포함된 telco_churn 테이블이 있다고 가정해 보겠습니다.

필드 이름 유형
CustomerID STRING
Gender STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contract STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

다음은 데이터 인사이트에서 테이블에 생성하는 몇 가지 샘플 쿼리입니다.

  • 모든 프리미엄 서비스를 구독하고 50개월 넘게 고객으로 등록된 고객을 식별합니다.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 고객 이탈이 가장 많은 인터넷 서비스를 파악합니다.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 가치가 높은 고객의 세그먼트별 이탈률을 파악합니다.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

데이터 통계 생성 모드

데이터 통계를 생성할 때 Knowledge Catalog는 다음 두 가지 모드를 제공합니다.

모드 설명 사용
생성 및 게시

생성된 데이터 통계를 메타데이터 측면으로 Knowledge Catalog에 유지합니다. 게시하려면 필요한 권한이 있어야 합니다. 생성 및 게시를 사용하면 다음 작업이 발생합니다.

  • Knowledge Catalog에 테이블 및 열 설명을 저장합니다.
  • 추천 질문과 질문을 재사용 가능한 측면으로 캡처합니다.
  • 게시된 통계에 적절한 지식 카탈로그 액세스 권한이 있는 모든 사용자가 액세스할 수 있도록 하여 공유 조직 지식을 보장합니다.
  • Knowledge Catalog에서 설명을 직접 수정하고 저장할 수 있습니다.

이 모드는 지속되고 재사용 가능한 전사적 데이터 문서를 작성하거나 카탈로그 기반 거버넌스 워크플로를 빌드할 때 사용합니다.

게시하지 않고 생성

설명, 자연어 질문, SQL 쿼리와 같은 데이터 인사이트를 요청 시 생성합니다. 게시하지 않고 생성은 Knowledge Catalog에 통계를 게시하지 않습니다.

카탈로그가 어수선해지지 않도록 임시로 빠르게 탐색하려면 이 모드를 사용하세요.

가격 책정

이 기능의 가격 책정에 대한 상세 설명은 BigQuery의 Gemini 가격 책정 개요를 참조하세요.

할당량 및 한도

이 기능의 할당량 및 한도에 대한 상세 설명은 BigQuery의 Gemini 할당량을 참조하세요.

위치

모든 BigQuery 위치에서 데이터 인사이트를 사용할 수 있습니다. BigQuery의 Gemini에서 데이터를 처리하는 위치에 대해 알아보려면 BigQuery의 Gemini에서 데이터를 처리하는 위치를 참고하세요.

제한사항

  • 멀티 클라우드 고객은 다른 클라우드의 데이터를 사용할 수 없습니다.
  • 데이터 통계는 Geo 또는 JSON 열 유형을 지원하지 않습니다.
  • 통계를 실행할 때마다 매번 쿼리가 표시되는 것은 아닙니다. 보다 흥미로운 쿼리를 생성할 가능성을 높이려면 BigQuery Studio에서 인사이트를 다시 생성합니다.

다음 단계