구조화된 데이터의 데이터 통계 정보

Knowledge Catalog (이전의 Dataplex Universal Catalog) 데이터 인사이트는 테이블 및 데이터 세트 메타데이터에서 설명, 관계 그래프, SQL 쿼리를 자동으로 생성합니다. 이 정보를 통해 광범위한 수동 설정 없이 데이터 구조, 콘텐츠, 관계를 빠르게 파악할 수 있습니다. 자세히 조사하려면 데이터 캔버스에서 후속 질문을 할 수 있습니다.

데이터 분석가는 익숙하지 않은 새 테이블을 탐색할 때 쿼리 작성을 시작하는 방법에 대한 콜드 스타트 문제에 직면하는 경우가 많습니다. 이 문제는 데이터 구조와 데이터의 주요 패턴에 대한 불확실성과 관련될 수 있습니다. Knowledge Catalog 데이터 인사이트 기능은 데이터를 탐색하고 이해할 수 있도록 자동화된 방법을 제공합니다. 이를 통해 패턴을 파악하고 데이터 품질을 평가하며 통계 분석을 수행할 수 있습니다.

데이터 인사이트는 어떻게 작동하나요?

데이터 인사이트는 Gemini를 사용하여 메타데이터를 분석하고 다음을 생성합니다.

  • 설명: 데이터 세트의 목적, 테이블의 구조, 특정 열의 세부정보를 설명하는 AI 생성 요약입니다.

  • 샘플 쿼리: 데이터 세트 또는 테이블의 스키마와 콘텐츠를 위해 특별히 설계된 맞춤형 SQL 쿼리입니다.

  • 관계 그래프: 데이터 세트 내의 여러 테이블 간의 연결과 종속성을 보여주는 시각화입니다.

지원되는 리소스

데이터 인사이트는 다음 구조화된 데이터 유형에 사용할 수 있습니다.

  • BigQuery 데이터 세트, 테이블, 뷰
  • Google Cloud Lakehouse 테이블 (Apache Iceberg 포함)
  • 외부 테이블
  • Iceberg REST 카탈로그 테이블

통계 실행의 예

데이터 인사이트는 테이블의 메타데이터를 기반으로 자연어 쿼리와 이에 상응하는 SQL을 자동으로 생성합니다.

다음 메타데이터가 포함된 telco_churn 테이블이 있다고 가정해 보겠습니다.

필드 이름 유형
CustomerID STRING
성별 STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
계약 STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

다음은 데이터 인사이트에서 테이블에 생성하는 몇 가지 샘플 쿼리입니다.

  • 모든 프리미엄 서비스를 구독하고 50개월 넘게 고객으로 등록된 고객을 식별합니다.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 고객 이탈이 가장 많은 인터넷 서비스를 파악합니다.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 가치가 높은 고객의 세그먼트별 이탈률을 파악합니다.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

데이터 인사이트 생성 모드

데이터 인사이트를 생성할 때 Knowledge Catalog는 두 가지 모드를 제공합니다.

모드 설명 사용
생성 및 게시

생성된 데이터 인사이트를 메타데이터 관점으로 Knowledge Catalog에 유지합니다. 게시하려면 필요한 권한이 있어야 합니다. 생성 및 게시를 사용하면 다음 작업이 발생합니다.

  • Knowledge Catalog에 테이블 및 열 설명을 저장합니다.
  • 제안된 쿼리 및 질문을 재사용 가능한 관점으로 캡처합니다.
  • 적절한 Knowledge Catalog 액세스 권한이 있는 모든 사용자가 게시된 인사이트에 액세스할 수 있도록 하여 조직 지식을 공유합니다.
  • Knowledge Catalog에서 직접 설명을 수정하고 저장할 수 있습니다.

유지되고 재사용 가능한 전사적 데이터 문서화 또는 카탈로그 기반 거버넌스 워크플로를 빌드할 때 이 모드를 사용합니다.

게시하지 않고 생성

설명, 자연어 질문, SQL 쿼리와 같은 데이터 인사이트를 주문형으로 만듭니다. 게시하지 않고 생성은 Knowledge Catalog에 인사이트를 게시하지 않습니다.

카탈로그를 어수선하게 만들지 않도록 빠른 임시 탐색에 이 모드를 사용합니다.

가격 책정

이 기능의 가격 책정에 대한 상세 설명은 BigQuery의 Gemini 가격 책정 개요를 참조하세요.

위치

모든 BigQuery 위치에서 데이터 인사이트를 사용할 수 있습니다. BigQuery의 Gemini에서 데이터를 처리하는 위치에 대한 자세한 내용은 다음 항목을 참고하세요. BigQuery의 Gemini에서 데이터를 처리하는 위치

제한사항

  • 멀티 클라우드 고객은 다른 클라우드의 데이터를 사용할 수 없습니다.
  • 데이터 인사이트는 Geo 또는 JSON 열 유형을 지원하지 않습니다.
  • 통계를 실행할 때마다 매번 쿼리가 표시되는 것은 아닙니다. 보다 흥미로운 쿼리를 생성할 가능성을 높이려면 BigQuery Studio에서 인사이트를 다시 생성합니다.

다음 단계