데이터 인사이트 개요

이 문서에서는 새 데이터 또는 익숙하지 않은 데이터를 접할 때 초기 탐색 및 분석을 가속화하는 데 도움이 되는 BigQuery의 Gemini 기능인 데이터 통계를 간략하게 설명합니다. 데이터 인사이트는 테이블 및 데이터 세트 메타데이터에서 설명, 관계 그래프, SQL 쿼리를 자연어의 추천 질문과 함께 자동으로 생성합니다. 이 정보를 통해 광범위한 수동 설정 없이 데이터 구조, 콘텐츠, 관계를 빠르게 이해할 수 있습니다.

시작하기 전에

데이터 인사이트는 BigQuery의 Gemini를 사용하여 생성됩니다. 통계 생성을 시작하려면 먼저 BigQuery의 Gemini를 설정해야 합니다.

데이터 통계 유형

표 또는 데이터 세트 수준에서 데이터 통계를 생성할 수 있습니다.

  • 테이블: Gemini는 단일 테이블 내의 데이터를 이해하는 데 도움이 되는 자연어 질문과 이에 상응하는 SQL을 생성합니다. 표 통계를 사용하면 표 내에서 데이터 패턴, 이상치, 이상점 또는 품질 문제를 감지할 수 있습니다. Gemini는 테이블 및 열 설명도 생성합니다.

  • 데이터 세트: (프리뷰) Gemini는 테이블 간 관계와 테이블 간 SQL 쿼리를 보여주는 대화형 관계 그래프를 생성하여 데이터 세트에서 테이블이 어떻게 관련되어 있는지 이해할 수 있도록 지원합니다. 관계 그래프를 통해 데이터가 파생되는 방식을 파악하여 품질, 일관성 또는 중복 문제를 해결할 수 있습니다. 테이블 간 쿼리를 통해 더 광범위한 관계를 찾을 수 있습니다. 예를 들어 판매 테이블과 고객 테이블의 데이터를 활용하여 고객 세그먼트별 수익을 계산할 수 있습니다.

자세히 조사하려면 데이터 캔버스에서 후속 질문을 하면 됩니다.

테이블 통계

표 통계를 사용하면 단일 BigQuery 표의 콘텐츠, 품질, 패턴을 파악할 수 있습니다. 예를 들어 통계 분석을 실행하는 쿼리를 생성하여 테이블 통계를 사용해 데이터 패턴, 이상치, 특이치를 감지할 수 있습니다. 표 통계는 특히 표에 데이터 프로필 스캔을 사용할 수 있는 경우 품질 문제를 감지하는 데도 도움이 됩니다. 표에 대한 인사이트를 생성하면 Gemini가 표의 메타데이터를 기반으로 표 설명, 열 설명, 프로필 스캔 출력을 제공합니다. 사용할 수 있는 옵션은 다음과 같습니다.

  • 쿼리 생성: 자연어 질문을 제안하고 이에 답변하는 SQL 쿼리를 제공합니다. 이를 통해 SQL을 처음부터 작성하지 않고도 패턴을 파악하고, 데이터 품질을 평가하고, 통계 분석을 수행할 수 있습니다.
  • 설명 생성: 테이블과 해당 열의 설명을 생성합니다. Gemini는 프로필 스캔 출력 (사용 가능한 경우)을 사용하여 생성된 설명을 그라운딩합니다. 이러한 설명을 검토, 수정하고 Dataplex Universal Catalog에 게시하여 데이터 검색 가능성과 문서를 개선할 수 있습니다.

데이터 세트 통계

데이터 세트 통계를 사용하면 BigQuery 데이터 세트 내 여러 테이블 간의 관계와 조인 경로를 파악하여 데이터 세트 콘텐츠를 전체적으로 파악할 수 있습니다. 데이터 세트에 대한 통계를 생성하면 Gemini에서 다음을 제공합니다.

  • 데이터 세트 설명: 데이터 세트에 대한 AI 생성 요약을 제공합니다.
  • 관계: 데이터 세트 내 테이블 간의 관계를 보여주는 시각적 대화형 지도를 표시합니다. 연결 위로 마우스를 가져가면 조인 키와 같은 관계 세부정보를 볼 수 있습니다.
  • 관계 테이블: 외래 키와 추론된 조인을 비롯한 테이블 간의 관계를 표 형식으로 표시합니다. 관계는 스키마 정의 (기본 키 및 외래 키 제약 조건에서), 사용량 기반 (쿼리 로그에서)일 수 있으며 Gemini는 테이블 및 열 이름과 설명을 기반으로 추론합니다.
  • 쿼리 추천: 식별된 관계를 기반으로 여러 테이블에서 데이터를 조인하는 방법을 보여주는 샘플 SQL 쿼리를 제공합니다.

표 데이터 통계의 예

CustomerID, Tenure, InternetService, Contract, MonthlyCharges, Churn 등의 열이 있는 telco_churn라는 테이블을 생각해 보세요. 다음 표에서는 테이블의 메타데이터를 설명합니다.

필드 이름 유형
CustomerID STRING
Gender STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contract STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT64
Churn BOOL

데이터 인사이트는 이 테이블에 대해 다음과 같은 샘플 쿼리를 생성합니다.

  • 모든 프리미엄 서비스를 구독하고 50개월 넘게 고객으로 등록된 고객을 식별합니다.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 고객 이탈이 가장 많은 인터넷 서비스를 파악합니다.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      customers DESC
    LIMIT 1;
    

데이터 세트 데이터 통계의 예

order_itemsinventory_items 테이블이 포함된 데이터 세트를 살펴보겠습니다. 데이터 세트 통계는 order_items.inventory_item_idinventory_items.id과 관련이 있다고 추론할 수 있습니다.

이러한 관계를 기반으로 Gemini는 다음과 같은 테이블 간 쿼리를 생성할 수 있습니다.

평균 판매 가격이 가장 높은 상위 5개 제품 카테고리와 해당 평균 비용을 식별합니다.

SELECT
  ii.product_category,
  AVG(oi.sale_price) AS avg_sale_price,
  AVG(ii.cost) AS avg_cost
FROM
  `ecommerce_data.order_items` AS oi
JOIN
  `ecommerce_data.inventory_items` AS ii
ON oi.inventory_item_id = ii.id
GROUP BY
  ii.product_category
ORDER BY
  avg_sale_price DESC
LIMIT 5;

데이터 통계 워크플로

이 섹션에서는 BigQuery의 데이터 통계 기능을 사용하여 다양한 사용자 역할이 실행할 수 있는 주요 워크플로를 간략하게 설명합니다.

데이터 소비자를 위한 워크플로

이러한 워크플로는 데이터를 찾고, 이해하고, 분석해야 하는 데이터 분석가, 비즈니스 분석가, 기타 사용자의 작업에 중점을 둡니다.

  • BigQuery 테이블 이해: 특정 테이블의 스키마, 콘텐츠, 잠재적 용도를 빠르게 파악합니다. BigQuery Studio에서 테이블을 선택한 후 다음 작업을 실행할 수 있습니다.

    • 자동으로 생성된 테이블 및 열 설명을 검토합니다.

    • 추천된 자연어 질문과 이에 상응하는 SQL 쿼리를 검토하여 데이터의 미묘한 차이를 파악합니다.

    • 추천 쿼리를 조정하고 실행하여 분석을 시작합니다.

    표 통계 생성 및 보기에 대한 자세한 내용은 표 통계 생성을 참고하세요.

  • 전체 데이터 세트 탐색: 데이터 세트 내 테이블 간의 관계를 파악하고 전체 구조를 이해합니다. BigQuery Studio에서 데이터 세트를 선택한 후 다음 작업을 수행할 수 있습니다.

    • 데이터 세트 통계를 생성하고 확인합니다.

    • 대화형 관계 그래프를 사용하여 테이블 연결을 시각화합니다.

    • 조인 키 및 연결 유형(스키마 정의, 사용량 기반, LLM 추론)에 대한 관계 테이블을 분석합니다.

    • 추천 교차 테이블 SQL 쿼리를 사용하여 여러 테이블을 효과적으로 쿼리합니다.

    데이터 세트 통계 생성 및 보기에 대한 자세한 내용은 데이터 세트 통계 생성을 참고하세요.

데이터 생산자를 위한 워크플로

이 워크플로는 데이터 엔지니어, 분석 엔지니어, 데이터 애셋을 빌드하고 관리하는 사용자를 위한 것입니다.

  • 기준 데이터 문서 생성: 필수 메타데이터 설명을 자동으로 생성하고 유지관리합니다. 다음 태스크를 수행할 수 있습니다.

    • 테이블을 만들거나 수정한 후 데이터 인사이트를 트리거하여 테이블 및 열 설명을 생성합니다. Dataplex Universal Catalog 자동 메타데이터 생성 API를 사용하여 이러한 설명을 대규모로 생성할 수도 있습니다.

    • AI 생성 텍스트를 검토하고 수정하여 기술적 정확성과 비즈니스 관련성을 확보합니다.

    표 및 열 설명 생성에 대한 자세한 내용은 표 통계 생성을 참고하세요.

  • 사용자의 데이터 세트 이해도 향상: 소비자가 제공된 데이터 세트를 더 쉽게 이해하고 사용할 수 있도록 합니다. 다음 작업을 수행할 수 있습니다.

    • 주요 데이터 세트, 특히 복잡한 관계가 있는 데이터 세트에 대한 데이터 세트 통계를 생성합니다.

    • 테이블에서 데이터 프로필 스캔을 실행하여 더 정확하고 유용한 통계를 위한 풍부한 컨텍스트를 제공해야 합니다.

    자세한 내용은 데이터 세트 통계 생성데이터 프로파일링 결과에 통계 그라운딩을 참고하세요.

데이터 관리자를 위한 워크플로

이러한 워크플로는 데이터 스튜어드와 거버넌스 팀이 데이터 무결성과 신뢰를 유지하는 데 도움이 됩니다.

  • AI 생성 메타데이터 검증 및 감사: 데이터 통계에서 생성된 메타데이터의 정확성과 신뢰성을 보장합니다. 다음 작업을 수행할 수 있습니다.

    • 통계 기능에서 생성된 설명과 관계를 정기적으로 검토합니다.

    • 관계 그래프에서 추론된 관계를 확립된 데이터 모델 및 비즈니스 로직과 상호 참조합니다.

    • AI 생성 메타데이터의 부정확한 부분을 검토하고 수정합니다.

    자세한 내용은 표 통계 생성데이터 세트 통계 생성을 참고하세요.

가격 책정

이 기능의 가격 책정에 대한 자세한 내용은 BigQuery의 Gemini 가격 책정 개요를 참고하세요.

할당량 및 한도

이 기능의 할당량 및 한도에 대한 자세한 내용은 BigQuery의 Gemini 할당량을 참조하세요.

제한사항

데이터 통계에는 다음과 같은 제한사항이 있습니다.

  • BigQuery 테이블, BigLake 테이블, 외부 테이블, 뷰에 데이터 통계를 사용할 수 있습니다.

  • 멀티 클라우드 고객은 다른 클라우드의 데이터를 사용할 수 없습니다.

  • 데이터 통계는 GEO 또는 JSON 열 유형을 지원하지 않습니다.

  • 통계를 실행할 때마다 매번 쿼리가 표시되는 것은 아닙니다. 보다 흥미로운 쿼리를 생성할 가능성을 높이려면 통계 파이프라인을 다시 시작하세요.

  • 열 수준 액세스 제어 및 제한된 사용자 권한이 있는 테이블의 경우 테이블의 모든 열에 대한 읽기 액세스 권한이 있으면 통계를 생성할 수 있습니다. 생성된 쿼리를 실행하려면 충분한 권한이 있어야 합니다.

  • Gemini는 테이블의 최대 350개 열에 대한 열 설명을 생성합니다.

  • 데이터 세트 통계의 경우 관계 그래프에서 관계를 수정할 수 없습니다.

  • 새 데이터 세트 통계를 생성하면 해당 데이터 세트의 이전 통계가 덮어쓰여집니다.

  • 데이터 세트 통계는 연결된 데이터 세트를 지원하지 않습니다.

위치

모든 BigQuery 위치에서 데이터 인사이트를 사용할 수 있습니다. BigQuery의 Gemini에서 데이터를 처리하는 위치에 대해 알아보려면 BigQuery의 Gemini에서 데이터를 처리하는 위치를 참고하세요.

다음 단계