비정형 데이터의 데이터 통계 정보

Knowledge Catalog의 비정형 데이터에 대한 데이터 통계는 PDF와 같은 다크 데이터 또는 비정형 파일을 구조화된 쿼리 가능한 애셋으로 변환합니다. 표준 탐색 도구는 크기 및 유형과 같은 파일 수준 메타데이터로 제한되지만 비정형 데이터에 대한 데이터 통계는 Vertex AI를 사용하여 파일 콘텐츠를 분석합니다. AI 에이전트를 그라운딩하고 고급 분석을 지원하는 데 필요한 비즈니스 컨텍스트를 자동으로 추출합니다.

이 자동화를 통해 수동 문서 파싱 및 커스텀 ETL 코드가 필요하지 않으므로 이전에 액세스할 수 없었던 데이터를 탐색, 분류, 사용할 수 있습니다.

비정형 데이터의 자동 탐색

탐색 스캔은 Cloud Storage에서 비정형 파일을 자동으로 찾고 분석을 위해 BigQuery의 하나 이상의 객체 테이블에 분류하는 프로세스입니다. 비정형 데이터에 대한 데이터 통계의 진입점 역할을 합니다. 시스템은 결과 객체 테이블을 Knowledge Catalog의 항목으로 자동으로 등록합니다. 탐색 스캔으로 인해 여러 테이블이 생성되면 각 항목에 자체 통계 탭이 있습니다. 그런 다음 이 항목을 열어 생성된 데이터 통계를 탐색할 수 있습니다. 비정형 데이터에 대한 데이터 통계가 사용 설정된 탐색 스캔을 실행하면 시스템에서 다음 작업을 실행합니다.

  1. 파일을 식별하고 그룹화합니다. Cloud Storage의 비정형 파일을 자동으로 식별하고 객체 테이블로 구성합니다. 이러한 객체 테이블은 비정형 데이터에 구조화된 인터페이스를 제공하는 읽기 전용 테이블입니다.

  2. 비정형 데이터에 대한 데이터 통계를 실행합니다. Vertex AI를 사용하여 파일 내의 실제 콘텐츠를 분석하여 의미와 구조를 파악합니다. 여기에는 생성형 AI를 사용하여 파일 콘텐츠에서 특정 속성(예: Company, Product, 또는 Serial Number)을 추출하는 항목 추론이 포함됩니다. 또한 이러한 항목이 연결되는 방식(예: Component is_part_of Product)을 식별하여 시맨틱 그래프를 만드는 관계 추출 도 포함됩니다.

  3. 스키마 및 그래프 프로필을 생성합니다. AI에서 제안하는 관계형 스키마와 그래프 프로필 측면을 제공합니다. 이는 항목 및 관계에 대해 추론된 스키마가 포함된 Knowledge Catalog 메타데이터 측면입니다.

  4. 메타데이터를 보강합니다. AI에서 생성한 메타데이터로 Knowledge Catalog를 자동으로 채웁니다. 이렇게 하면 데이터를 검색하고 추출할 수 있습니다.

데이터베이스 스키마를 수동으로 설계하는 대신 원클릭 SQL 또는 파이프라인 오케스트레이션을 사용하여 데이터 추출 을 실행할 수 있습니다. 이 프로세스는 추론된 항목과 관계를 테이블 또는 뷰와 같은 구조화된 형식으로 구체화합니다.

사용 사례

비정형 데이터에 대한 데이터 통계는 다음과 같은 다양한 목적으로 사용할 수 있습니다.

  • 자동화된 ETL 파이프라인 생성. 자동화된 스키마 제안 및 원클릭 배포로 커스텀 파서를 대체하여 Cloud Storage에서 BigQuery로의 데이터 추출을 자동화하여 데이터를 BigQuery 테이블, 뷰 또는 시맨틱 그래프로 구체화합니다.

    예를 들어 금융 서비스 회사는 수천 개의 PDF 송장에서 송장 세부정보, 공급업체 이름, 계약 조건을 자동으로 추출하여 커스텀 파싱 코드를 작성하지 않고도 즉각적인 지출 분석을 위해 BigQuery로 직접 구체화할 수 있습니다.

  • 콘텐츠 분류 및 유효성 검사. 다크 데이터를 AI에서 생성한 메타데이터로 보강된 검색 가능한 애셋으로 자동으로 그룹화하여 데이터 관리자가 추출된 항목의 휴먼 인 더 루프 유효성 검사 및 모니터링을 대규모로 실행할 수 있습니다.

    예를 들어 법무 또는 규정 준수 부서는 이전 계약의 대규모 저장소를 자동으로 분류하고 주요 항목을 추출할 수 있습니다. 이를 통해 데이터 관리자는 중요한 규제 보고에 사용하기 전에 메타데이터의 유효성을 검사할 수 있습니다.

  • AI 에이전트 그라운딩. 검증된 그래프로 검색 증강 생성 (RAG) 에이전트를 그라운딩합니다. 이렇게 하면 원시 파일을 구조화된 비즈니스 로직에 연결하는 명확한 '추적 가능성 체인'이 제공되어 환각이 줄어들고 AI 에이전트가 모호성 없이 다중 테이블 조인을 탐색할 수 있습니다.

    예를 들어 제조업체는 유지보수 로그에서 장비 관계를 추출할 수 있습니다. 기술자가 대화형 AI 에이전트에게 '실리콘 리콜의 영향을 받는 리전은 어디인가요?'라고 질문하면 에이전트는 검증된 관계 그래프를 사용하여 원본 매뉴얼로 다시 연결되는 명확한 추적 가능성 체인을 통해 정확한 답변을 제공합니다.

제한사항

비정형 데이터에 대한 데이터 통계를 사용하기 전에 다음 제한사항을 검토하세요.

  • 지원되는 형식. 탐색 스캔은 다양한 비정형 파일 형식을 BigQuery 객체 테이블로 자동으로 식별하고 그룹화하지만 비정형 데이터에 대한 데이터 통계는 PDF 파일에만 최적화되어 있습니다.

  • 위치. 비정형 데이터에 대한 데이터 통계는 Vertex AI Gemini 2.5 Pro 모델을 지원하는 위치에서만 사용할 수 있습니다. 지원되는 리전 목록은 지원되는 리전 Gemini 2.5 Pro 섹션을 참조하세요.

가격 책정

미리보기 단계에서는 비정형 데이터에 대한 데이터 통계를 실험 및 테스트에 사용할 수 있으며 시맨틱 추론 기능에 대한 추가 비용은 없습니다. 하지만 이 프로세스 중에 사용된 기본 리소스 및 서비스 비용은 계속해서 사용자가 부담해야 합니다.

미리보기 기간

  • 시맨틱 추론. 미리보기 기간 동안 탐색 스캔 중에 Vertex AI를 사용하여 시맨틱 정보를 추출하고 그래프 프로필을 추론하는 데는 비용이 청구되지 않습니다.

  • 기본 리소스 비용. 데이터를 저장하고 처리하는 데 필요한 리소스에 표준 요금이 적용됩니다.

    • Knowledge Catalog.

      • 탐색 스캔은 비정형 데이터의 스캔 및 그룹화에 대한 Knowledge Catalog 프리미엄 처리 SKU (DCU 시간)를 기준으로 청구됩니다. 자세한 내용은 Knowledge Catalog 가격 책정을 참조하세요.

      • 그래프 프로필을 비롯한 AI에서 생성한 메타데이터에는 표준 Knowledge Catalog 스토리지 요금이 부과됩니다.

    • BigQuery.

      • 파이프라인 추출 방법을 사용하는 경우 Dataform 실행 및 BigQuery 작업에 표준 요금이 적용됩니다.

      • SQL 방법을 사용하는 경우 표준 BigQuery ML 요금 및 BigQuery 작업 요금이 적용됩니다.

      • 객체 테이블, 추론된 메타데이터, 추출된 항목을 비롯하여 BigQuery로 구체화된 모든 데이터에는 표준 BigQuery 스토리지 및 쿼리 요금이 부과됩니다. 자세한 내용은 BigQuery 가격 책정을 참조하세요.

정식 버전 (GA)

비정형 데이터에 대한 데이터 통계의 공식 청구는 정식 버전 (GA) 출시 시 시작됩니다.

할당량

표준 DataScan 리소스 및 API 할당량은 각 개별 탐색 작업에 적용됩니다. 특정 할당량은 시맨틱 추론 볼륨을 관리합니다. BigQuery 객체 테이블의 총 일일 시맨틱 추론 실행은 프로젝트당 하루에 한 번으로 제한됩니다.

비정형 데이터에 대한 데이터 통계는 탐색 스캔에 의존하므로 탐색 스캔에서 지원하는 테이블 수에 대한 제한이 적용됩니다. 자세한 내용은 BigQuery 할당량 및 한도를 참조하세요.

다음 단계