비정형 데이터의 데이터 통계 정보

Knowledge Catalog의 비정형 데이터에 대한 데이터 통계는 PDF와 같은 다크 데이터 또는 비정형 파일을 구조화되고 쿼리 가능한 애셋으로 변환합니다. 표준 검색 도구는 크기 및 유형과 같은 파일 수준 메타데이터로 제한되지만, 비정형 데이터용 데이터 통계는 Vertex AI를 사용하여 파일 콘텐츠를 분석합니다. AI 에이전트를 그라운딩하고 고급 분석을 지원하는 데 필요한 비즈니스 컨텍스트를 자동으로 추출합니다.

이 자동화를 통해 수동 문서 파싱과 맞춤 ETL 코드가 필요하지 않으므로 이전에는 액세스할 수 없었던 데이터를 탐색, 분류, 사용할 수 있습니다.

비정형 데이터 자동 검색

탐색 스캔은 Cloud Storage에서 비정형 파일을 자동으로 찾아 분석을 위해 BigQuery의 하나 이상의 BigLake 객체 테이블에 분류하는 프로세스입니다. 비정형 데이터의 데이터 통계 진입점 역할을 합니다. 시스템은 결과 BigLake 객체 테이블을 Knowledge Catalog의 항목으로 자동 등록합니다. 탐색 스캔으로 인해 테이블이 여러 개 생성되면 각 항목에 자체 통계 탭이 있습니다. 그런 다음 이 항목을 열어 생성된 데이터 통계를 살펴볼 수 있습니다. 구조화되지 않은 데이터에 대한 데이터 통계가 사용 설정된 상태로 탐색 스캔을 실행하면 시스템에서 다음 작업을 실행합니다.

  1. 파일을 식별하고 그룹화합니다. Cloud Storage의 구조화되지 않은 파일을 BigLake 객체 테이블로 자동 식별하고 정리합니다. 이러한 객체 테이블은 구조화되지 않은 데이터에 구조화된 인터페이스를 제공하는 읽기 전용 테이블입니다.

  2. 비정형 데이터에 대한 데이터 통계를 실행합니다. Vertex AI를 사용하여 파일 내 실제 콘텐츠를 분석하여 의미와 구조를 파악합니다. 여기에는 생성형 AI를 사용하여 파일 콘텐츠에서 특정 속성(예: Company, Product, Serial Number)을 추출하는 엔티티 추론이 포함됩니다. 또한 이러한 항목이 연결되는 방식(예: Component is_part_of Product)을 식별하여 시맨틱 그래프를 만드는 관계 추출도 포함됩니다.

  3. 스키마 및 그래프 프로필을 생성합니다. AI 추천 관계형 스키마와 그래프 프로필 측면을 제공합니다. 엔티티 및 관계의 추론된 스키마가 포함된 Knowledge Catalog 메타데이터 측면입니다.

  4. 메타데이터를 보강합니다. AI 생성 메타데이터로 Knowledge Catalog를 자동으로 채웁니다. 이렇게 하면 데이터를 검색하고 추출할 수 있습니다.

데이터베이스 스키마를 수동으로 설계하는 대신 클릭 한 번으로 SQL 또는 파이프라인 오케스트레이션을 사용하여 데이터 추출을 실행할 수 있습니다. 이 프로세스는 추론된 항목과 관계를 테이블이나 뷰와 같은 구조화된 형식으로 구체화합니다.

사용 사례

구조화되지 않은 데이터에 대한 데이터 통계는 다음을 비롯한 다양한 용도로 사용할 수 있습니다.

  • 자동 ETL 파이프라인 생성. 맞춤 파서를 자동 스키마 제안 및 클릭 한 번으로 배포하여 데이터를 BigQuery 테이블, 뷰 또는 시맨틱 그래프로 구체화하는 기능으로 대체하여 Cloud Storage에서 BigQuery로의 데이터 추출을 자동화합니다.

    예를 들어 금융 서비스 회사는 수천 개의 PDF 인보이스에서 인보이스 세부정보, 공급업체 이름, 계약 조건을 자동으로 추출하여 맞춤 파싱 코드를 작성하지 않고도 즉각적인 지출 분석을 위해 BigQuery에 직접 구체화할 수 있습니다.

  • 콘텐츠 분류 및 유효성 검사 AI 생성 메타데이터로 보강된 검색 가능한 애셋으로 다크 데이터를 자동으로 그룹화하여 데이터 관리자가 추출된 엔티티의 대규모 수동 검증 및 모니터링을 실행할 수 있습니다.

    예를 들어 법무 또는 규정 준수 부서에서 이전 계약의 대규모 저장소를 자동으로 분류하고 주요 항목을 추출할 수 있습니다. 이를 통해 데이터 관리자는 중요한 규제 보고에 사용하기 전에 메타데이터를 검증할 수 있습니다.

  • AI 에이전트 그라운딩. 검증된 그래프로 검색 증강 생성 (RAG) 에이전트를 그라운딩합니다. 이를 통해 원시 파일을 구조화된 비즈니스 로직에 연결하는 명확한 '추적 가능성 체인'이 제공되어 환각 현상이 줄어들고 AI 에이전트가 모호함 없이 다중 테이블 조인을 탐색할 수 있습니다.

    예를 들어 제조 회사는 유지보수 로그에서 장비 관계를 추출할 수 있습니다. 기술자가 대화형 AI 에이전트에게 '실리콘 리콜의 영향을 받는 지역은 어디인가요?'라고 질문하면 에이전트는 검증된 관계 그래프를 사용하여 원래 매뉴얼로 거슬러 올라가는 명확한 추적 가능성 체인과 함께 정확한 답변을 제공합니다.

제한사항

구조화되지 않은 데이터에 데이터 통계를 사용하기 전에 다음 제한사항을 검토하세요.

  • 지원되는 형식 검색 스캔은 다양한 비정형 파일 유형을 BigQuery 객체 테이블로 자동 식별하고 그룹화하지만 비정형 데이터의 데이터 통계는 PDF 파일에만 최적화되어 있습니다.

  • 위치: 비정형 데이터에 대한 데이터 통계는 Vertex AI Gemini 2.5 Pro 모델을 지원하는 위치에서만 사용할 수 있습니다. 지원되는 리전 목록은 Gemini 2.5 Pro지원되는 리전 섹션을 참고하세요.

가격 책정

미리보기 단계에서는 시맨틱 추론 기능을 위한 추가 비용 없이 실험 및 테스트를 위해 구조화되지 않은 데이터에 대한 데이터 통계를 사용할 수 있습니다. 하지만 이 과정에서 사용되는 기본 리소스 및 서비스의 비용은 계속해서 사용자가 부담해야 합니다.

미리보기 기간

  • 시맨틱 추론 미리보기 기간 동안 Vertex AI를 사용하여 검색 스캔 중에 시맨틱 정보를 추출하고 그래프 프로필을 추론하는 데는 요금이 부과되지 않습니다.

  • 기본 리소스 비용. 데이터를 저장하고 처리하는 데 필요한 리소스에 표준 요금이 적용됩니다.

    • Knowledge Catalog.

      • 탐색 스캔은 비정형 데이터의 스캔 및 그룹화에 대한 Knowledge Catalog Premium 처리 SKU (DCU 시간)를 기준으로 청구됩니다. 자세한 내용은 Knowledge Catalog 가격 책정을 참고하세요.

      • 그래프 프로필을 비롯한 AI 생성 메타데이터에는 표준 Knowledge Catalog 스토리지 요금이 부과됩니다.

    • BigQuery.

      • 파이프라인 추출 방법을 사용하는 경우 Dataform 실행 및 BigQuery 작업에 표준 요금이 적용됩니다.

      • SQL 메서드를 사용하는 경우 표준 BigQuery ML 요금 및 BigQuery 작업 요금이 적용됩니다.

      • 객체 테이블, 추론된 메타데이터, 추출된 항목 등 BigQuery로 구체화된 데이터에는 표준 BigQuery 스토리지 및 쿼리 요금이 부과됩니다. 자세한 내용은 BigQuery 가격 책정을 참고하세요.

정식 버전(GA)

비정형 데이터용 데이터 통계의 공식 요금 청구는 정식 버전 (GA) 출시와 함께 시작됩니다.

할당량

각 개별 탐색 작업에는 표준 DataScan 리소스 및 API 할당량이 적용됩니다. 특정 할당량이 시맨틱 추론 볼륨을 관리합니다. BigQuery 객체 테이블의 총 일일 시맨틱 추론 실행은 프로젝트당 하루에 1회로 제한됩니다.

비정형 데이터의 데이터 통계는 탐색 스캔을 사용하므로 탐색 스캔에서 지원하는 테이블 수 제한이 적용됩니다. 자세한 내용은 BigQuery 할당량 및 한도를 참고하세요.

다음 단계