Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

비정형 데이터 통계 정보

Knowledge Catalog의 구조화되지 않은 데이터에 대한 데이터 프로필 스캔은 Cloud Storage의 다크 데이터 또는 구조화되지 않은 파일(예: PDF)을 BigQuery의 구조화되고 쿼리 가능한 애셋으로 변환합니다. 표준 검색 도구는 크기 및 유형과 같은 파일 수준 메타데이터로 제한되지만 Vertex AI Gemini 모델로 구동되는 비정형 데이터용 데이터 프로필 스캔은 파일 콘텐츠를 분석합니다. AI 에이전트의 기반을 마련하고 고급 분석을 지원하는 데 필요한 비즈니스 컨텍스트를 자동으로 추출합니다.

이 자동화를 통해 수동 문서 파싱과 맞춤 ETL 코드가 필요하지 않으므로 이전에는 액세스할 수 없었던 데이터를 탐색, 분류, 사용할 수 있습니다.

비정형 데이터의 데이터 프로필 스캔은 비정형 파일의 콘텐츠를 분석하여 정보를 추출하고 스키마를 추론합니다. 이는 기존 구조화된 테이블의 메타데이터를 기반으로 설명과 SQL 쿼리를 생성하는 구조화된 데이터용 데이터 인사이트 기능과 null 개수 및 값 분포와 같은 측정항목을 계산하는 표준 통계 데이터 프로파일링과는 다릅니다.

자동 탐색 및 시맨틱 프로파일링

시작점에 따라 두 가지 워크플로를 사용하여 비정형 데이터 프로파일링을 실행할 수 있습니다.

Cloud Storage 탐색 스캔 중: 탐색 스캔은 Cloud Storage에서 비정형 파일을 자동으로 찾아 분석을 위해 BigQuery의 하나 이상의 객체 테이블에 분류합니다. 객체 테이블은 Cloud Storage에 있는 비정형 데이터 객체에 대한 읽기 전용 테이블입니다. 의미론적 추론 사용 설정을 사용 설정한 상태로 탐색 스캔을 실행하면 구조화되지 않은 데이터 프로파일링의 자동 진입점으로 사용됩니다.
구조화되지 않은 데이터의 독립형 데이터 프로필 스캔: 기존 BigQuery 객체 테이블이 이미 있는 경우 해당 테이블에서 직접 구조화되지 않은 데이터의 데이터 프로필 스캔을 실행할 수 있습니다. 이 독립형 워크플로에서는 DataScan 사양에 맞춤 프롬프트를 제공하여 추출을 안내할 수도 있습니다.

비정형 데이터 프로파일링이 실행되면 (검색 스캔 중에 자동으로 또는 독립형 스캔으로) 시스템은 객체 테이블을 Knowledge Catalog에 항목으로 등록합니다. 항목은 메타데이터를 캡처하는 데이터 애셋을 나타냅니다. 탐색 스캔으로 인해 여러 테이블이 생성되면 각 항목에 자체 통계 탭이 있습니다. 그런 다음 이 항목을 열어 생성된 데이터 통계를 살펴볼 수 있습니다. 시스템은 다음 작업을 수행합니다.

파일을 식별하고 그룹화합니다 (검색 검사만 해당). Cloud Storage의 비구조화된 파일을 객체 테이블로 자동 식별하고 정리합니다. 이러한 객체 테이블은 구조화되지 않은 데이터에 구조화된 인터페이스를 제공하는 읽기 전용 테이블입니다.
비정형 데이터에 대한 데이터 프로필 스캔을 실행합니다. Vertex AI Gemini 모델을 사용하여 파일 내 콘텐츠를 분석하여 의미와 구조를 파악합니다. 여기에는 생성형 AI를 사용하여 파일 콘텐츠에서 Company, Product, Serial Number과 같은 특정 속성을 추출하는 엔티티 추론이 포함됩니다. 또한 Component is_part_of Product와 같은 이러한 항목이 연결되는 방식을 식별하여 시맨틱 그래프를 만드는 관계 추출도 포함됩니다. 독립형 프로필 스캔을 실행하는 경우 DataScan 사양에 맞춤 프롬프트를 제공하여 이 추출을 안내할 수 있습니다.
스키마 및 그래프 프로필을 생성합니다. AI 추천 관계형 스키마를 제공하고 객체 테이블을 나타내는 카탈로그 항목에 Graph Profile 측면(dataplex-types.global.graph-profile)을 연결합니다. 관점을 통해 항목 내에서 메타데이터를 캡처할 수 있습니다. 이 메타데이터 측면에는 엔티티 (NodeType) 및 관계 (EdgeType)의 추론된 스키마가 포함됩니다.
메타데이터를 보강합니다. AI 생성 메타데이터로 Knowledge Catalog를 자동으로 채웁니다. 이렇게 하면 데이터를 검색하고 추출할 수 있습니다.

데이터베이스 스키마를 수동으로 설계하는 대신 클릭 한 번으로 SQL 또는 파이프라인 오케스트레이션을 사용하여 데이터 추출을 실행할 수 있습니다. 이 프로세스는 추론된 항목과 관계를 실제 BigQuery 테이블 또는 뷰와 같은 구조화된 형식으로 구체화합니다.

API 메서드

다음 REST API 메서드를 사용하여 비정형 데이터와 결과 카탈로그 항목의 데이터 프로필 스캔을 구성, 실행, 관리할 수 있습니다.

API 메서드	설명
`projects.locations.dataScans.create`	`dataDiscoverySpec`를 사용하여 검색 스캔을 만들거나 `unstructuredDataProfileSpec`를 사용하여 비정형 데이터의 독립형 데이터 프로필 스캔을 만듭니다.
`projects.locations.dataScans.run`	비정형 파일을 분석하고 시맨틱 통계를 생성하기 위해 주문형 데이터 프로필 스캔 또는 탐색 스캔 작업을 트리거합니다.
`projects.locations.dataScans.get`	기존 데이터 프로필 스캔의 구성 세부정보와 최신 작업 결과를 가져옵니다.
`projects.locations.dataScans.jobs.list`	특정 데이터 프로필 스캔 또는 검색 스캔의 이전 스캔 작업을 나열합니다.
`projects.locations.dataScans.jobs.get`	특정 데이터 프로필 스캔 작업의 자세한 실행 결과와 로그를 가져옵니다.
`projects.locations.entryGroups.entries.get`	연결된 AI 생성 메타데이터 측면 (예: `GraphProfile`)을 포함하여 객체 테이블을 나타내는 카탈로그 항목을 가져옵니다.
`projects.locations.entryGroups.entries.patch`	카탈로그 항목을 업데이트하여 메타데이터 측면 (예: `dataplex-types.global.graph-profile`)을 연결하거나 수정하거나 선별합니다.

사용 사례

비정형 데이터의 데이터 프로필 스캔은 다음과 같은 다양한 산업 도메인에서 여러 목적으로 사용할 수 있습니다.

파이프라인 설정 및 제로 ETL 정규화 맞춤 파서를 자동 스키마 제안 및 클릭 한 번으로 배포하여 데이터를 BigQuery 테이블, 뷰 또는 시맨틱 그래프로 구체화하는 기능으로 대체하여 Cloud Storage에서 BigQuery로의 데이터 추출을 간소화하세요.

예를 들어 전자상거래 및 소매업에서 마켓은 맞춤 파싱 코드를 작성하지 않고도 수백 개의 서로 다른 PDF 레이아웃에 있는 공급업체 인보이스와 구매 주문을 일관되고 통합된 BigQuery 스키마 (Unit Pr., Price/Pkg, Item Cost을 단일 Unit_Price 열에 매핑)로 자동 정규화할 수 있습니다. 의료 분야에서 생물통계학자는 다기관 임상시험 프로토콜과 사례 보고 양식 (CRF)을 구조화된 표에 삽입하여 신속한 집단 분석을 수행할 수 있습니다.
콘텐츠 분류 및 유효성 검사 어두운 데이터를 AI 생성 메타데이터로 보강된 검색 가능한 애셋으로 자동 그룹화하여 데이터 관리자가 추출된 엔티티의 대규모 수동 검증 및 모니터링을 실행할 수 있습니다.

예를 들어 금융 서비스에서 M&A 실사를 수행하는 투자 은행은 이전 계약 및 신용 계약의 대규모 저장소를 자동으로 분류하여 복잡한 법인(Contracting_Parties, Indemnity_Cap, Governing_Law)을 추출할 수 있습니다. 데이터 관리자는 통계 탭에서 시각적 지식 그래프를 탐색하여 데이터를 경영진 보고서로 내보내기 전에 위험도가 높은 부채를 식별할 수 있습니다.
AI 에이전트 그라운딩. 검증된 그래프로 그라운딩된 검색 증강 생성 (RAG) 에이전트 이를 통해 원시 파일을 구조화된 비즈니스 로직에 연결하는 명확한 '추적 가능성 체인'이 제공되어 환각 현상이 줄어들고 AI 에이전트가 모호함 없이 다중 테이블 조인을 탐색할 수 있습니다.

예를 들어 제조 및 산업 운영에서 중장비 회사는 수십 년간의 구조화되지 않은 현장 유지관리 로그와 사고 보고서에서 장비 관계를 추출할 수 있습니다. 현장 기술자가 대화형 AI 에이전트에게 비정상적인 유압 강하를 해결하는 방법을 물으면 에이전트는 검증된 관계 그래프 (Error_Code indicates_failure Hydraulic_Valve)를 사용하여 정확한 단계별 수리 계획을 제공하고 정확한 과거 사고 보고서를 인용합니다.

제한사항

비구조화 데이터에 데이터 프로필 스캔을 사용하기 전에 다음 제한사항을 검토하세요.

지원되는 형식 검색 스캔은 다양한 구조화되지 않은 파일 유형을 BigQuery 객체 테이블로 자동 식별하고 그룹화하지만, 구조화되지 않은 데이터의 데이터 프로필 스캔을 위한 시맨틱 추론 엔진은 주로 PDF 문서에 최적화되어 있습니다.
위치: 비구조화 데이터의 데이터 프로필 스캔은 Vertex AI Gemini 2.5 Pro 모델을 지원하는 위치 (예: us-central1, europe-west1, asia-southeast1)에서만 사용할 수 있습니다. 지원되는 지역 목록은 Gemini 2.5 Pro의 지원되는 지역 섹션을 참고하세요. 지원되지 않는 지역에서 생성된 스캔은 검증 또는 실행 오류를 반환합니다.
리소스 범위. 구조화되지 않은 데이터의 데이터 프로필 스캔은 BigQuery 객체 테이블에서만 작동합니다. 표준 BigQuery 구조화된 테이블, 구조화된 데이터에 대한 외부 테이블 또는 BigQuery 뷰는 지원하지 않습니다.

가격 책정

공개 미리보기 단계에서는 구조화되지 않은 데이터의 데이터 프로필 스캔을 전문 프로모션 약관에 따라 실험 및 테스트에 사용할 수 있습니다.

시맨틱 추론 프리뷰 기간 동안 Vertex AI Gemini 모델을 사용하여 검색 스캔 중에 시맨틱 정보를 추출하고 그래프 프로필을 추론하는 데는 요금이 부과되지 않습니다.
기본 리소스 비용. 데이터를 저장하고 처리하는 데 필요한 리소스에는 표준 요금이 적용됩니다.
- Knowledge Catalog
  - 탐색 스캔은 비구조화 파일의 기준 스캔 및 그룹화에 대한 Knowledge Catalog Premium 처리 SKU (DCU 시간)를 기준으로 청구됩니다. 자세한 내용은 Knowledge Catalog 가격 책정을 참고하세요.
  - 그래프 프로필을 비롯한 AI 생성 메타데이터 측면에는 표준 Knowledge Catalog 카탈로그 스토리지 요금이 부과됩니다.
- BigQuery 및 Dataform
  - 파이프라인 추출 방법을 사용하는 경우 Dataform 실행 및 BigQuery 작업에 표준 요금이 적용됩니다.
  - SQL 방법을 사용하는 경우 표준 BigQuery ML 요금(ML.PROCESS_DOCUMENT) 및 BigQuery 쿼리 처리 수수료가 적용됩니다.
  - 객체 테이블, 추론된 메타데이터, 추출된 항목 등 BigQuery에 구체화된 데이터에는 표준 BigQuery 스토리지 및 쿼리 요금이 부과됩니다. 자세한 내용은 BigQuery 가격 책정을 참고하세요.

비정형 데이터 및 시맨틱 추론을 위한 데이터 프로필 스캔의 공식 전용 청구 구조는 정식 버전 (GA) 출시 시 시작됩니다.

할당량

각 개별 탐색 스캔 또는 데이터 프로필 스캔 작업에는 표준 DataScan 리소스 및 API 할당량이 적용됩니다. 특정 할당량이 시맨틱 추론 볼륨을 관리합니다. BigQuery 객체 테이블의 구조화되지 않은 데이터에 대한 데이터 프로필 스캔의 총 일일 실행은 프로젝트당 일일 140회 실행으로 제한됩니다.

검색 스캔 중에 구조화되지 않은 데이터 프로파일링이 실행되면 검색 스캔에서 지원하는 테이블 수에 대한 제한도 적용됩니다. 자세한 내용은 BigQuery 할당량 및 한도를 참고하세요.