A partire dal 10 aprile 2026, Dataplex Universal Catalog si chiama Knowledge Catalog. I nomi di API, libreria client, CLI e IAM rimangono invariati. Per ulteriori informazioni, consulta Presentazione di Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Informazioni sugli approfondimenti sui dati non strutturati

Una scansione del profilo di dati per i dati non strutturati in Knowledge Catalog trasforma i dati oscuri o i file non strutturati come i PDF in Cloud Storage in asset strutturati e interrogabili in BigQuery. Mentre gli strumenti di rilevamento standard sono limitati ai metadati a livello di file, come dimensioni e tipo, una scansione del profilo di dati non strutturati basata sui modelli Vertex AI Gemini analizza i contenuti dei file. Estrae automaticamente il contesto aziendale necessario per basare gli agenti AI e potenziare l'analisi avanzata.

Questa automazione elimina la necessità di analizzare manualmente i documenti e di utilizzare codice ETL personalizzato, consentendoti di scoprire, classificare e utilizzare dati precedentemente inaccessibili.

Una scansione del profilo dei dati non strutturati analizza il contenuto dei file non strutturati per estrarre informazioni e dedurre schemi. Questa funzionalità è diversa da Approfondimenti sui dati per i dati strutturati, che genera descrizioni e query SQL in base ai metadati delle tabelle strutturate esistenti e dalla profilazione dei dati statistica standard, che calcola metriche come i conteggi dei valori null e le distribuzioni dei valori.

Rilevamento automatico e profilazione semantica

Puoi eseguire la profilazione dei dati non strutturati utilizzando due flussi di lavoro diversi, a seconda del punto di partenza:

Durante una scansione di rilevamento di Cloud Storage:una scansione di rilevamento individua automaticamente i file non strutturati in Cloud Storage e li cataloga in una o più tabelle di oggetti in BigQuery per l'analisi. Una tabella di oggetti è una tabella di sola lettura su oggetti di dati non strutturati che si trovano in Cloud Storage. Quando esegui una scansione di rilevamento con l'opzione Attiva inferenza semantica attivata, questa funge da punto di ingresso automatizzato per la profilazione dei dati non strutturati.
Come scansione di profilazione dei dati autonoma per i dati non strutturati:se hai già tabelle di oggetti BigQuery esistenti, puoi eseguire una scansione di profilazione dei dati per i dati non strutturati direttamente su queste tabelle. In questo flusso di lavoro autonomo, puoi anche guidare l'estrazione fornendo un prompt personalizzato nella specifica DataScan.

Quando viene eseguita la profilazione dei dati non strutturati (automaticamente durante una scansione di rilevamento o come scansione autonoma), il sistema registra le tabelle degli oggetti come voci in Knowledge Catalog. Una voce rappresenta un asset di dati per il quale acquisisci i metadati. Quando vengono create più tabelle a causa di una scansione del rilevamento, ogni voce ha la propria scheda degli approfondimenti. Puoi quindi aprire questa voce per esplorare gli insight generati sui dati. Il sistema esegue le seguenti azioni:

Identifica e raggruppa i file (solo scansione di rilevamento). Identifica e organizza automaticamente i file non strutturati in Cloud Storage in tabelle di oggetti. Queste tabelle di oggetti sono tabelle di sola lettura che forniscono un'interfaccia strutturata ai dati non strutturati.
Esegue una scansione del profilo di dati per i dati non strutturati. Utilizza i modelli Gemini di Vertex AI per analizzare i contenuti all'interno dei file per comprenderne il significato e la struttura. Ciò include l'inferenza di entità, che utilizza l'AI generativa per estrarre attributi specifici, ad esempio Company, Product o Serial Number, dai contenuti del file. Include anche l'estrazione delle relazioni, che identifica il modo in cui queste entità si collegano, ad esempio Component is_part_of Product, per creare un grafico semantico. Se esegui una scansione di profilazione autonoma, puoi guidare questa estrazione fornendo un prompt personalizzato nella specifica DataScan.
Genera schemi e profili grafici. Fornisce uno schema relazionale suggerito dall'AI e collega un Graph Profile aspetto (dataplex-types.global.graph-profile) alla voce di catalogo che rappresenta la tabella degli oggetti. Gli aspetti permettono di acquisire metadati all'interno delle voci. Questo aspetto dei metadati contiene gli schemi dedotti per le entità (NodeType) e le relazioni (EdgeType).
Arricchisce i metadati. Compila automaticamente Knowledge Catalog con metadati generati dall'AI. In questo modo i dati sono ricercabili e pronti per l'estrazione.

Anziché progettare manualmente gli schemi di database, puoi eseguire l'estrazione dei dati utilizzando SQL con un clic o l'orchestrazione delle pipeline. Questo processo materializza entità e relazioni inferite in formati strutturati, ad esempio tabelle o viste BigQuery fisiche.

Metodi dell'API

Puoi configurare, eseguire e gestire le scansioni del profilo di dati per i dati non strutturati e le voci di catalogo risultanti utilizzando i seguenti metodi dell'API REST:

Metodo API	Descrizione
`projects.locations.dataScans.create`	Crea una scansione di individuazione (utilizzando `dataDiscoverySpec`) o una scansione del profilo di dati autonoma per i dati non strutturati (utilizzando `unstructuredDataProfileSpec`).
`projects.locations.dataScans.run`	Attiva un job di scansione del profilo di dati o di rilevamento on demand per analizzare i file non strutturati e generare approfondimenti semantici.
`projects.locations.dataScans.get`	Recupera i dettagli di configurazione e i risultati dell'ultimo job di una scansione del profilo di dati esistente.
`projects.locations.dataScans.jobs.list`	Elenca i job di scansione storici per una specifica scansione del profilo di dati o scansione di individuazione.
`projects.locations.dataScans.jobs.get`	Recupera i risultati e i log di esecuzione dettagliati per un job di scansione del profilo di dati specifico.
`projects.locations.entryGroups.entries.get`	Recupera una voce di catalogo che rappresenta una tabella di oggetti, inclusi gli aspetti dei metadati generati dall'AI allegati (ad esempio `GraphProfile`).
`projects.locations.entryGroups.entries.patch`	Aggiorna una voce di catalogo per allegare, modificare o curare gli aspetti dei metadati (ad esempio `dataplex-types.global.graph-profile`).

Casi d'uso

Puoi utilizzare le analisi del profilo dei dati per i dati non strutturati per vari scopi in diversi domini settoriali, tra cui:

Configurazione della pipeline e normalizzazione zero-ETL. Semplifica l'estrazione dei dati da Cloud Storage a BigQuery sostituendo i parser personalizzati con suggerimenti automatici per lo schema e l'implementazione con un clic per materializzare i dati in tabelle, viste o grafici semantici BigQuery.

Ad esempio, nell'e-commerce e nella vendita al dettaglio, un marketplace può normalizzare automaticamente le fatture dei fornitori e gli ordini di acquisto in centinaia di layout PDF diversi in uno schema BigQuery coeso e unificato (mapping di Unit Pr., Price/Pkg e Item Cost a una singola colonna Unit_Price) senza scrivere codice di analisi personalizzato. Nel settore sanitario, i biostatistici possono inserire protocolli di sperimentazioni cliniche multicentriche e moduli di segnalazione dei casi (CRF) in tabelle strutturate per un'analisi rapida delle coorti.
Classificazione e convalida dei contenuti. Raggruppa automaticamente i dati oscuri in asset ricercabili arricchiti con metadati generati dall'AI, che consentono ai responsabili della gestione dei dati di eseguire la convalida e il monitoraggio delle entità estratte su larga scala.

Ad esempio, nei servizi finanziari, una banca di investimento che conduce la due diligence per fusioni e acquisizioni può classificare automaticamente grandi repository di contratti storici e accordi di credito, estraendo entità giuridiche complesse (Contracting_Parties, Indemnity_Cap, Governing_Law). I responsabili dei dati possono esplorare il knowledge graph visivo nella scheda Approfondimenti per identificare passività ad alto rischio prima di esportare i dati nei report esecutivi.
Grounding dell'agente AI. Basare gli agenti di Retrieval Augmented Generation (RAG) su grafi verificati. In questo modo si ottiene una chiara "catena di tracciabilità" che collega i file non elaborati alla logica di business strutturata, riducendo le allucinazioni, il che consente agli agenti AI di navigare tra le unioni di più tabelle senza alcuna ambiguità.

Ad esempio, nelle operazioni industriali e di produzione, un'azienda di macchinari pesanti può estrarre le relazioni tra le attrezzature da decenni di log di manutenzione sul campo e report sugli incidenti non strutturati. Quando un tecnico in loco chiede a un agente di AI conversazionale come risolvere un calo di pressione idraulica anomalo, l'agente utilizza il grafico delle relazioni verificato (Error_Code indicates_failure Hydraulic_Valve) per fornire un piano di riparazione accurato e passo passo citando il report sull'incidente storico esatto.

Limitazioni

Prima di utilizzare le scansioni del profilo di dati per i dati non strutturati, esamina le seguenti limitazioni:

Formati supportati. Mentre le scansioni di rilevamento identificano e raggruppano automaticamente vari tipi di file non strutturati in tabelle di oggetti BigQuery, il motore di inferenza semantica per le scansioni di profilazione dei dati per i dati non strutturati è ottimizzato principalmente per i documenti PDF.
Località. Le scansioni dei profili dei dati per i dati non strutturati sono disponibili solo nelle località che supportano i modelli Vertex AI Gemini 2.5 Pro (ad esempio us-central1, europe-west1, asia-southeast1). Per un elenco delle regioni supportate, consulta la sezione Regioni supportate in Gemini 2.5 Pro. Le scansioni create in regioni non supportate restituiscono errori di convalida o esecuzione.
Ambito risorsa. Le scansioni di profilazione dei dati per i dati non strutturati operano esclusivamente sulle tabelle degli oggetti BigQuery. Non supportano tabelle strutturate BigQuery standard, tabelle esterne su dati strutturati o viste BigQuery.

Prezzi

Durante la fase di anteprima pubblica, le scansioni dei profili di dati per i dati non strutturati sono disponibili per la sperimentazione e il test in base a termini promozionali specializzati:

Inferenza semantica. Non è previsto alcun costo per l'utilizzo dei modelli Vertex AI Gemini per estrarre informazioni semantiche e dedurre profili grafici durante le scansioni di rilevamento per tutto il periodo di anteprima.
Costi delle risorse sottostanti. Vengono applicati i costi standard per le risorse necessarie per archiviare ed elaborare i dati:
- Knowledge Catalog
  - Le scansioni di rilevamento vengono fatturate in base agli SKU di elaborazione Knowledge Catalog Premium (ore DCU) per la scansione e il raggruppamento di base dei file non strutturati. Per ulteriori informazioni, consulta la sezione Prezzi di Knowledge Catalog.
  - Gli aspetti dei metadati generati dall'AI, inclusi i profili del grafico, comportano i costi standard di archiviazione del catalogo Knowledge Catalog.
- BigQuery e Dataform
  - Se utilizzi il metodo di estrazione della pipeline, vengono applicati gli addebiti standard per l'esecuzione di Dataform e i job BigQuery.
  - Se utilizzi il metodo SQL, si applicano gli addebiti standard di BigQuery ML (ML.PROCESS_DOCUMENT) e le tariffe di elaborazione delle query BigQuery.
  - Tutti i dati materializzati in BigQuery, incluse le tabelle degli oggetti, i metadati dedotti e le entità estratte, comportano addebiti standard per l'archiviazione e le query di BigQuery. Per ulteriori informazioni, vedi Prezzi di BigQuery.

Le strutture di fatturazione dedicate ufficiali per le scansioni dei profili di dati per dati non strutturati e inferenza semantica iniziano al momento della disponibilità generale (GA).

Quote

Le quote di risorse e API DataScan standard si applicano a ogni job di scansione di rilevamento o scansione del profilo di dati individuale. Una quota specifica regola il volume dell'inferenza semantica: le esecuzioni giornaliere totali delle scansioni di profilazione dei dati per i dati non strutturati nelle tabelle degli oggetti BigQuery sono limitate a 140 esecuzioni al giorno per progetto.

Quando la profilazione dei dati non strutturati viene eseguita durante una scansione di rilevamento, si applicano anche i limiti al numero di tabelle supportate da una scansione di rilevamento. Per ulteriori informazioni, consulta Quote e limiti di BigQuery.

Passaggi successivi

Scopri come utilizzare la scansione di rilevamento per i dati non strutturati.
Scopri come utilizzare il profilo dei dati per i dati non strutturati.
Scopri di più su come scoprire i dati.
Leggi Informazioni sulla profilazione dei dati.