A partire dal 10 aprile 2026, Dataplex Universal Catalog si chiama Knowledge Catalog. I nomi di API, libreria client, CLI e IAM rimangono invariati. Per ulteriori informazioni, consulta Presentazione di Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Informazioni sulla profilazione dei dati

Knowledge Catalog (in precedenza Dataplex Universal Catalog) semplifica la comprensione e l'analisi dei dati eseguendo automaticamente la profilazione delle tabelle BigQuery e Iceberg REST Catalog.

La profilazione è come ottenere un report dettagliato sullo stato dei dati. Fornisce statistiche chiave, come i valori comuni, la distribuzione dei dati e il numero di voci mancanti (conteggi null). Queste informazioni velocizzano l'analisi.

La profilazione dei dati consiglia regole di controllo della qualità dei dati per garantire l'affidabilità dei dati.

Modello concettuale

Knowledge Catalog ti consente di comprendere meglio il profilo dei tuoi dati creando una scansione del profilo di dati. Una scansione del profilo di dati è un tipo di scansione dei dati di Knowledge Catalog che analizza una tabella BigQuery o Iceberg REST Catalog per generare insight statistici.

Il seguente diagramma mostra come Knowledge Catalog esegue la scansione dei dati per generare report sulle caratteristiche statistiche.

Una scansione del profilo di dati è associata a una tabella BigQuery o Iceberg REST Catalog ed esegue la scansione della tabella per generare i risultati della profilazione dei dati. Una scansione del profilo di dati supporta diverse opzioni di configurazione.

Opzioni di configurazione

Questa sezione descrive le opzioni di configurazione disponibili per l'esecuzione delle scansioni del profilo di dati.

Modalità di profilazione

Puoi scegliere tra le seguenti modalità di profilazione:

Standard: questa è la modalità predefinita. Fornisce un profilo completo e personalizzabile eseguendo la scansione dei dati in base al campionamento e ai filtri specificati. La modalità standard è adatta per l'analisi dettagliata e il monitoraggio a lungo termine delle caratteristiche dei dati.
Leggero (anteprima): questa modalità fornisce scansioni del profilo a bassa latenza che restituiscono i risultati in pochi secondi. È ottimizzata per la velocità e l'efficienza in termini di costi per supportare casi d'uso come i seguenti:
- Basare le risposte dell'agente AI sulle caratteristiche immediate dei dati
- Generare in modo conveniente profili su larga scala per il rilevamento dei dati globali
- Fornire report sullo stato rapidi durante l'esplorazione interattiva dei dati
La modalità lightweight presenta le seguenti limitazioni:
- A differenza della modalità di profilazione standard, non puoi modificare l'ambito, i filtri o le dimensioni del campionamento nelle scansioni lightweight.
- Non supporta le viste BigQuery e le tabelle esterne.
Non strutturata (anteprima): questa modalità utilizza una scansione del profilo di dati autonoma per i dati non strutturati (UnstructuredDataProfileSpec) basata sui modelli Vertex AI Gemini per analizzare il contenuto qualitativo effettivo dei file non strutturati (ad esempio i PDF in Cloud Storage) utilizzando le tabelle degli oggetti BigQuery esistenti. A differenza delle modalità di profilazione strutturata (standard e lightweight), che calcolano metriche statistiche come i conteggi null e le distribuzioni dei valori, le scansioni del profilo di dati per i dati non strutturati eseguono l'inferenza semantica per estrarre le entità aziendali (NodeType) e le relazioni (EdgeType), allegare un aspetto Graph Profile (dataplex-types.global.graph-profile) alla voce del catalogo e consentire la materializzazione programmatica dei dati in tabelle o viste BigQuery fisiche.

Nota: le scansioni del profilo di dati per i dati non strutturati sono disponibili in anteprima pubblica solo tramite l'API REST Dataplex. I flussi di lavoro della Google Cloud console e di Google Cloud CLI non sono supportati.

Per ulteriori informazioni, consulta Informazioni sugli insight sui dati non strutturati, Utilizzare la scansione di rilevamento per i dati non strutturati (per le scansioni di rilevamento di Cloud Storage) e Utilizzare il profilo di dati per i dati non strutturati (per la profilazione delle tabelle degli oggetti autonome).

Opzioni di programmazione

Puoi programmare una scansione del profilo di dati con una frequenza definita o eseguirla on demand. Se un job di scansione viene eseguito più a lungo del previsto, puoi annullarlo.

Identità di esecuzione

Per impostazione predefinita, Knowledge Catalog utilizza un service agent centralizzato (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) per eseguire le scansioni di profilazione dei dati.

Puoi anche sostituire questa identità di esecuzione predefinita specificando un account di servizio personalizzato (Bring Your Own Service Account) o utilizzando le tue credenziali utente finale (EUC). Questo offre diversi vantaggi:

Principio del privilegio minimo: concedi solo le autorizzazioni IAM (Identity and Access Management) esatte richieste per attività di profilazione dei dati specifiche a un account di servizio dedicato, riducendo al minimo l'accesso con provisioning eccessivo.
Controllo dell'accesso granulare: limita le autorizzazioni a risorse specifiche, consentendo l'integrazione con le policy di accesso a livello di riga e di colonna in BigQuery.
Miglioramento della controllabilità: assegna account di servizio personalizzati o credenziali utente a scansioni specifiche, rendendo il monitoraggio e la registrazione delle attività molto più chiari nei log di controllo.
Unificazione della fatturazione: quando utilizzi un'identità di esecuzione personalizzata, i costi di elaborazione e archiviazione vengono centralizzati direttamente in BigQuery (ignorando gli SKU Knowledge Catalog Premium). In questo modo puoi usufruire degli sconti aziendali e degli impegni di slot di BigQuery.

Per istruzioni su come configurare un'identità di esecuzione personalizzata, consulta Configurare l'identità di esecuzione.

Ambito

Per le scansioni di profilazione standard, puoi specificare l'ambito dei dati da analizzare:

Tabella completa: l'intera tabella viene analizzata nella scansione del profilo di dati. Il campionamento, i filtri delle righe e i filtri delle colonne vengono applicati all'intera tabella prima di calcolare le statistiche di profilazione.
Incrementale: nella scansione del profilo di dati vengono analizzati i dati incrementali specificati. Specifica una colonna Date o Timestamp nella tabella da utilizzare come incremento. In genere, questa è la colonna in base alla quale è partizionata la tabella. Il campionamento, i filtri delle righe e i filtri delle colonne vengono applicati ai dati incrementali prima di calcolare le statistiche di profilazione.

Filtra dati

Per le scansioni di profilazione standard, puoi filtrare i dati da analizzare per la profilazione utilizzando i filtri delle righe e delle colonne. L'utilizzo dei filtri consente di ridurre il tempo di esecuzione e i costi, nonché di escludere dati sensibili e non necessari. Le scansioni di profilazione lightweight non supportano i filtri delle colonne e delle righe.

Filtri delle righe: i filtri delle righe ti consentono di concentrarti sui dati all'interno di un periodo di tempo specifico o di un segmento specifico, ad esempio una regione. Ad esempio, puoi filtrare i dati con un timestamp precedente a una determinata data.
Filtri delle colonne: i filtri delle colonne ti consentono di includere ed escludere colonne specifiche dalla tabella per eseguire la scansione del profilo di dati.

Dati di esempio

Per le scansioni di profilazione standard, puoi specificare una percentuale di record dei dati da campionare per eseguire una scansione del profilo di dati. La creazione di scansioni del profilo di dati su un campione di dati più piccolo può ridurre il tempo di esecuzione e il costo dell'esecuzione di query sull'intero set di dati.

Più scansioni di profilazione dei dati

Puoi creare più scansioni del profilo di dati contemporaneamente utilizzando la Google Cloud console. Puoi selezionare fino a 100 tabelle da un set di dati e creare una scansione del profilo di dati per ogni set di dati. Per ulteriori informazioni, consulta Creare più scansioni del profilo di dati.

Esportare i risultati della scansione in una tabella BigQuery

Puoi esportare i risultati della scansione del profilo di dati in una tabella BigQuery per ulteriori analisi. Per personalizzare i report, puoi collegare i dati della tabella BigQuery a una dashboard Looker. Puoi creare un report aggregato utilizzando la stessa tabella dei risultati per più scansioni.

Risultati della profilazione dei dati

I risultati della profilazione dei dati includono i seguenti valori:

Tipo di colonna	Risultati della profilazione dei dati
Colonna numerica	Percentuale di valori null. Percentuale di valori unici (distinti) approssimativi. I 10 valori più comuni nella colonna. Può essere inferiore a 10 se il numero di valori unici nella colonna è inferiore a 10 (i valori null non sono inclusi). Per ognuno di questi valori più comuni, viene visualizzata la percentuale della loro occorrenza nei dati analizzati nella scansione corrente. Valori medi, deviazione standard, minimi, quartile inferiore approssimativo, mediani approssimativi, quartile superiore approssimativo e massimi.
Colonna stringa	Percentuale di valori null. Percentuale di valori unici (distinti) approssimativi. I 10 valori più comuni nella colonna, che possono essere inferiori a 10 se il numero di valori unici nella colonna è inferiore a 10. Lunghezza media, minima e massima della stringa.
Altre colonne non nidificate (data, ora, timestamp, binario e così via)	Percentuale di valori null. Percentuale di valori unici (distinti) approssimativi. I 10 valori più comuni nella colonna, che possono essere inferiori a 10 se il numero di valori unici nella colonna è inferiore a 10.
Tutte le altre colonne di tipo di dati nidificate o complesse (ad esempio Record, Array, JSON) o qualsiasi colonna con repeated mode.	Percentuale di valori null.

I risultati includono il numero di record analizzati in ogni job.

Rapporti e monitoraggio

Puoi monitorare e analizzare i risultati della profilazione dei dati utilizzando i seguenti report e metodi:

Report pubblicati con la tabella di origine nelle pagine BigQuery e Knowledge Catalog

Se configuri una scansione del profilo di dati per pubblicare i risultati in BigQuery e Knowledge Catalog, puoi visualizzare i risultati più recenti della scansione del profilo di dati nella scheda Profilo di dati della tabella di origine sia in BigQuery sia in Knowledge Catalog. Questi risultati sono accessibili da qualsiasi progetto.
Report storico per job

Nella pagina Profilazione e qualità dei dati > Scansione del profilo di dati in Knowledge Catalog e BigQuery, puoi visualizzare i report dettagliati per i job più recenti e storici. Sono incluse le informazioni sul profilo a livello di colonna e la configurazione utilizzata.
Scheda Analisi

Nella pagina Profilazione e qualità dei dati > Scansione del profilo di dati in Knowledge Catalog e BigQuery, puoi utilizzare la scheda Analisi per visualizzare le tendenze per una determinata statistica di una colonna in più job di profilo. Ad esempio, se hai una scansione incrementale, puoi visualizzare l'andamento della media di un valore nel tempo.
Crea la tua dashboard o analisi

Se hai configurato una scansione del profilo di dati per esportare i risultati in una tabella BigQuery, puoi creare le tue dashboard utilizzando strumenti come Data Studio.

Limitazioni

Puoi eseguire scansioni del profilo di dati solo su tabelle BigQuery e Iceberg REST Catalog.
La profilazione dei dati è supportata per le tabelle BigQuery con tutti i tipi di colonne, ad eccezione di BIGNUMERIC. Una scansione creata per una tabella con una colonna BIGNUMERIC genera un errore di convalida e non viene creata correttamente.

Prezzi

Per ulteriori informazioni sui prezzi, consulta i prezzi di Knowledge Catalog.

Passaggi successivi

Scopri come utilizzare la profilazione dei dati.
Per ulteriori informazioni sulle risorse Terraform disponibili per la creazione di scansioni del profilo di dati, consulta le seguenti risorse:
- Risorsa di scansione dei dati di Knowledge Catalog nel registro di Terraform.
- La documentazione della risorsa di scansione dei dati di Knowledge Catalog su GitHub, che supporta la configurazione delle regole basata su YAML.
Scopri di più sulla qualità dei dati automatica.
Scopri come utilizzare la qualità dei dati automatica.
Scopri come esplorare i dati generando insight.