A partire dal 10 aprile 2026, Dataplex Universal Catalog si chiama Knowledge Catalog. I nomi di API, libreria client, CLI e IAM rimangono invariati. Per ulteriori informazioni, consulta Presentazione di Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Informazioni sulla profilazione dei dati

Knowledge Catalog (in precedenza Dataplex Universal Catalog) semplifica la comprensione e l'analisi dei dati eseguendo automaticamente la profilazione delle tabelle BigQuery e Iceberg REST Catalog.

La profilazione è come ottenere un report dettagliato sullo stato di salute dei tuoi dati. Fornisce statistiche chiave, come valori comuni, la distribuzione dei dati e il numero di voci mancanti (conteggi nulli). Queste informazioni velocizzano l'analisi.

La profilazione dei dati consiglia regole di controllo della qualità dei dati per garantire l'affidabilità dei dati.

Modello concettuale

Knowledge Catalog ti consente di comprendere meglio il profilo dei tuoi dati creando una scansione di profilazione dei dati. Una scansione di profilazione dei dati è un tipo di scansione dei dati di Knowledge Catalog che analizza una tabella BigQuery o Iceberg REST Catalog per generare approfondimenti statistici.

Il seguente diagramma mostra come Knowledge Catalog esegue la scansione dei dati per generare report sulle caratteristiche statistiche.

Una scansione di profilazione dei dati è associata a una tabella BigQuery o a una tabella Iceberg REST Catalog e analizza la tabella per generare i risultati della profilazione dei dati. Una scansione del profilo di dati supporta diverse opzioni di configurazione.

Opzioni di configurazione

Questa sezione descrive le opzioni di configurazione disponibili per l'esecuzione delle scansioni dei profili di dati.

Modalità di profilazione

Puoi scegliere tra le seguenti modalità di profilazione:

Standard: questa è la modalità predefinita. Fornisce un profilo completo e personalizzabile analizzando i dati in base al campionamento e ai filtri specificati. La modalità Standard è adatta per l'analisi dettagliata e il monitoraggio a lungo termine delle caratteristiche dei dati.
Leggera (anteprima): questa modalità fornisce scansioni del profilo a bassa latenza che restituiscono risultati in pochi secondi. È ottimizzato per velocità ed efficienza dei costi per supportare casi d'uso come i seguenti:
- Fonda le risposte dell'agente AI sulle caratteristiche immediate dei dati
- Generare in modo conveniente profili su larga scala per l'individuazione globale dei dati
- Fornire report sanitari rapidi durante l'esplorazione interattiva dei dati
La modalità leggera presenta le seguenti limitazioni:
- A differenza della modalità di profilazione standard, non puoi modificare l'ambito, i filtri o le dimensioni del campionamento nelle scansioni leggere.
- Non supporta le viste e le tabelle esterne BigQuery.
Non strutturato (anteprima): Questa modalità utilizza una scansione autonoma del profilo dei dati per i dati non strutturati (UnstructuredDataProfileSpec) basata sui modelli Gemini di Vertex AI per analizzare i contenuti qualitativi effettivi dei file non strutturati (come i PDF in Cloud Storage) utilizzando le tabelle degli oggetti BigQuery esistenti. A differenza delle modalità di profilazione strutturata (standard e leggera), che calcolano metriche statistiche come il numero di valori nulli e le distribuzioni dei valori, le scansioni del profilo dei dati per i dati non strutturati eseguono l'inferenza semantica per estrarre entità aziendali (NodeType) e relazioni (EdgeType), allegare un aspetto Graph Profile (dataplex-types.global.graph-profile) alla voce di catalogo e consentire la materializzazione programmatica dei dati in tabelle o viste BigQuery fisiche.

Nota: le scansioni del profilo dati per i dati non strutturati sono disponibili in anteprima pubblica solo tramite l'API REST Dataplex. I flussi di lavoro della console Google Cloud e di Google Cloud CLI non sono supportati.

Per maggiori informazioni, consulta Informazioni sugli approfondimenti sui dati non strutturati, Utilizzare la scansione di rilevamento per i dati non strutturati (per le scansioni di rilevamento di Cloud Storage) e Utilizzare il profilo di dati per i dati non strutturati (per la profilazione delle tabelle di oggetti autonome).

Opzioni di programmazione

Puoi pianificare una scansione del profilo di dati con una frequenza definita o eseguirla su richiesta. Se un processo di scansione richiede più tempo del previsto, puoi annullarlo.

Identità di esecuzione

Per impostazione predefinita, Knowledge Catalog utilizza un service agent centralizzato (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) per eseguire le scansioni di profilazione dei dati.

Puoi anche ignorare questa identità di esecuzione predefinita specificando un account di servizio personalizzato (Bring Your Own Service Account) o utilizzando le tue credenziali utente finale (EUC). Questo approccio offre diversi vantaggi:

Principio del privilegio minimo:concedi a un account di servizio dedicato solo le autorizzazioni IAM (Identity and Access Management) esatte richieste per attività specifiche di profilazione dei dati, riducendo al minimo l'accesso con provisioning eccessivo.
Controllo dell'controllo dell'accesso granulare: limita le autorizzazioni a risorse specifiche, consentendo l'integrazione con le policy di accesso a livello di riga e colonna in BigQuery.
Migliore controllabilità: assegna service account personalizzati o credenziali utente a scansioni specifiche, rendendo il monitoraggio e la registrazione delle attività molto più chiari nei log di controllo.
Unificazione della fatturazione:quando utilizzi un'identità di esecuzione personalizzata, gli addebiti per l'elaborazione e l'archiviazione vengono centralizzati direttamente in BigQuery (ignorando gli SKU Knowledge Catalog Premium). In questo modo puoi usufruire degli sconti aziendali e degli impegni di slot di BigQuery.

Per istruzioni su come configurare un'identità di esecuzione personalizzata, consulta Configurare l'identità di esecuzione.

Ambito

Per le scansioni di profilazione Standard, puoi specificare l'ambito dei dati da scansionare:

Tabella completa: viene eseguita la scansione dell'intera tabella nella scansione del profilo di dati. Il campionamento, i filtri per righe e i filtri per colonne vengono applicati all'intera tabella prima di calcolare le statistiche di profilazione.
Incrementale: i dati incrementali che specifichi vengono analizzati nella scansione del profilo di dati. Specifica una colonna Date o Timestamp nella tabella da utilizzare come incremento. In genere, questa è la colonna in base alla quale è partizionata la tabella. Il campionamento, i filtri per le righe e i filtri per le colonne vengono applicati ai dati incrementali prima del calcolo delle statistiche di profilazione.

Filtra dati

Per le scansioni di profilazione standard, puoi filtrare i dati da analizzare per la profilazione utilizzando filtri per righe e colonne. L'utilizzo dei filtri ti aiuta a ridurre il tempo di esecuzione e i costi ed escludere dati sensibili e non necessari. Le scansioni di profilazione leggere non supportano i filtri per colonne e righe.

Filtri riga: i filtri riga ti consentono di concentrarti sui dati in un periodo di tempo specifico o di un segmento specifico, ad esempio una regione. Ad esempio, puoi filtrare i dati con un timestamp precedente a una determinata data.
Filtri delle colonne: i filtri delle colonne ti consentono di includere ed escludere colonne specifiche dalla tabella per eseguire la scansione del profilo dei dati.

Dati di esempio

Per le scansioni di profilazione standard, puoi specificare una percentuale di record dei dati da campionare per eseguire una scansione del profilo di dati. La creazione di scansioni del profilo dati su un campione più piccolo di dati può ridurre il tempo di esecuzione e il costo delle query sull'intero set di dati.

Più scansioni di profilazione dei dati

Puoi creare più scansioni del profilo dati contemporaneamente utilizzando la console Google Cloud . Puoi selezionare fino a 100 tabelle da un set di dati e creare una scansione del profilo dati per ogni set di dati. Per saperne di più, vedi Creare più scansioni del profilo dati.

Esporta i risultati della scansione in una tabella BigQuery

Puoi esportare i risultati della scansione di profilazione dei dati in una tabella BigQuery per ulteriori analisi. Per personalizzare i report, puoi collegare i dati della tabella BigQuery a una dashboard Looker. Puoi creare un report aggregato utilizzando la stessa tabella dei risultati in più analisi.

Risultati della profilazione dei dati

I risultati della profilazione dei dati includono i seguenti valori:

Tipo di colonna	Risultati della profilazione dei dati
Colonna numerica	Percentuale di valori null. Percentuale di valori univoci (distinti) approssimativi. I 10 valori più comuni nella colonna. Può essere inferiore a 10 se il numero di valori unici nella colonna è inferiore a 10 (i valori null non sono inclusi). Per ognuno di questi valori più comuni, viene visualizzata la percentuale di occorrenze nei dati analizzati nella scansione corrente. Valori medi, deviazione standard, minimi, quartile inferiore approssimativo, mediana approssimativa, quartile superiore approssimativo e massimi.
Colonna stringa	Percentuale di valori null. Percentuale di valori univoci (distinti) approssimativi. I 10 valori più comuni nella colonna, che possono essere meno di 10 se il numero di valori univoci nella colonna è inferiore a 10. Lunghezza media, minima e massima della stringa.
Altre colonne non nidificate (data, ora, timestamp, binario e così via)	Percentuale di valori null. Percentuale di valori univoci (distinti) approssimativi. I 10 valori più comuni nella colonna, che possono essere meno di 10 se il numero di valori univoci nella colonna è inferiore a 10.
Tutte le altre colonne con tipi di dati nidificati o complessi (ad esempio Record, Array, JSON) o qualsiasi colonna con modalità Ripetuto.	Percentuale di valori null.

I risultati includono il numero di record scansionati in ogni job.

Rapporti e monitoraggio

Puoi monitorare e analizzare i risultati della profilazione dei dati utilizzando i seguenti report e metodi:

Report pubblicati con la tabella di origine nelle pagine BigQuery e Knowledge Catalog

Se configuri una scansione di profilazione dei dati per pubblicare i risultati in BigQuery e Knowledge Catalog, puoi visualizzare i risultati più recenti della scansione di profilazione dei dati nella scheda Profilo dei dati della tabella di origine sia in BigQuery che in Knowledge Catalog. Questi risultati sono accessibili da qualsiasi progetto.
Report storico per lavoro

Nella pagina Profilazione e qualità dei dati > Scansione del profilo dei dati in Knowledge Catalog e BigQuery, puoi visualizzare i report dettagliati per i job più recenti e storici. Ciò include le informazioni del profilo a livello di colonna e la configurazione utilizzata.
Scheda Analisi

Nella pagina Profilazione e qualità dei dati > Scansione profilo dati in Knowledge Catalog e BigQuery, puoi utilizzare la scheda Analisi per visualizzare le tendenze di una determinata statistica di una colonna in più job di profilazione. Ad esempio, se hai una scansione incrementale, puoi vedere l'andamento della media di un valore nel tempo.
Crea la tua dashboard o i tuoi dati

Se hai configurato una scansione di profilazione dei dati per esportare i risultati in una tabella BigQuery, puoi creare dashboard personalizzate utilizzando strumenti come Data Studio.

Limitazioni

Puoi eseguire scansioni di profilazione dei dati solo su tabelle BigQuery e Iceberg REST Catalog.
La profilazione dei dati è supportata per le tabelle BigQuery con tutti i tipi di colonne, ad eccezione di BIGNUMERIC. Una scansione creata per una tabella con una colonna BIGNUMERIC genera un errore di convalida e non viene creata correttamente.

Prezzi

Per ulteriori informazioni sui prezzi, consulta la sezione Prezzi di Knowledge Catalog.

Passaggi successivi

Scopri come utilizzare la profilazione dei dati.
Per saperne di più sulle risorse Terraform disponibili per la creazione di scansioni del profilo dati, consulta quanto segue:
- Risorsa di scansione dei dati di Knowledge Catalog nel registro Terraform.
- La documentazione della risorsa di scansione dei dati di Knowledge Catalog su GitHub, che supporta la configurazione delle regole basata su YAML.
Scopri di più sulla qualità dei dati automatica.
Scopri come utilizzare la qualità dei dati automatica.
Scopri come esplorare i dati generando insight.