Knowledge Catalog (in precedenza Dataplex Universal Catalog) semplifica la comprensione e l'analisi dei dati eseguendo automaticamente la profilazione delle tabelle BigQuery e Iceberg REST Catalog.
La profilazione è come ottenere un report dettagliato sullo stato dei dati. Fornisce statistiche chiave, come i valori comuni, la distribuzione dei dati e il numero di voci mancanti (conteggi null). Queste informazioni velocizzano l'analisi.
La profilazione dei dati consiglia regole di controllo della qualità dei dati per garantire che i dati rimangano affidabili.
Modello concettuale
Knowledge Catalog ti consente di comprendere meglio il profilo dei tuoi dati creando una scansione del profilo di dati. Una scansione del profilo di dati è un tipo di scansione dei dati di Knowledge Catalog che analizza una tabella BigQuery o Iceberg REST Catalog per generare insight statistici.
Il seguente diagramma mostra come Knowledge Catalog esegue la scansione dei dati per generare report sulle caratteristiche statistiche.
Una scansione del profilo di dati è associata a una tabella BigQuery o Iceberg REST Catalog ed esegue la scansione della tabella per generare i risultati della profilazione dei dati. Una scansione del profilo di dati supporta diverse opzioni di configurazione.
Opzioni di configurazione
Questa sezione descrive le opzioni di configurazione disponibili per l'esecuzione delle scansioni del profilo di dati.
Modalità di profilazione
Puoi scegliere tra le seguenti modalità di profilazione:
Standard: questa è la modalità predefinita. Fornisce un profilo completo e personalizzabile eseguendo la scansione dei dati in base al campionamento e ai filtri specificati. La modalità standard è adatta per l'analisi dettagliata e il monitoraggio a lungo termine delle caratteristiche dei dati.
Leggero (anteprima): questa modalità fornisce scansioni del profilo a bassa latenza che restituiscono i risultati in pochi secondi. È ottimizzata per la velocità e la convenienza per supportare casi d'uso come i seguenti:
- Basare le risposte dell'agente AI sulle caratteristiche immediate dei dati
- Generare in modo conveniente profili su larga scala per l'individuazione dei dati a livello globale
- Fornire report sullo stato rapidi durante l'esplorazione interattiva dei dati
La modalità leggera presenta le seguenti limitazioni:
- A differenza della modalità di profilazione standard, non puoi modificare l'ambito, i filtri o le dimensioni del campionamento nelle scansioni leggere.
- Non supporta le viste BigQuery e le tabelle esterne.
Opzioni di programmazione
Puoi programmare una scansione del profilo di dati con una frequenza definita o eseguire la scansione on demand. Se un job di scansione viene eseguito più a lungo del previsto, puoi annullarlo.
Identità di esecuzione
Per impostazione predefinita, Knowledge Catalog utilizza un service agent centralizzato (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) per eseguire le scansioni di profilazione dei dati.
Puoi anche sostituire questa identità di esecuzione predefinita specificando un account di servizio personalizzato (Bring Your Own Service Account) o utilizzando le tue credenziali utente finale (EUC). Questo offre diversi vantaggi:
- Principio del privilegio minimo: concedi a un account di servizio dedicato solo le autorizzazioni IAM esatte richieste per attività di profilazione dei dati specifiche, riducendo al minimo l'accesso con provisioning eccessivo.
- Controllo dell'accesso granulare: limita le autorizzazioni a risorse specifiche, consentendo l'integrazione con le policy di accesso a livello di riga e colonna in BigQuery.
- Miglioramento della controllabilità: assegna account di servizio personalizzati o credenziali utente a scansioni specifiche, rendendo il monitoraggio e la registrazione delle attività molto più chiari nei log di controllo.
- Unificazione della fatturazione: quando utilizzi un'identità di esecuzione personalizzata, i costi di elaborazione e archiviazione vengono centralizzati direttamente in BigQuery (ignorando gli SKU Knowledge Catalog Premium). In questo modo puoi usufruire degli sconti aziendali e degli impegni di slot di BigQuery.
Per istruzioni su come configurare un'identità di esecuzione personalizzata, consulta Configurare l'identità di esecuzione.
Ambito
Per le scansioni di profilazione standard, puoi specificare l'ambito dei dati da sottoporre a scansione:
Tabella completa: l'intera tabella viene sottoposta a scansione nella scansione del profilo di dati. Il campionamento, i filtri delle righe e i filtri delle colonne vengono applicati all'intera tabella prima di calcolare le statistiche di profilazione.
Incrementale: nella scansione del profilo di dati vengono sottoposti a scansione i dati incrementali specificati. Specifica una colonna
DateoTimestampnella tabella da utilizzare come incremento. In genere, questa è la colonna in base alla quale è partizionata la tabella. Il campionamento, i filtri delle righe e i filtri delle colonne vengono applicati ai dati incrementali prima di calcolare le statistiche di profilazione.
Filtra dati
Per le scansioni di profilazione standard, puoi filtrare i dati da sottoporre a scansione per la profilazione utilizzando i filtri delle righe e delle colonne. L'utilizzo dei filtri consente di ridurre il tempo di esecuzione e il costo ed escludere i dati sensibili e non necessari. Le scansioni di profilazione leggere non supportano i filtri delle colonne e delle righe.
Filtri delle righe: i filtri delle righe ti consentono di concentrarti sui dati all'interno di un periodo di tempo specifico o di un segmento specifico, ad esempio una regione. Ad esempio, puoi filtrare i dati con un timestamp precedente a una determinata data.
Filtri delle colonne: i filtri delle colonne ti consentono di includere ed escludere colonne specifiche dalla tabella per eseguire la scansione del profilo di dati.
Dati di esempio
Per le scansioni di profilazione standard, puoi specificare una percentuale di record dei dati da campionare per l'esecuzione di una scansione del profilo di dati. La creazione di scansioni del profilo di dati su un campione di dati più piccolo può ridurre il tempo di esecuzione e il costo dell'esecuzione di query sull'intero set di dati.
Più scansioni di profilazione dei dati
Puoi creare più scansioni del profilo di dati contemporaneamente utilizzando la Google Cloud console. Puoi selezionare fino a 100 tabelle da un set di dati e creare una scansione del profilo di dati per ogni set di dati. Per ulteriori informazioni, consulta Creare più scansioni del profilo di dati.
Esportare i risultati della scansione in una tabella BigQuery
Puoi esportare i risultati della scansione del profilo di dati in una tabella BigQuery per ulteriori analisi. Per personalizzare i report, puoi collegare i dati della tabella BigQuery a una dashboard Looker. Puoi creare un report aggregato utilizzando la stessa tabella dei risultati per più scansioni.
Risultati della profilazione dei dati
I risultati della profilazione dei dati includono i seguenti valori:
| Tipo di colonna | Risultati della profilazione dei dati |
|---|---|
| Colonna numerica |
|
| Colonna stringa |
|
| Altre colonne non nidificate (data, ora, timestamp, binario e così via) |
|
| Tutte le altre colonne di tipo di dati nidificate o complesse (ad esempio Record, Array, JSON) o qualsiasi colonna con repeated mode. |
|
I risultati includono il numero di record sottoposti a scansione in ogni job.
Rapporti e monitoraggio
Puoi monitorare e analizzare i risultati della profilazione dei dati utilizzando i seguenti report e metodi:
Report pubblicati con la tabella di origine nelle pagine BigQuery e Knowledge Catalog
Se configuri una scansione del profilo di dati per pubblicare i risultati in BigQuery e Knowledge Catalog, puoi visualizzare i risultati più recenti della scansione del profilo di dati nella scheda Profilo di dati della tabella di origine sia in BigQuery sia in Knowledge Catalog. Questi risultati sono accessibili da qualsiasi progetto.
Report storico per job
Nella pagina Profilazione e qualità dei dati > Scansione del profilo di dati in Knowledge Catalog e BigQuery, puoi visualizzare i report dettagliati per i job più recenti e storici. Sono incluse le informazioni sul profilo a livello di colonna e la configurazione utilizzata.
Scheda Analisi
Nella pagina Profilazione e qualità dei dati > Scansione del profilo di dati in Knowledge Catalog e BigQuery, puoi utilizzare la scheda Analisi per visualizzare le tendenze per una determinata statistica di una colonna in più job di profilazione. Ad esempio, se hai una scansione incrementale, puoi visualizzare l'andamento della media di un valore nel tempo.
Crea la tua dashboard o analisi
Se hai configurato una scansione del profilo di dati per esportare i risultati in una tabella BigQuery, puoi creare le tue dashboard utilizzando strumenti come Data Studio.
Limitazioni
- Puoi eseguire scansioni del profilo di dati solo su tabelle BigQuery e Iceberg REST Catalog.
- La profilazione dei dati è supportata per le tabelle BigQuery con tutti i tipi di colonne, ad eccezione di
BIGNUMERIC. Una scansione creata per una tabella con una colonnaBIGNUMERICgenera un errore di convalida e non viene creata correttamente.
Prezzi
Per ulteriori informazioni sui prezzi, consulta i prezzi di Knowledge Catalog.
Passaggi successivi
- Scopri come utilizzare la profilazione dei dati.
- Per ulteriori informazioni sulle risorse Terraform disponibili per la creazione di scansioni del profilo di dati, consulta quanto segue:
- Risorsa di scansione dei dati Dataplex nel registro Terraform.
- La documentazione della risorsa di scansione dei dati Dataplex su GitHub, che supporta la configurazione delle regole basata su YAML.
- Scopri di più sulla qualità dei dati automatica.
- Scopri come utilizzare la qualità dei dati automatica.
- Scopri come esplorare i dati generando insight.