Informazioni sulla profilazione dei dati

Dataplex Universal Catalog semplifica la comprensione e l'analisi dei dati eseguendo automaticamente la profilazione delle tabelle BigQuery.

La profilazione è come ottenere un report dettagliato sullo stato di salute dei tuoi dati. Fornisce statistiche chiave, come valori comuni, la distribuzione dei dati e il numero di voci mancanti (conteggi null). Queste informazioni velocizzano l'analisi.

La profilazione dei dati rileva automaticamente le informazioni sensibili e ti consente di impostare policycontrollo dell'accessol'accesso. Consiglia regole di controllo della qualità dei dati per garantire l'affidabilità dei dati.

Modello concettuale

Dataplex Universal Catalog ti consente di comprendere meglio il profilo dei tuoi dati creando una scansione del profilo dati.

Il seguente diagramma mostra come Dataplex Universal Catalog esegue la scansione dei dati per generare report sulle caratteristiche statistiche.

Una scansione del profilo di dati analizza i dati della tabella per generare un report sulle caratteristiche statistiche.

Una scansione di profilazione dei dati è associata a una tabella BigQuery e analizza la tabella per generare i risultati della profilazione dei dati. Una scansione del profilo di dati supporta diverse opzioni di configurazione.

Opzioni di configurazione

Questa sezione descrive le opzioni di configurazione disponibili per l'esecuzione delle scansioni dei profili di dati.

Opzioni di programmazione

Puoi pianificare una scansione del profilo di dati con una frequenza definita o eseguirla su richiesta.

Ambito

Puoi specificare l'ambito dei dati da analizzare:

  • Tabella completa: viene eseguita la scansione dell'intera tabella nella scansione del profilo di dati. Il campionamento, i filtri delle righe e i filtri delle colonne vengono applicati all'intera tabella prima di calcolare le statistiche di profilazione.

  • Incrementale: i dati incrementali specificati vengono analizzati nella scansione del profilo di dati. Specifica una colonna Date o Timestamp nella tabella da utilizzare come incremento. In genere, questa è la colonna in base alla quale è partizionata la tabella. Il campionamento, i filtri per le righe e i filtri per le colonne vengono applicati ai dati incrementali prima del calcolo delle statistiche di profilazione.

Filtra dati

Puoi filtrare i dati da analizzare per la profilazione utilizzando i filtri per righe e colonne. L'utilizzo dei filtri consente di ridurre il tempo di esecuzione e i costi ed escludere i dati sensibili e inutili.

  • Filtri riga: i filtri riga ti consentono di concentrarti sui dati in un periodo di tempo specifico o di un segmento specifico, ad esempio una regione. Ad esempio, puoi filtrare i dati con un timestamp precedente a una determinata data.

  • Filtri delle colonne: i filtri delle colonne ti consentono di includere ed escludere colonne specifiche dalla tabella per eseguire la scansione del profilo dei dati.

Dati di esempio

Puoi specificare una percentuale di record dei tuoi dati da campionare per eseguire una scansione del profilo di dati. La creazione di scansioni del profilo di dati su un campione più piccolo di dati può ridurre il tempo di esecuzione e il costo dell'interrogazione dell'intero set di dati.

Più scansioni di profilazione dei dati

Puoi creare più scansioni del profilo dati contemporaneamente utilizzando la console Google Cloud . Puoi selezionare fino a 100 tabelle da un set di dati e creare una scansione del profilo dati per ogni set di dati. Per saperne di più, vedi Creare più scansioni del profilo dati.

Esporta i risultati della scansione in una tabella BigQuery

Puoi esportare i risultati della scansione di profilazione dei dati in una tabella BigQuery per ulteriori analisi. Per personalizzare i report, puoi collegare i dati della tabella BigQuery a una dashboard di Looker. Puoi creare un report aggregato utilizzando la stessa tabella dei risultati in più analisi.

Risultati della profilazione dei dati

I risultati della profilazione dei dati includono i seguenti valori:

Tipo di colonna Risultati della profilazione dei dati
Colonna numerica
  • Percentuale di valori null.
  • Percentuale di valori univoci (distinti) approssimativi.
  • I 10 valori più comuni nella colonna. Può essere inferiore a 10 se il numero di valori unici nella colonna è inferiore a 10 (i valori null non sono inclusi). Per ognuno di questi valori più comuni, viene visualizzata la percentuale di occorrenze nei dati analizzati nella scansione corrente.
  • Valori medi, deviazione standard, minimo, quartile inferiore approssimativo, mediana approssimativa, quartile superiore approssimativo e massimo.
Colonna stringa
  • Percentuale di valori null.
  • Percentuale di valori univoci (distinti) approssimativi.
  • I 10 valori più comuni nella colonna, che possono essere meno di 10 se il numero di valori univoci nella colonna è inferiore a 10.
  • Lunghezza media, minima e massima della stringa.
Altre colonne non nidificate (data, ora, timestamp, binario e così via)
  • Percentuale di valori null.
  • Percentuale di valori univoci (distinti) approssimativi.
  • I 10 valori più comuni nella colonna, che possono essere meno di 10 se il numero di valori univoci nella colonna è inferiore a 10.
Tutte le altre colonne con tipi di dati nidificati o complessi (ad esempio Record, Array, JSON) o qualsiasi colonna con modalità Ripetuto.
  • Percentuale di valori null.

I risultati includono il numero di record scansionati in ogni job.

Rapporti e monitoraggio

Puoi monitorare e analizzare i risultati della profilazione dei dati utilizzando i seguenti report e metodi:

  • Report pubblicati con la tabella di origine nelle pagine BigQuery e Catalogo universale Dataplex

    Se hai configurato una scansione di profilazione dei dati per pubblicare i risultati nelle pagine BigQuery e Dataplex Universal Catalog nella consoleGoogle Cloud , puoi visualizzare i risultati più recenti della scansione di profilazione dei dati in queste pagine, nella scheda Profilo dei dati della tabella di origine, da qualsiasi progetto.

    Report pubblicati.

  • Report storico per lavoro

    Nella pagina Profilazione e qualità dei dati > Analisi del profilo dei dati in Dataplex Universal Catalog e BigQuery, puoi visualizzare i report dettagliati per i job più recenti e storici. Ciò include le informazioni del profilo a livello di colonna e la configurazione utilizzata.

    Report storico per job.

  • Scheda Analisi

    Nella pagina Profilazione e qualità dei dati > Scansione profilo dati in Dataplex Universal Catalog e BigQuery, puoi utilizzare la scheda Analisi per visualizzare le tendenze di una determinata statistica di una colonna in più job di profilazione. Ad esempio, se hai una scansione incrementale, puoi vedere l'andamento della media di un valore nel tempo.

    Scheda Analisi.

  • Crea la tua dashboard o i tuoi dati

    Se hai configurato una scansione di profilazione dei dati per esportare i risultati in una tabella BigQuery, puoi creare dashboard personalizzate utilizzando strumenti come Looker Studio.

Limitazioni

  • La profilazione dei dati è supportata per le tabelle BigQuery con tutti i tipi di colonne, ad eccezione di BIGNUMERIC. Una scansione creata per una tabella con una colonna BIGNUMERIC genera un errore di convalida e non viene creata correttamente.

Prezzi

Per saperne di più sui prezzi, consulta la pagina Prezzi del Catalogo universale Dataplex.

Passaggi successivi