Informazioni sulla profilazione dei dati

Knowledge Catalog (in precedenza Dataplex Universal Catalog) semplifica la comprensione e l'analisi dei dati profilando automaticamente le tabelle BigQuery.

La profilazione è come ottenere un report dettagliato sullo stato di salute dei tuoi dati. Fornisce statistiche chiave, come valori comuni, la distribuzione dei dati e il numero di voci mancanti (conteggi null). Queste informazioni velocizzano l'analisi.

La profilazione dei dati rileva automaticamente le informazioni sensibili e ti consente di impostare policycontrollo dell'accessol'accesso. Consiglia regole di controllo della qualità dei dati per garantire l'affidabilità dei dati.

Modello concettuale

Knowledge Catalog ti consente di comprendere meglio il profilo dei tuoi dati creando una scansione di profilazione dei dati. Una scansione di profilazione dei dati è un tipo di scansione dei dati di Knowledge Catalog che analizza una tabella BigQuery per generare approfondimenti statistici.

Il seguente diagramma mostra come Knowledge Catalog analizza i dati per generare report sulle caratteristiche statistiche.

Una scansione di profilazione dei dati analizza i dati della tabella per generare un report sulle caratteristiche statistiche.

Una scansione di profilazione dei dati è associata a una tabella BigQuery e analizza la tabella per generare i risultati della profilazione dei dati. Una scansione del profilo di dati supporta diverse opzioni di configurazione.

Opzioni di configurazione

Questa sezione descrive le opzioni di configurazione disponibili per l'esecuzione delle scansioni dei profili di dati.

Modalità di profilazione

Puoi scegliere tra le seguenti modalità di profilazione:

  • Standard: questa è la modalità predefinita. Fornisce un profilo completo e personalizzabile analizzando i dati in base al campionamento e ai filtri specificati. La modalità standard è adatta per l'analisi dettagliata e il monitoraggio a lungo termine delle caratteristiche dei dati.

  • Leggera (anteprima): questa modalità fornisce scansioni del profilo a bassa latenza che restituiscono risultati in pochi secondi. È ottimizzato per velocità ed efficienza in termini di costi per supportare casi d'uso come i seguenti:

    • Fonda le risposte dell'agente AI con le caratteristiche dei dati immediati
    • Generare in modo conveniente profili su larga scala per l'individuazione globale dei dati
    • Fornire report sanitari rapidi durante l'esplorazione interattiva dei dati

    La modalità leggera presenta le seguenti limitazioni:

    • A differenza della modalità di profilazione standard, non puoi modificare l'ambito, i filtri o le dimensioni del campione nelle scansioni leggere.
    • Non supporta le viste e le tabelle esterne BigQuery.

Opzioni di programmazione

Puoi pianificare una scansione di profilazione dei dati con una frequenza definita o eseguirla su richiesta.

Identità di esecuzione

Per impostazione predefinita, Knowledge Catalog utilizza un service agent centralizzato (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) per eseguire le scansioni dei profili di dati.

Puoi anche ignorare questa identità di esecuzione predefinita specificando un account di servizio personalizzato (Bring Your Own Service Account) o utilizzando le tue credenziali utente finale (EUC). Questo approccio offre diversi vantaggi:

  • Principio del privilegio minimo:concedi solo le autorizzazioni IAM esatte richieste per attività specifiche di profilazione dei dati a un account di servizio dedicato, riducendo al minimo l'accesso con provisioning eccessivo.
  • Controllo dell'controllo dell'accesso granulare:limita le autorizzazioni a risorse specifiche, consentendo l'integrazione con le policy di accesso a livello di riga e colonna in BigQuery.
  • Migliore controllabilità:assegna service account personalizzati o credenziali utente a scansioni specifiche, rendendo il monitoraggio e la registrazione delle attività molto più chiari nei log di controllo.
  • Unificazione della fatturazione:quando utilizzi un'identità di esecuzione personalizzata, gli addebiti per l'elaborazione e l'archiviazione vengono centralizzati direttamente in BigQuery (ignorando gli SKU Knowledge Catalog Premium). In questo modo puoi usufruire degli sconti aziendali e degli impegni di slot di BigQuery.

Per istruzioni su come configurare un'identità di esecuzione personalizzata, consulta Configurare l'identità di esecuzione.

Ambito

Per le scansioni di profilazione Standard, puoi specificare l'ambito dei dati da scansionare:

  • Tabella completa: viene eseguita la scansione dell'intera tabella nella scansione di profilazione dei dati. Il campionamento, i filtri per righe e i filtri per colonne vengono applicati all'intera tabella prima di calcolare le statistiche di profilazione.

  • Incrementale: i dati incrementali specificati vengono scansionati nella scansione del profilo di dati. Specifica una colonna Date o Timestamp nella tabella da utilizzare come incremento. In genere, questa è la colonna in base alla quale è partizionata la tabella. Il campionamento, i filtri per righe e i filtri per colonne vengono applicati ai dati incrementali prima del calcolo delle statistiche di profilazione.

Filtra dati

Per le scansioni di profilazione standard, puoi filtrare i dati da analizzare per la profilazione utilizzando filtri per righe e colonne. L'utilizzo dei filtri ti aiuta a ridurre il tempo di esecuzione e i costi ed escludere i dati sensibili e inutili. Le scansioni di profilazione leggera non supportano i filtri per colonne e righe.

  • Filtri riga: i filtri riga ti consentono di concentrarti sui dati in un periodo di tempo specifico o di un segmento specifico, ad esempio una regione. Ad esempio, puoi filtrare i dati con un timestamp precedente a una determinata data.

  • Filtri delle colonne: i filtri delle colonne ti consentono di includere ed escludere colonne specifiche dalla tabella per eseguire la scansione di profilazione dei dati.

Dati di esempio

Per le scansioni di profilazione standard, puoi specificare una percentuale di record dei dati da campionare per eseguire una scansione di profilazione dei dati. La creazione di scansioni del profilo dati su un campione più piccolo di dati può ridurre il tempo di esecuzione e il costo delle query sull'intero set di dati.

Più scansioni di profilazione dei dati

Puoi creare più scansioni del profilo dati contemporaneamente utilizzando la console Google Cloud . Puoi selezionare fino a 100 tabelle da un set di dati e creare una scansione di profilazione dei dati per ogni set di dati. Per saperne di più, vedi Creare più scansioni del profilo dati.

Esporta i risultati della scansione in una tabella BigQuery

Puoi esportare i risultati della scansione di profilazione dei dati in una tabella BigQuery per ulteriori analisi. Per personalizzare i report, puoi collegare i dati della tabella BigQuery a una dashboard di Looker. Puoi creare un report aggregato utilizzando la stessa tabella dei risultati in più analisi.

Risultati della profilazione dei dati

I risultati della profilazione dei dati includono i seguenti valori:

Tipo di colonna Risultati della profilazione dei dati
Colonna numerica
  • Percentuale di valori null.
  • Percentuale di valori univoci (distinti) approssimativi.
  • I 10 valori più comuni nella colonna. Può essere inferiore a 10 se il numero di valori unici nella colonna è inferiore a 10 (i valori null non sono inclusi). Per ognuno di questi valori più comuni, viene visualizzata la percentuale di occorrenze nei dati analizzati nella scansione corrente.
  • Valori medi, deviazione standard, minimo, quartile inferiore approssimativo, mediana approssimativa, quartile superiore approssimativo e massimo.
Colonna stringa
  • Percentuale di valori null.
  • Percentuale di valori univoci (distinti) approssimativi.
  • I 10 valori più comuni nella colonna, che possono essere meno di 10 se il numero di valori univoci nella colonna è inferiore a 10.
  • Lunghezza media, minima e massima della stringa.
Altre colonne non nidificate (data, ora, timestamp, binario e così via)
  • Percentuale di valori null.
  • Percentuale di valori univoci (distinti) approssimativi.
  • I 10 valori più comuni nella colonna, che possono essere meno di 10 se il numero di valori univoci nella colonna è inferiore a 10.
Tutte le altre colonne con tipi di dati nidificati o complessi (ad esempio Record, Array, JSON) o qualsiasi colonna con modalità Ripetuto.
  • Percentuale di valori null.

I risultati includono il numero di record scansionati in ogni job.

Rapporti e monitoraggio

Puoi monitorare e analizzare i risultati della profilazione dei dati utilizzando i seguenti report e metodi:

  • Report pubblicati con la tabella di origine nelle pagine BigQuery e Knowledge Catalog

    Se configuri una scansione di profilazione dei dati per pubblicare i risultati in BigQuery e Knowledge Catalog, puoi visualizzare i risultati più recenti della scansione di profilazione dei dati nella scheda Profilo dei dati della tabella di origine sia in BigQuery che in Knowledge Catalog. Questi risultati sono accessibili da qualsiasi progetto.

    Report pubblicati.

  • Report storico per lavoro

    Nella pagina Profilazione e qualità dei dati > Scansione di profilazione dei dati in Knowledge Catalog e BigQuery, puoi visualizzare i report dettagliati per i job più recenti e storici. Ciò include le informazioni del profilo a livello di colonna e la configurazione utilizzata.

    Report storico per job.

  • Scheda Analisi

    Nella pagina Profilazione e qualità dei dati > Scansione di profilazione dei dati in Knowledge Catalog e BigQuery, puoi utilizzare la scheda Analisi per visualizzare le tendenze di una determinata statistica di una colonna in più job di profilazione. Ad esempio, se hai una scansione incrementale, puoi vedere l'andamento della media di un valore nel tempo.

    Scheda Analisi.

  • Crea la tua dashboard o i tuoi dati

    Se hai configurato una scansione di profilazione dei dati per esportare i risultati in una tabella BigQuery, puoi creare dashboard personalizzate utilizzando strumenti come Looker Studio.

Limitazioni

  • La profilazione dei dati è supportata per le tabelle BigQuery con tutti i tipi di colonne, ad eccezione di BIGNUMERIC. Una scansione creata per una tabella con una colonna BIGNUMERIC genera un errore di convalida e non viene creata correttamente.

Prezzi

Per ulteriori informazioni sui prezzi, consulta la sezione Prezzi del catalogo della conoscenza.

Passaggi successivi