Knowledge Catalog (in precedenza Dataplex Universal Catalog) semplifica la comprensione e l'analisi dei dati profilando automaticamente le tabelle BigQuery.
La profilazione è come ottenere un report dettagliato sullo stato di salute dei tuoi dati. Fornisce statistiche chiave, come valori comuni, la distribuzione dei dati e il numero di voci mancanti (conteggi null). Queste informazioni velocizzano l'analisi.
La profilazione dei dati rileva automaticamente le informazioni sensibili e ti consente di impostare policycontrollo dell'accessol'accesso. Consiglia regole di controllo della qualità dei dati per garantire l'affidabilità dei dati.
Modello concettuale
Knowledge Catalog ti consente di comprendere meglio il profilo dei tuoi dati creando una scansione di profilazione dei dati. Una scansione di profilazione dei dati è un tipo di scansione dei dati di Knowledge Catalog che analizza una tabella BigQuery per generare approfondimenti statistici.
Il seguente diagramma mostra come Knowledge Catalog analizza i dati per generare report sulle caratteristiche statistiche.
Una scansione di profilazione dei dati è associata a una tabella BigQuery e analizza la tabella per generare i risultati della profilazione dei dati. Una scansione del profilo di dati supporta diverse opzioni di configurazione.
Opzioni di configurazione
Questa sezione descrive le opzioni di configurazione disponibili per l'esecuzione delle scansioni dei profili di dati.
Modalità di profilazione
Puoi scegliere tra le seguenti modalità di profilazione:
Standard: questa è la modalità predefinita. Fornisce un profilo completo e personalizzabile analizzando i dati in base al campionamento e ai filtri specificati. La modalità standard è adatta per l'analisi dettagliata e il monitoraggio a lungo termine delle caratteristiche dei dati.
Leggera (anteprima): questa modalità fornisce scansioni del profilo a bassa latenza che restituiscono risultati in pochi secondi. È ottimizzato per velocità ed efficienza in termini di costi per supportare casi d'uso come i seguenti:
- Fonda le risposte dell'agente AI con le caratteristiche dei dati immediati
- Generare in modo conveniente profili su larga scala per l'individuazione globale dei dati
- Fornire report sanitari rapidi durante l'esplorazione interattiva dei dati
La modalità leggera presenta le seguenti limitazioni:
- A differenza della modalità di profilazione standard, non puoi modificare l'ambito, i filtri o le dimensioni del campione nelle scansioni leggere.
- Non supporta le viste e le tabelle esterne BigQuery.
Opzioni di programmazione
Puoi pianificare una scansione di profilazione dei dati con una frequenza definita o eseguirla su richiesta.
Identità di esecuzione
Per impostazione predefinita, Knowledge Catalog utilizza un service agent centralizzato (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) per eseguire le scansioni dei profili di dati.
Puoi anche ignorare questa identità di esecuzione predefinita specificando un account di servizio personalizzato (Bring Your Own Service Account) o utilizzando le tue credenziali utente finale (EUC). Questo approccio offre diversi vantaggi:
- Principio del privilegio minimo:concedi solo le autorizzazioni IAM esatte richieste per attività specifiche di profilazione dei dati a un account di servizio dedicato, riducendo al minimo l'accesso con provisioning eccessivo.
- Controllo dell'controllo dell'accesso granulare:limita le autorizzazioni a risorse specifiche, consentendo l'integrazione con le policy di accesso a livello di riga e colonna in BigQuery.
- Migliore controllabilità:assegna service account personalizzati o credenziali utente a scansioni specifiche, rendendo il monitoraggio e la registrazione delle attività molto più chiari nei log di controllo.
- Unificazione della fatturazione:quando utilizzi un'identità di esecuzione personalizzata, gli addebiti per l'elaborazione e l'archiviazione vengono centralizzati direttamente in BigQuery (ignorando gli SKU Knowledge Catalog Premium). In questo modo puoi usufruire degli sconti aziendali e degli impegni di slot di BigQuery.
Per istruzioni su come configurare un'identità di esecuzione personalizzata, consulta Configurare l'identità di esecuzione.
Ambito
Per le scansioni di profilazione Standard, puoi specificare l'ambito dei dati da scansionare:
Tabella completa: viene eseguita la scansione dell'intera tabella nella scansione di profilazione dei dati. Il campionamento, i filtri per righe e i filtri per colonne vengono applicati all'intera tabella prima di calcolare le statistiche di profilazione.
Incrementale: i dati incrementali specificati vengono scansionati nella scansione del profilo di dati. Specifica una colonna
DateoTimestampnella tabella da utilizzare come incremento. In genere, questa è la colonna in base alla quale è partizionata la tabella. Il campionamento, i filtri per righe e i filtri per colonne vengono applicati ai dati incrementali prima del calcolo delle statistiche di profilazione.
Filtra dati
Per le scansioni di profilazione standard, puoi filtrare i dati da analizzare per la profilazione utilizzando filtri per righe e colonne. L'utilizzo dei filtri ti aiuta a ridurre il tempo di esecuzione e i costi ed escludere i dati sensibili e inutili. Le scansioni di profilazione leggera non supportano i filtri per colonne e righe.
Filtri riga: i filtri riga ti consentono di concentrarti sui dati in un periodo di tempo specifico o di un segmento specifico, ad esempio una regione. Ad esempio, puoi filtrare i dati con un timestamp precedente a una determinata data.
Filtri delle colonne: i filtri delle colonne ti consentono di includere ed escludere colonne specifiche dalla tabella per eseguire la scansione di profilazione dei dati.
Dati di esempio
Per le scansioni di profilazione standard, puoi specificare una percentuale di record dei dati da campionare per eseguire una scansione di profilazione dei dati. La creazione di scansioni del profilo dati su un campione più piccolo di dati può ridurre il tempo di esecuzione e il costo delle query sull'intero set di dati.
Più scansioni di profilazione dei dati
Puoi creare più scansioni del profilo dati contemporaneamente utilizzando la console Google Cloud . Puoi selezionare fino a 100 tabelle da un set di dati e creare una scansione di profilazione dei dati per ogni set di dati. Per saperne di più, vedi Creare più scansioni del profilo dati.
Esporta i risultati della scansione in una tabella BigQuery
Puoi esportare i risultati della scansione di profilazione dei dati in una tabella BigQuery per ulteriori analisi. Per personalizzare i report, puoi collegare i dati della tabella BigQuery a una dashboard di Looker. Puoi creare un report aggregato utilizzando la stessa tabella dei risultati in più analisi.
Risultati della profilazione dei dati
I risultati della profilazione dei dati includono i seguenti valori:
| Tipo di colonna | Risultati della profilazione dei dati |
|---|---|
| Colonna numerica |
|
| Colonna stringa |
|
| Altre colonne non nidificate (data, ora, timestamp, binario e così via) |
|
| Tutte le altre colonne con tipi di dati nidificati o complessi (ad esempio Record, Array, JSON) o qualsiasi colonna con modalità Ripetuto. |
|
I risultati includono il numero di record scansionati in ogni job.
Rapporti e monitoraggio
Puoi monitorare e analizzare i risultati della profilazione dei dati utilizzando i seguenti report e metodi:
Report pubblicati con la tabella di origine nelle pagine BigQuery e Knowledge Catalog
Se configuri una scansione di profilazione dei dati per pubblicare i risultati in BigQuery e Knowledge Catalog, puoi visualizzare i risultati più recenti della scansione di profilazione dei dati nella scheda Profilo dei dati della tabella di origine sia in BigQuery che in Knowledge Catalog. Questi risultati sono accessibili da qualsiasi progetto.
Report storico per lavoro
Nella pagina Profilazione e qualità dei dati > Scansione di profilazione dei dati in Knowledge Catalog e BigQuery, puoi visualizzare i report dettagliati per i job più recenti e storici. Ciò include le informazioni del profilo a livello di colonna e la configurazione utilizzata.
Scheda Analisi
Nella pagina Profilazione e qualità dei dati > Scansione di profilazione dei dati in Knowledge Catalog e BigQuery, puoi utilizzare la scheda Analisi per visualizzare le tendenze di una determinata statistica di una colonna in più job di profilazione. Ad esempio, se hai una scansione incrementale, puoi vedere l'andamento della media di un valore nel tempo.
Crea la tua dashboard o i tuoi dati
Se hai configurato una scansione di profilazione dei dati per esportare i risultati in una tabella BigQuery, puoi creare dashboard personalizzate utilizzando strumenti come Looker Studio.
Limitazioni
- La profilazione dei dati è supportata per le tabelle BigQuery con tutti i tipi di colonne, ad eccezione di
BIGNUMERIC. Una scansione creata per una tabella con una colonnaBIGNUMERICgenera un errore di convalida e non viene creata correttamente.
Prezzi
Per ulteriori informazioni sui prezzi, consulta la sezione Prezzi del catalogo della conoscenza.
Passaggi successivi
- Scopri come utilizzare la profilazione dei dati.
- Per saperne di più sulle risorse Terraform disponibili per la creazione di scansioni del profilo dati, consulta quanto segue:
- Risorsa di scansione dei dati Dataplex nel registro Terraform.
- La documentazione della risorsa di scansione dei dati Dataplex su GitHub, che supporta la configurazione delle regole basata su YAML.
- Scopri di più sulla qualità dei dati automatica.
- Scopri come utilizzare la qualità dei dati automatica.
- Scopri come esplorare i dati generando insight.