La derivazione dei dati ti aiuta a comprendere il modo in cui i dati vengono trasferiti nei sistemi monitorando le relazioni tra gli asset di dati e i processi che li trasformano. Puoi visualizzare queste informazioni sulla derivazione come grafici ed elenchi nella Google Cloud console.
Questo documento fornisce una panoramica del modello di informazioni sulla derivazione dei dati, dettagli sulla granularità della derivazione a livello di tabella e di colonna e istruzioni sull'utilizzo delle visualizzazioni grafico ed elenco per esplorare la derivazione dei dati.
Modello di informazioni sulla derivazione dei dati
La derivazione è un record dei dati trasformati dalle origini alle destinazioni. L'API Data Lineage raccoglie queste informazioni e le organizza in un modello dei dati gerarchico che utilizza i concetti di processi, esecuzioni ed eventi.
- Processo: una definizione di trasformazione dei dati.
- Esecuzione: l'esecuzione di un processo.
- Evento: un record di spostamento dei dati durante un'esecuzione.
Processo
Un processo è la definizione di un'operazione di trasformazione dei dati per un sistema specifico. Per la derivazione di BigQuery, un processo è un job di un tipo di prestazione supportato. Tutte le esecuzioni della stessa query SQL sono collegate a un singolo processo, che ti consente di monitorare ogni istanza in cui viene utilizzata una logica di trasformazione specifica.
Ad esempio, la seguente query SQL è un processo. Questa query crea una tabella contando il numero totale di viaggi per ogni fornitore da due tabelle di origine.
CREATE TABLE `dataplex-docs.data_lineage_demo.total_green_trips_22_21`
AS
SELECT
vendor_id,
COUNT(*) AS number_of_trips
FROM
(
SELECT vendor_id
FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2022`
UNION ALL
SELECT vendor_id
FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2021`
)
GROUP BY
vendor_id;
Il formato del nome della risorsa REST per un processo è
projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID.
Ad esempio: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6
Per ulteriori informazioni sulla risorsa process, consulta il
riferimento alla risorsa Process.
Esecuzione
Un'esecuzione è una singola esecuzione di un processo. I processi possono avere più esecuzioni.
Ogni esecuzione è un'operazione univoca caratterizzata da un startTime, un endTime e uno stato finale, ad esempio COMPLETED, FAILED o ABORTED.
Ad esempio, l'esecuzione della query SQL della sezione Processo alle 9:00 crea un'esecuzione specifica. L'esecuzione della stessa query alle 10:00 crea una nuova esecuzione distinta. Entrambe le esecuzioni sono collegate allo stesso processo padre.
Il formato del nome della risorsa REST per un'esecuzione mostra che è un elemento figlio di un processo:
projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID/runs/RUN_ID.
Ad esempio: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6/runs/83dd03a51cd2ac80f465c9e267a950b1
Per ulteriori informazioni sulla risorsa run, consulta il
riferimento alla risorsa Run.
Evento
Un evento rappresenta un punto nel tempo in cui una trasformazione dei dati sposta i dati tra un'entità di origine e una di destinazione. Un evento è un record granulare di uno spostamento di dati specifico che collega le tabelle di origine e di destinazione per un'esecuzione specifica. Un evento può anche avere più origini e destinazioni.
Ad esempio, se l'esecuzione esegue la query SQL descritta nella
sezione Processo, un evento di derivazione registra che
le tabelle di origine nyc_green_trips_2021 e nyc_green_trips_2022 vengono utilizzate per
creare la tabella di destinazione total_green_trips_22_21.
Un evento di derivazione contiene un elenco di link che definiscono l'origine e la destinazione. Gli eventi vengono utilizzati per creare grafici di derivazione. Sebbene la Google Cloud console presenti questi grafici di derivazione, non mostra direttamente i singoli eventi. Puoi creare, leggere ed eliminare gli eventi, ma non aggiornarli, utilizzando l'API Data Lineage.
Ogni link all'interno di un evento definisce un singolo percorso di flusso di dati da un'entità di origine a un'entità di destinazione. Un'entità è un riferimento a un asset di dati, ad esempio una tabella BigQuery, ed è identificata dal suo nome completo (FQN). Un singolo evento può contenere più link, il che è comune in operazioni come le unioni di tabelle in cui più origini contribuiscono a una destinazione.
Per informazioni dettagliate su come gli eventi supportano la derivazione a livello di colonna, vedi Derivazione a livello di colonna.
Granularità della derivazione
La derivazione dei dati ti consente di tracciare l'origine e il percorso di trasformazione dei dati sia a livello di tabella sia a livello di colonna.
Derivazione a livello di tabella
La derivazione a livello di tabella fornisce una panoramica generale delle pipeline di dati mostrando le relazioni tra le tabelle intere. Utilizza la derivazione a livello di tabella per attività a livello macro, ad esempio:
Rilevamento dati. Un analista che crea una nuova dashboard può utilizzare la derivazione a livello di tabella per risalire a una tabella di riepilogo fino alle sue origini e confermare che i dati provengono da un database autorevole.
Pianificazione della migrazione. Un amministratore di database che pianifica la migrazione di un database principale può utilizzare la derivazione a livello di tabella per identificare ogni report e dashboard a valle che dipende da esso.
Controllo e governance. Un responsabile della governance dei dati può utilizzare la derivazione a livello di tabella e di colonna per verificare il flusso dei dati da una tabella contenente informazioni che consentono l'identificazione personale (PII) attraverso una pipeline.
Derivazione a livello di colonna
La derivazione a livello di colonna fornisce una visualizzazione più granulare monitorando il flusso di dati tra le singole colonne. In questa visualizzazione, i link all'interno di un evento di derivazione rappresentano la relazione tra una colonna di origine e una colonna di destinazione. Ognuno di questi link a livello di colonna ha un tipo di dipendenza che descrive la trasformazione:
Exact copy: i valori vengono copiati tra le colonne.Other: altri tipi di dipendenze tra le colonne.
Utilizza la derivazione a livello di colonna per attività come le seguenti:
Analisi delle cause principali. Se un analista di dati trova un valore errato in una colonna, può utilizzare la derivazione a livello di colonna per risalire alle colonne di origine e trovare la causa principale.
Analisi d'impatto. Prima che un data engineer ritiri una colonna, può utilizzare la derivazione a livello di colonna per trovare ogni colonna a valle che dipende da essa.
Verifica dell'origine dati per le metriche. Un analista di dati può utilizzare la derivazione a livello di colonna per identificare le colonne di origine utilizzate per calcolare una metrica senza decifrare una query SQL complessa.
La derivazione a livello di colonna viene raccolta automaticamente per i seguenti tipi di job BigQuery:
Visualizzazioni della derivazione nella Google Cloud console
La derivazione dei dati nella Google Cloud console ti consente di interagire con le informazioni sulla derivazione in due modi: puoi esplorare il grafico di derivazione in più regioni disponibili oppure utilizzare il riquadro Esplora derivazioni per ottenere una visualizzazione più mirata all'interno di una regione specifica. Puoi anche passare dalla visualizzazione Grafico alla visualizzazione Elenco per analizzare il flusso di dati a diversi livelli di dettaglio.
Le visualizzazioni della derivazione sono disponibili solo per le voci Dataplex Universal Catalog, gli asset BigQuery e le risorse Vertex AI (modelli, set di dati, visualizzazioni dello store di funzionalità e gruppi di funzionalità).
Per visualizzare le diverse visualizzazioni descritte in questa pagina, vedi Utilizzare la derivazione dei dati con i Google Cloud sistemi.
Visualizzazione grafico di derivazione
La visualizzazione Grafico visualizza il flusso e le relazioni degli asset di dati tra sistemi e regioni, aiutandoti a comprendere l'architettura dei dati, a tracciare le origini e le destinazioni e a identificare i pattern. Questi grafici di derivazione, generati dal servizio API Data Lineage per una voce Dataplex Universal Catalog specifica, mostrano come i dati vengono trasformati nel tempo, visualizzando i flussi a monte, a valle o entrambi da una voce radice selezionata.
L'API Data Lineage riceve automaticamente le informazioni sugli asset dai sistemi supportati e tramite chiamate API per le origini personalizzate.
Gli elementi chiave del grafico sono descritti di seguito:
Nodi. Rappresentano le entità di dati. In una visualizzazione a livello di tabella, un nodo mostra il nome della tabella e le relative colonne. In una visualizzazione a livello di colonna, ogni nodo rappresenta una tabella e una colonna specifiche.
Bordi. Le linee che collegano i nodi e rappresentano i processi che si verificano tra di essi. L'aspetto di un bordo dipende dalla visualizzazione della derivazione:
- Nella visualizzazione a livello di tabella, i bordi hanno icone che indicano le trasformazioni dei dati.
- Nella visualizzazione a livello di colonna, i bordi hanno etichette che indicano le trasformazioni dei dati. Ad esempio, un'etichetta del bordo potrebbe indicare
Exact copyper descrivere come una colonna di origine è stata copiata in una colonna di destinazione.
Etichette e icone dei processi. Vengono visualizzate sui bordi per fornire maggiori informazioni sulla trasformazione.
- Icone. Rappresentano il processo di trasformazione. Quando esplori manualmente il grafico, le icone sui bordi rappresentano il sistema di origine del processo (ad esempio BigQuery o Vertex AI). Se sono coinvolti più processi, viene visualizzata un'icona "più processi". Se il sistema di origine del processo è sconosciuto, viene utilizzata un'icona a forma di ingranaggio. Quando applichi i filtri, viene utilizzata un'icona a forma di ingranaggio per tutti i processi.
- Etichette. Nella visualizzazione della derivazione a livello di colonna, un'etichetta descrive il tipo di dipendenza tra le colonne:
Exact copyoOther.
Esplorare manualmente il grafico di derivazione
Quando apri la scheda Derivazione, viene visualizzata la visualizzazione Grafico predefinita. La visualizzazione predefinita fornisce una panoramica generale dei sistemi e delle regioni, con un'espansione manuale e incrementale del grafico che può caricare cinque nodi alla volta. Le icone dei processi sui bordi rappresentano il sistema di origine o indicano più processi.
Applicare filtri per una visualizzazione della derivazione mirata
Per filtrare i dati di derivazione per un'analisi mirata all'interno di una regione specifica, utilizza il riquadro Esplora derivazioni. Ecco alcuni criteri che puoi utilizzare per passare a una visualizzazione mirata:
- Nome colonna: filtra la derivazione in base al nome della colonna per visualizzare i dettagli a livello di colonna.
- Direzione: mostra la derivazione a monte o a valle oppure entrambe.
- Intervallo di tempo: filtra la derivazione in base a un'ora di inizio o di fine specifica.
- Tipo di dipendenza: filtra la derivazione a livello di colonna in base al tipo di dipendenza.
Alcuni esempi di opzioni disponibili sono
AlloExact copy.
La visualizzazione mirata espande automaticamente il grafico fino a 3 livelli, caricando tutta la derivazione che corrisponde ai criteri di filtro. Esplora derivazioni recupera fino a 10 livelli del grafico di derivazione, ma per impostazione predefinita vengono espansi solo i primi 3 livelli. Puoi espandere il grafico per visualizzare i livelli rimanenti facendo clic sulle frecce.
La visualizzazione mirata supporta la derivazione a livello di tabella e di colonna, inclusa la visualizzazione del percorso da qualsiasi nodo selezionato alla radice. In questa visualizzazione mirata, viene utilizzata un'icona a forma di ingranaggio generica per tutti i processi.
Per visualizzare la derivazione a livello di colonna, puoi utilizzare uno dei seguenti metodi:
In una visualizzazione Grafico mirata, fai clic sull'icona della colonna in una tabella per passare alla derivazione a livello di colonna.
Icona della colonna Nella visualizzazione Grafico predefinita o nella visualizzazione Grafico mirata, applica un nome di colonna nel riquadro Esplora derivazioni.
Per rimuovere tutti i filtri e tornare alla visualizzazione predefinita, fai clic su reset.
Dettagli nodo
Per visualizzare i dettagli di un nodo, fai clic sul nodo. Viene visualizzato un riquadro laterale che mostra informazioni dettagliate sull'asset di dati selezionato. Ad esempio, in una visualizzazione della derivazione a livello di tabella, se fai clic su un nodo vengono visualizzate informazioni come il nome completo dell'asset, il tipo e altri attributi pertinenti.
Controllo e cronologia delle esecuzioni
Un grafico di derivazione completo è il risultato delle esecuzioni di molti job diversi, ognuno dei quali crea un link specifico nel grafico. Più esecuzioni vengono registrate come nuove esecuzioni, ma non modificano l'aspetto statico del grafico.
Per visualizzare i dettagli di queste singole esecuzioni, fai clic su un bordo con un processo nel grafico. Nel riquadro Query visualizzato, fai clic sulla scheda Esecuzioni.
Esaminare la logica di trasformazione
Per comprendere la logica di business di una trasformazione senza cercare il codice, puoi visualizzare la query SQL esatta che è stata eseguita. Per visualizzare il codice SQL, fai clic su un bordo con un processo nel grafico. Nel riquadro laterale visualizzato, fai clic sulla scheda Dettagli.
Visualizzazione del percorso di derivazione
La visualizzazione del percorso di derivazione ti aiuta a tracciare il percorso da qualsiasi nodo selezionato nel grafico alla voce radice. Quando selezioni un nodo e fai clic su Visualizza percorso, il grafico evidenzia solo i nodi e i processi che formano il percorso di derivazione diretto alla voce radice.
Per visualizzare la visualizzazione del percorso di derivazione, nel riquadro Esplora derivazioni applica un filtro per creare una visualizzazione Grafico mirata. Quindi, nella visualizzazione Grafico mirata, seleziona un nodo. Nel riquadro dei dettagli del nodo selezionato, fai clic su Visualizza percorso.
La visualizzazione del percorso di derivazione è disponibile per la derivazione a livello di tabella e di colonna. Puoi anche utilizzare la visualizzazione del percorso di derivazione nella visualizzazione Elenco.
Visualizzazione elenco di derivazione
La visualizzazione Elenco offre una rappresentazione tabulare e strutturata della derivazione, sincronizzata con la visualizzazione Grafico. Facilita l'ordinamento, il filtraggio e il download degli asset di dati. Questa visualizzazione è ideale per analizzare le relazioni origine-destinazione, descrivere in dettaglio gli asset coinvolti ed esportare i dati di derivazione.
La visualizzazione Elenco è disponibile sia per la derivazione a livello di tabella sia per quella a livello di colonna. Puoi alternare le seguenti visualizzazioni elenco dettagliate e semplificate.
Visualizzazione elenco semplificata: questa visualizzazione è utile per ottenere un elenco compresso, univoco di tutti gli asset coinvolti nella derivazione. Le colonne come System, Project, Entity, FQN (nome completo), Direction e Depth ti aiutano a visualizzare tutti gli asset di dati nella derivazione, dove si trovano, la loro origine originale e la loro distanza dall' asset centrale analizzato. È ideale per una panoramica generale di tutte le entità che partecipano al flusso di dati. Si tratta della visualizzazione predefinita.
Visualizzazione elenco dettagliata: questa visualizzazione è progettata per analizzare le singole relazioni origine-destinazione. Fornendo colonne separate per Source e Target, puoi visualizzare ogni link di trasformazione dei dati specifico. Questa visualizzazione è ideale per le attività che richiedono una conoscenza approfondita del modo in cui i dati vengono spostati tra coppie specifiche di asset, ad esempio il controllo dei singoli flussi di dati, la comprensione delle dipendenze tra le tabelle o l'esportazione di record di derivazione dettagliati per ogni connessione.
Visualizzazione elenco di derivazione a livello di tabella
Questa visualizzazione mostra le relazioni tra le tabelle nel loro complesso. Utilizza i filtri forniti per selezionare le colonne che ti servono.
Espandi le seguenti sezioni per visualizzare le colonne disponibili nelle visualizzazioni elenco a livello di tabella.
Colonne disponibili nella visualizzazione elenco semplificata a livello di tabella
- Sistema: il sistema in cui si trova l'asset di dati. Alcuni esempi sono BigQuery.
- Progetto: l' Google Cloud ID progetto contenente l'asset di dati.
- Entità: il nome dell'asset di dati. Alcuni esempi sono il nome di una tabella.
- FQN: il nome completo (FQN) dell'entità o della colonna di origine originale.
- Direzione: indica se l'asset elencato è a monte (origine) o a valle (destinazione) nel flusso di derivazione.
- Profondità: il numero di passaggi di derivazione dall'asset centrale analizzato.
Colonne disponibili nella visualizzazione elenco dettagliata a livello di tabella
- Source system: il sistema in cui si trova l'asset di dati di origine. Alcuni esempi sono BigQuery.
- Progetto di origine: l' Google Cloud ID progetto contenente l'asset di dati di origine.
- Origine: il nome dell'asset di dati di origine. Alcuni esempi sono il nome di una tabella.
- Source FQN: il nome completo dell'entità di origine.
- Target system: il sistema in cui si trova l'asset di dati di destinazione. Alcuni esempi sono BigQuery.
- Progetto di destinazione: l' Google Cloud ID progetto contenente l'asset di dati di destinazione.
- Target: il nome dell'asset di dati di destinazione. Alcuni esempi sono il nome di una tabella.
- Target FQN: il nome completo dell'entità di destinazione.
- Direzione: indica se l'asset elencato è a monte (origine) o a valle (destinazione) nel flusso di derivazione.
- Profondità: il numero di passaggi di derivazione dall'asset centrale analizzato.
Visualizzazione elenco di derivazione a livello di colonna
Questa visualizzazione mostra le relazioni tra le singole colonne nelle tabelle di origine e di destinazione. Utilizza i filtri forniti per selezionare le colonne che ti servono.
Espandi le seguenti sezioni per visualizzare le colonne disponibili nelle visualizzazioni elenco a livello di colonna.
Colonne disponibili nella visualizzazione elenco semplificata a livello di colonna
- Sistema: il sistema in cui si trova l'asset di dati. Alcuni esempi sono BigQuery.
- Progetto: l' Google Cloud ID progetto contenente l'asset di dati.
- Entità: il nome dell'asset di dati. Alcuni esempi sono il nome di una tabella.
- Colonna: la colonna specifica scelta nel riquadro Esplora derivazioni all'interno dell'entità.
- FQN: il nome completo (FQN) dell'entità di origine originale o della colonna.
- Direzione: indica se l'asset elencato è a monte (origine) o a valle (destinazione) nel flusso di derivazione.
- Profondità: il numero di passaggi di derivazione dall'asset centrale analizzato.
Colonne disponibili nella visualizzazione elenco dettagliata a livello di colonna
- Source system: il sistema in cui si trova l'asset di dati di origine.
- Progetto di origine: l' Google Cloud ID progetto contenente l'asset di dati di origine.
- Source FQN: il nome completo della colonna di origine.
- Target system: il sistema in cui si trova l'asset di dati di destinazione.
- Progetto di destinazione: l' Google Cloud ID progetto contenente l'asset di dati di destinazione.
- Target FQN: il nome completo della colonna di destinazione.
- Direzione: indica se il flusso di dati è a monte o a valle.
- Dependency types: descrive la natura della relazione tra le colonne.
- Profondità: il numero di passaggi di derivazione dall'asset centrale analizzato.
Passaggi successivi
Scopri di più sulle origini della derivazione.
Scopri come monitorare la derivazione dei dati per i job di copia e query delle tabelle BigQuery.
Scopri come utilizzare la derivazione dei dati con i Google Cloud sistemi.