La derivazione dei dati è una mappa visiva che monitora l'intero ciclo di vita dei dati. Mostra la provenienza dei dati (l'origine), dove vengono spostati (le destinazioni) e tutte le modifiche o trasformazioni che avvengono lungo il percorso.
Puoi visualizzare questa mappa completa del percorso dei dati direttamente nella Google Cloud console per gli asset creati in prodotti come Dataplex Universal Catalog, BigQuery e Vertex AI. Gli utenti esperti possono anche recuperare queste informazioni utilizzando l'API Data Lineage.
Perché hai bisogno della derivazione dei dati
Le aziende moderne spostano e modificano costantemente grandi quantità di dati. Ad esempio, trasformano gli acquisti dei clienti non elaborati in report, dashboard e modelli di machine learning. Questa complessità crea sfide critiche per il tuo team:
Fiducia e verifica: gli utenti dei dati spesso faticano a confermare che i report e i numeri che vedono siano accurati e provengano da un'origine attendibile.
Risoluzione dei problemi: quando viene visualizzato un errore in un report finale, i team di dati potrebbero trovare difficile e dispendioso in termini di tempo risalire al problema in ogni passaggio fino alla causa principale.
Gestione dei cambiamenti: prima di modificare o eliminare un dato (ad esempio una colonna in una tabella), i team devono conoscere ogni singolo report o modello downstream che si basa su di esso per evitare di interrompere i sistemi critici.
Conformità: i leader devono avere visibilità su come vengono utilizzati i dati sensibili (ad esempio informazioni finanziarie o dei clienti) in tutta l'organizzazione per soddisfare i requisiti normativi.
La derivazione dei dati risolve questi problemi fornendo un percorso chiaro, visivo e documentato dei dati. In questo modo puoi comprendere rapidamente le origini dati, tracciare gli errori, valutare l'impatto delle modifiche e mantenere la conformità.
Flusso di lavoro di derivazione dei dati
Il flusso di lavoro di derivazione dei dati include i seguenti passaggi:
Origini dati e importazione: le informazioni sulla derivazione delle origini dati avviano l'intero processo. Per saperne di più, consulta Origini di derivazione.
Google Cloud Servizi: quando l'API Data Lineage è abilitata, i servizi supportati come BigQuery e Dataflow segnalano automaticamente gli eventi di derivazione ogni volta che i dati vengono spostati o trasformati.
Origini personalizzate: per tutti i sistemi non supportati automaticamente dalle Google Cloud integrazioni, puoi utilizzare l'API Data Lineage per registrare manualmente le informazioni sulla derivazione. Ti consigliamo di importare gli eventi formattati in base allo standard OpenLineage.
Piattaforma di derivazione: questa piattaforma centrale importa, modella e archivia tutti i dati di derivazione. Per saperne di più, consulta Modello e granularità delle informazioni sulla derivazione.
API Data Lineage: questa API funge da punto di ingresso unico per tutte le informazioni sulla derivazione in entrata. Utilizza un modello dei dati gerarchico composto da tre concetti principali: processo, esecuzione ed evento.
Elaborazione e archiviazione: la piattaforma elabora i dati in entrata e li archivia in database affidabili e ottimizzati per le query.
Esperienza utente: puoi interagire con le informazioni sulla derivazione archiviate in due modi principali:
Esplorazione visiva: nella Google Cloud console, un servizio frontend recupera e visualizza i dati di derivazione come un grafico o un elenco interattivo. Questa funzionalità è supportata per Dataplex Universal Catalog, BigQuery e Vertex AI (per modelli, set di dati, visualizzazioni di Feature Store e gruppi di funzionalità). È ideale per esplorare visivamente il percorso dei dati. Per saperne di più, consulta Visualizzazioni di derivazione nella Google Cloud console.
Accesso programmatico: utilizzando un client API, puoi comunicare direttamente con l'API Data Lineage per automatizzare la gestione della derivazione. In questo modo puoi scrivere informazioni sulla derivazione da origini personalizzate. Ti consente inoltre di leggere ed eseguire query sui dati di derivazione archiviati per utilizzarli in altre applicazioni o per creare report personalizzati.
Origini di derivazione
Puoi popolare le informazioni sulla derivazione in Dataplex Universal Catalog nei seguenti modi:
- Automaticamente da servizi integrati Google Cloud
- Manualmente, utilizzando l'API Data Lineage per le origini personalizzate
- Importando eventi da OpenLineage
BigQuery
Quando abiliti la derivazione dei dati nel tuo progetto BigQuery, Dataplex Universal Catalog registra automaticamente le informazioni sulla derivazione per quanto segue:
Nuove tabelle create in seguito ai seguenti job BigQuery:
- Job di copia
- Job di caricamento che utilizzano un URI Cloud Storage
- Job di query che utilizzano il seguente linguaggio di definizione dei dati (DDL) in GoogleSQL:
Tabelle esistenti quando utilizzi le seguenti istruzioni DML (Data Manipulation Language) in GoogleSQL:
SELECTin relazione a uno dei tipi di tabella elencati:INSERT SELECTMERGEUPDATEDELETE
I job di copia, query e caricamento di BigQuery sono rappresentati come processi.
Per visualizzare i dettagli del processo, fai clic sull'icona Dettagli processo
nel grafico di derivazione.
Ogni processo contiene l'ID job BigQuery job_id nell'elenco degli attributi per il job BigQuery più recente.
Altri servizi
La derivazione dei dati supporta l'integrazione con i seguenti Google Cloud servizi:
Derivazione dei dati per origini dati personalizzate
Puoi utilizzare l'API Data Lineage per registrare manualmente le informazioni sulla derivazione per qualsiasi origine dati non supportata dai sistemi integrati.
Dataplex Universal Catalog può creare grafici di derivazione per la derivazione registrata manualmente
se utilizzi un
fullyQualifiedName che corrisponde ai nomi completi
delle voci di Dataplex Universal Catalog esistenti. Se vuoi registrare
la derivazione per un'origine dati personalizzata, devi prima creare una
voce personalizzata.
Ogni processo per un'origine dati personalizzata può contenere una chiave sql nell'elenco degli attributi. Il valore di questa chiave viene utilizzato per eseguire l'highlight del codice nel riquadro dei dettagli del grafico di derivazione dei dati. L'istruzione SQL viene visualizzata così com'è stata fornita. È tua responsabilità filtrare le informazioni sensibili. Il nome della chiave sql fa distinzione tra maiuscole e minuscole.
OpenLineage
Se utilizzi già OpenLineage per raccogliere informazioni sulla derivazione da altre origini dati, puoi importare gli eventi OpenLineage in Dataplex Universal Catalog e visualizzarli nella Google Cloud console. Per saperne di più, consulta Integrare con OpenLineage.
Monitoraggio automatico della derivazione dei dati
Quando abiliti l'API Data Lineage, Google Cloud i sistemi che supportano la derivazione dei dati iniziano a segnalare lo spostamento dei dati. Ogni sistema integrato può inviare informazioni sulla derivazione per un intervallo diverso di origini dati.
Controllare l'importazione della derivazione
Puoi controllare quali Google Cloud servizi generano dati di derivazione abilitando o disabilitando l'importazione della derivazione per integrazioni specifiche. Puoi controllare l'importazione della derivazione a livello di organizzazione, cartella e progetto. Durante l'anteprima, questa funzionalità supporta la configurazione dell'importazione della derivazione solo per Managed Service per Apache Spark. Se disabiliti l'importazione della derivazione per Managed Service per Apache Spark, viene disabilitata anche l'importazione della derivazione per Managed Service per Apache Spark Managed Service per Apache Spark.
Dataplex Universal Catalog valuta la gerarchia delle risorse (progetto, cartelle, poi organizzazione) per determinare la configurazione effettiva. La prima configurazione impostata esplicitamente a qualsiasi livello in questa traversata verso l'alto ha effetto.
- Se imposti una configurazione a livello di progetto, Dataplex Universal Catalog la utilizza.
- Se non è impostata alcuna configurazione a livello di progetto, Dataplex Universal Catalog utilizza la configurazione della cartella principale più vicina con una configurazione esplicita.
- Se non è impostata alcuna configurazione a livello di progetto o cartella, Dataplex Universal Catalog utilizza la configurazione a livello di organizzazione.
- Se non è impostata alcuna configurazione a nessuno di questi livelli, Dataplex Universal Catalog utilizza l'impostazione predefinita del sistema per l'integrazione. L'impostazione predefinita per la configurazione di abilitazione della derivazione può essere Abilitata o Disabilitata. Per Managed Service per Apache Spark, l'importazione della derivazione è Abilitata per impostazione predefinita quando l'API Data Lineage è attiva.
Ad esempio, considera un'organizzazione test-org con le seguenti configurazioni di derivazione di Managed Service per Apache Spark:
- Organizzazione
test-org: Abilitata- Cartella
folder-a: Disabilitata- Progetto
project-a: nessuna configurazione impostata
- Progetto
- Cartella
folder-b: Abilitata- Progetto
project-b: Disabilitata
- Progetto
- Cartella
In questo scenario, si applicano le seguenti impostazioni:
- Per
project-a, l'importazione della derivazione è Disabilitata. Dataplex Universal Catalog inizia la valutazione daproject-a, non trova alcuna configurazione, passa afolder-a, e applica la configurazione Disabilitata dafolder-a. - Per
project-b, l'importazione della derivazione è Disabilitata. Dataplex Universal Catalog inizia la valutazione daproject-be applica la configurazione Disabilitata, sostituendo le impostazioni infolder-betest-org.
Il controllo della generazione dei dati di derivazione ti aiuta a gestire i costi e le policy di governance. Ad esempio, puoi disabilitare la raccolta della derivazione per i progetti di sviluppo o per i carichi di lavoro ad alto volume che non richiedono il monitoraggio della derivazione.
Per informazioni su come configurare e controllare l'importazione della derivazione, consulta Controllare l'importazione della derivazione per un servizio.
Limitazioni
La derivazione dei dati presenta le seguenti limitazioni:
Tutte le informazioni sulla derivazione vengono conservate nel sistema solo per 30 giorni.
Le informazioni sulla derivazione persistono dopo l'eliminazione dell'origine dati correlata. Ad esempio, se elimini una tabella BigQuery, puoi comunque visualizzarne la derivazione tramite l'API e la console per un massimo di 30 giorni.
La derivazione dei dati non registra automaticamente le informazioni sulla derivazione diretta per le routine BigQuery. Se una routine viene utilizzata in una query, la derivazione dei dati registra la derivazione tra le tabelle che la routine legge come dipendenze delle tabelle che la query scrive.
Limitazioni della derivazione a livello di colonna
La derivazione a livello di colonna presenta le seguenti limitazioni aggiuntive:
La derivazione a livello di colonna non viene raccolta per i job di caricamento di BigQuery o per le routine.
La derivazione a livello di colonna upstream non viene raccolta per le tabelle esterne.
La derivazione a livello di colonna non viene raccolta se un job crea più di 1500 link a livello di colonna. In questi casi, viene raccolta solo la derivazione a livello di tabella.
Non esiste un'API per creare, leggere, aggiornare, eliminare o cercare la derivazione a livello di colonna.
Il supporto per le tabelle partizionate è limitato, perché le colonne di partizionamento come
_PARTITIONDATEe_PARTITIONTIMEnon vengono riconosciute nel grafico di derivazione.Limitazioni della console:
La traversata del grafico di derivazione è limitata a una profondità di 20 livelli e 10.000 link in ogni direzione.
La derivazione a livello di colonna viene recuperata solo dalla regione in cui si trova la tabella radice. Non è previsto il supporto per la derivazione tra regioni nella visualizzazione del grafico.
Prezzi
Dataplex Universal Catalog utilizza lo SKU di elaborazione premium per addebitare la derivazione dei dati. Per saperne di più, consulta i prezzi.
Per separare gli addebiti della derivazione dei dati dagli altri addebiti nello SKU di elaborazione premium di Dataplex Universal Catalog, nel report sulla fatturazione Cloud utilizza l'etichetta
goog-dataplex-workload-typecon il valoreLINEAGE.Se chiami l'API Data Lineage
OriginsourceTypecon un valore diverso daCUSTOM, si generano costi aggiuntivi.
Passaggi successivi
Scopri come monitorare la derivazione dei dati per i job di copia e query delle tabelle BigQuery.
Scopri come utilizzare la derivazione dei dati con i Google Cloud sistemi.
Scopri di più sulle visualizzazioni di derivazione nella Google Cloud console.
Esplora l'API Data Lineage.
Per informazioni amministrative, consulta Considerazioni sulla derivazione e Log di controllo della derivazione dei dati.