La derivazione dei dati è una mappa visiva che monitora l'intero ciclo di vita dei dati. Mostra da dove provengono i dati (l'origine), dove vengono trasferiti (le destinazioni) e tutte le modifiche o trasformazioni che si verificano lungo il percorso.
Puoi visualizzare questa mappa completa del percorso dei tuoi dati direttamente nella consoleGoogle Cloud per gli asset creati in prodotti come Dataplex Universal Catalog, BigQuery e Vertex AI. Gli utenti esperti possono recuperare queste informazioni anche utilizzando l'API Data Lineage.
Perché è necessaria la derivazione dei dati
Le aziende moderne spostano e modificano costantemente grandi quantità di dati. Ad esempio, trasformando gli acquisti dei clienti non elaborati in report, dashboard e modelli di machine learning. Questa complessità crea sfide critiche per il tuo team:
Affidabilità e verifica: gli utenti dei dati spesso faticano a confermare che i report e i numeri che vedono siano accurati e provengano da una fonte attendibile.
Risoluzione dei problemi: quando viene visualizzato un errore in un report finale, i team di dati potrebbero trovare difficile e dispendioso in termini di tempo risalire al problema in ogni passaggio fino alla causa principale.
Gestione delle modifiche: prima di modificare o eliminare un insieme di dati (ad esempio una colonna di una tabella), i team devono conoscere ogni singolo report o modello downstream che si basa su di esso per evitare di interrompere i sistemi critici.
Conformità: i leader devono avere visibilità su come vengono utilizzati i dati sensibili (come le informazioni finanziarie o dei clienti) in tutta l'organizzazione per soddisfare i requisiti normativi.
La derivazione dei dati risolve questi problemi fornendo un percorso chiaro, visivo e documentato dei tuoi dati. In questo modo puoi comprendere rapidamente le origini dati, tracciare gli errori, valutare l'impatto delle modifiche e mantenere la conformità.
Flusso di lavoro di derivazione dei dati
Il flusso di lavoro della derivazione dei dati include i seguenti passaggi:
Origini dati e importazione: le informazioni sulla derivazione delle origini dati avviano l'intero processo. Per saperne di più, consulta Origini della derivazione.
Google Cloud Servizi: quando l'API Data Lineage è abilitata, i servizi supportati come BigQuery e Dataflow segnalano automaticamente gli eventi di derivazione ogni volta che i dati vengono spostati o trasformati.
Origini personalizzate: per tutti i sistemi non supportati automaticamente dalle integrazioni diGoogle Cloud , puoi utilizzare l'API Data Lineage per registrare manualmente le informazioni sulla derivazione. Ti consigliamo di importare gli eventi formattati in base allo standard OpenLineage.
Piattaforma di derivazione: questa piattaforma centrale acquisisce, modella e archivia tutti i dati di derivazione. Per maggiori informazioni, consulta Modello e granularità delle informazioni sulla derivazione.
API Data Lineage: questa API funge da unico punto di accesso per tutte le informazioni sulla derivazione in entrata. Utilizza un modello dei dati gerarchico costituito da tre concetti fondamentali: processo, esecuzione ed evento.
Elaborazione e archiviazione: la piattaforma elabora i dati in entrata e li archivia in database affidabili e ottimizzati per le query.
Esperienza utente: puoi interagire con le informazioni sulla derivazione archiviate in due modi principali:
Esplorazione visiva: nella console Google Cloud , un servizio frontend recupera e visualizza i dati di derivazione come grafico o elenco interattivo. Questa funzionalità è supportata per Dataplex Universal Catalog, BigQuery e Vertex AI (per modelli, set di dati, viste di Feature Store e gruppi di funzionalità). È ideale per esplorare visivamente il percorso dei dati. Per maggiori informazioni, consulta Viste della derivazione nella console Google Cloud .
Accesso programmatico: utilizzando un client API, puoi comunicare direttamente con l'API Data Lineage per automatizzare la gestione della derivazione. In questo modo puoi scrivere informazioni sulla derivazione da origini personalizzate. Consente inoltre di leggere ed eseguire query sui dati di derivazione archiviati per l'utilizzo in altre applicazioni o per la creazione di report personalizzati.
Origini della derivazione
Puoi compilare le informazioni sulla derivazione in Dataplex Universal Catalog nei seguenti modi:
- Automaticamente dai servizi Google Cloud integrati
- Manualmente, utilizzando l'API Data Lineage per le origini personalizzate
- Importando eventi da OpenLineage
Monitoraggio automatizzato della derivazione dei dati
Quando abiliti l'API Data Lineage, Google Cloud i sistemi che supportano la derivazione dei dati iniziano a segnalare il movimento dei dati. Ogni sistema integrato può inviare informazioni sulla derivazione per un intervallo diverso di origini dati.
BigQuery
Quando abiliti la derivazione dei dati nel tuo progetto BigQuery, il Catalogo universale Dataplex registra automaticamente le informazioni sulla derivazione per quanto segue:
Nuove tabelle create in seguito ai seguenti job BigQuery:
- Job di copia
- Job di caricamento che utilizzano un URI Cloud Storage
- Job di query che utilizzano il seguente linguaggio di definizione dei dati (DDL) in GoogleSQL:
Tabelle esistenti quando utilizzi le seguenti istruzioni DML (Data Manipulation Language) in GoogleSQL:
SELECTin relazione a uno dei tipi di tabella elencati:INSERT SELECTMERGEUPDATEDELETE
I job di copia, query e caricamento di BigQuery sono rappresentati come processi.
Per visualizzare i dettagli del processo, fai clic su
nel grafico della derivazione.
Ogni processo contiene l'job_id di BigQuery nell'elenco attributes per il job BigQuery più recente.
Altri servizi
La lineage dei dati supporta l'integrazione con i seguenti servizi Google Cloud :
Derivazione dei dati per le origini dati personalizzate
Puoi utilizzare l'API Data Lineage per registrare manualmente le informazioni sulla derivazione per qualsiasi origine dati non supportata dai sistemi integrati.
Dataplex Universal Catalog può creare grafici di derivazione per la derivazione registrata manualmente se utilizzi un fullyQualifiedName che corrisponde ai nomi completi delle voci Dataplex Universal Catalog esistenti. Se vuoi registrare
la derivazione per un'origine dati personalizzata, devi prima creare una
voce personalizzata.
Ogni processo per un'origine dati personalizzata può contenere una chiave sql nell'elenco degli attributi. Il valore di questa chiave viene utilizzato per visualizzare un'evidenziazione del codice nel riquadro dei dettagli del grafico di derivazione dei dati. L'istruzione SQL viene visualizzata così com'è
stata fornita. Sei responsabile del filtraggio dei informazioni sensibili. Il
nome della chiave sql è sensibile alle maiuscole.
OpenLineage
Se utilizzi già OpenLineage per raccogliere informazioni sulla derivazione da altre origini dati, puoi importare gli eventi OpenLineage in Dataplex Universal Catalog e visualizzarli nella console Google Cloud . Per ulteriori informazioni, consulta Eseguire l'integrazione con OpenLineage.
Limitazioni
Di seguito sono riportate le limitazioni per la derivazione dei dati:
Tutte le informazioni sulla derivazione vengono conservate nel sistema solo per 30 giorni.
Le informazioni sulla derivazione persistono dopo l'eliminazione dell'origine dati correlata. Ad esempio, se elimini una tabella BigQuery, puoi comunque visualizzarne la derivazione tramite l'API e la console per un massimo di 30 giorni.
La derivazione dei dati non registra automaticamente le informazioni sulla derivazione diretta per le routine BigQuery. Se una routine viene utilizzata in una query, la derivazione dei dati registra la derivazione tra le tabelle che la routine legge come dipendenze delle tabelle che la query scrive.
Limitazioni della derivazione a livello di colonna
La derivazione a livello di colonna presenta le seguenti limitazioni aggiuntive:
La derivazione a livello di colonna non viene raccolta per i job di caricamento BigQuery o per le routine.
La derivazione a livello di colonna upstream non viene raccolta per le tabelle esterne.
La derivazione a livello di colonna non viene raccolta se un job crea più di 1500 link a livello di colonna. In questi casi, viene raccolta solo la derivazione a livello di tabella.
Non esiste un'API per creare, leggere, aggiornare, eliminare o cercare la derivazione a livello di colonna.
Il supporto per le tabelle partizionate è limitato, perché le colonne di partizionamento come
_PARTITIONDATEe_PARTITIONTIMEnon vengono riconosciute nel grafico della derivazione.Limitazioni della console:
L'attraversamento del grafico della derivazione è limitato a una profondità di 20 livelli e 10.000 link in ogni direzione.
La derivazione a livello di colonna viene recuperata solo dalla regione in cui si trova la tabella radice. Non è disponibile il supporto per la derivazione tra regioni nella visualizzazione del grafico.
Prezzi
Il Catalogo universale Dataplex utilizza lo SKU di elaborazione premium per addebitare la derivazione dei dati. Per saperne di più, consulta i prezzi.
Per separare gli addebiti della derivazione dei dati da altri addebiti nello SKU di elaborazione premium di Dataplex Universal Catalog, nel report Cloud Billing, utilizza l'etichetta
goog-dataplex-workload-typecon il valoreLINEAGE.Se chiami l'API Data Lineage
OriginsourceTypecon un valore diverso daCUSTOM, ciò comporta costi aggiuntivi.
Passaggi successivi
Scopri come monitorare la derivazione dei dati per i job di copia e query di una tabella BigQuery.
Scopri come utilizzare la derivazione dei dati con i sistemi Google Cloud .
Scopri di più sulle visualizzazioni della derivazione nella console Google Cloud .
Esplora l'API Data Lineage.
Per informazioni amministrative, vedi Considerazioni sulla derivazione e log di controllo della derivazione dei dati.