Informazioni sulla derivazione dei dati

La derivazione dei dati è una mappa visiva che monitora l'intero ciclo di vita dei dati. Mostra la provenienza dei dati (l'origine), dove vengono spostati (le destinazioni) e tutte le modifiche o trasformazioni che avvengono lungo il percorso.

Puoi visualizzare questa mappa completa del percorso dei dati direttamente nella Google Cloud console per gli asset creati in prodotti come Dataplex Universal Catalog, BigQuery e Vertex AI. Gli utenti esperti possono anche recuperare queste informazioni utilizzando l'API Data Lineage.

Perché hai bisogno della derivazione dei dati

Le aziende moderne spostano e modificano costantemente grandi quantità di dati. Ad esempio, trasformano gli acquisti dei clienti non elaborati in report, dashboard e modelli di machine learning. Questa complessità crea sfide critiche per il tuo team:

  • Fiducia e verifica: gli utenti dei dati spesso faticano a confermare che i report e i numeri che vedono siano accurati e provengano da un'origine attendibile.

  • Risoluzione dei problemi: quando viene visualizzato un errore in un report finale, i team di dati potrebbero trovare difficile e dispendioso in termini di tempo risalire al problema in ogni passaggio fino alla causa principale.

  • Gestione dei cambiamenti: prima di modificare o eliminare un dato (ad esempio una colonna in una tabella), i team devono conoscere ogni singolo report o modello downstream che si basa su di esso per evitare di interrompere i sistemi critici.

  • Conformità: i leader devono avere visibilità su come vengono utilizzati i dati sensibili (ad esempio informazioni finanziarie o dei clienti) in tutta l'organizzazione per soddisfare i requisiti normativi.

La derivazione dei dati risolve questi problemi fornendo un percorso chiaro, visivo e documentato dei dati. In questo modo puoi comprendere rapidamente le origini dati, tracciare gli errori, valutare l'impatto delle modifiche e mantenere la conformità.

Flusso di lavoro di derivazione dei dati

Il flusso di lavoro di derivazione dei dati include i seguenti passaggi:

  1. Origini dati e importazione: le informazioni sulla derivazione delle origini dati avviano l'intero processo. Per saperne di più, consulta Origini di derivazione.

    • Google Cloud Servizi: quando l'API Data Lineage è abilitata, i servizi supportati come BigQuery e Dataflow segnalano automaticamente gli eventi di derivazione ogni volta che i dati vengono spostati o trasformati.

    • Origini personalizzate: per tutti i sistemi non supportati automaticamente dalle Google Cloud integrazioni, puoi utilizzare l'API Data Lineage per registrare manualmente le informazioni sulla derivazione. Ti consigliamo di importare gli eventi formattati in base allo standard OpenLineage.

  2. Piattaforma di derivazione: questa piattaforma centrale importa, modella e archivia tutti i dati di derivazione. Per saperne di più, consulta Modello e granularità delle informazioni sulla derivazione.

    • API Data Lineage: questa API funge da punto di ingresso unico per tutte le informazioni sulla derivazione in entrata. Utilizza un modello dei dati gerarchico composto da tre concetti principali: processo, esecuzione ed evento.

    • Elaborazione e archiviazione: la piattaforma elabora i dati in entrata e li archivia in database affidabili e ottimizzati per le query.

  3. Esperienza utente: puoi interagire con le informazioni sulla derivazione archiviate in due modi principali:

    • Esplorazione visiva: nella Google Cloud console, un servizio frontend recupera e visualizza i dati di derivazione come un grafico o un elenco interattivo. Questa funzionalità è supportata per Dataplex Universal Catalog, BigQuery e Vertex AI (per modelli, set di dati, visualizzazioni di Feature Store e gruppi di funzionalità). È ideale per esplorare visivamente il percorso dei dati. Per saperne di più, consulta Visualizzazioni di derivazione nella Google Cloud console.

    • Accesso programmatico: utilizzando un client API, puoi comunicare direttamente con l'API Data Lineage per automatizzare la gestione della derivazione. In questo modo puoi scrivere informazioni sulla derivazione da origini personalizzate. Ti consente inoltre di leggere ed eseguire query sui dati di derivazione archiviati per utilizzarli in altre applicazioni o per creare report personalizzati.

Origini di derivazione

Puoi popolare le informazioni sulla derivazione in Dataplex Universal Catalog nei seguenti modi:

  • Automaticamente da servizi integrati Google Cloud
  • Manualmente, utilizzando l'API Data Lineage per le origini personalizzate
  • Importando eventi da OpenLineage

BigQuery

Quando abiliti la derivazione dei dati nel tuo progetto BigQuery, Dataplex Universal Catalog registra automaticamente le informazioni sulla derivazione per quanto segue:

I job di copia, query e caricamento di BigQuery sono rappresentati come processi.

Per visualizzare i dettagli del processo, fai clic sull'icona Dettagli processo Icona Dettagli processo nel grafico di derivazione.

Ogni processo contiene l'ID job BigQuery job_id nell'elenco degli attributi per il job BigQuery più recente.

Altri servizi

La derivazione dei dati supporta l'integrazione con i seguenti Google Cloud servizi:

Derivazione dei dati per origini dati personalizzate

Puoi utilizzare l'API Data Lineage per registrare manualmente le informazioni sulla derivazione per qualsiasi origine dati non supportata dai sistemi integrati.

Dataplex Universal Catalog può creare grafici di derivazione per la derivazione registrata manualmente se utilizzi un fullyQualifiedName che corrisponde ai nomi completi delle voci di Dataplex Universal Catalog esistenti. Se vuoi registrare la derivazione per un'origine dati personalizzata, devi prima creare una voce personalizzata.

Ogni processo per un'origine dati personalizzata può contenere una chiave sql nell'elenco degli attributi. Il valore di questa chiave viene utilizzato per eseguire l'highlight del codice nel riquadro dei dettagli del grafico di derivazione dei dati. L'istruzione SQL viene visualizzata così com'è stata fornita. È tua responsabilità filtrare le informazioni sensibili. Il nome della chiave sql fa distinzione tra maiuscole e minuscole.

OpenLineage

Se utilizzi già OpenLineage per raccogliere informazioni sulla derivazione da altre origini dati, puoi importare gli eventi OpenLineage in Dataplex Universal Catalog e visualizzarli nella Google Cloud console. Per saperne di più, consulta Integrare con OpenLineage.

Monitoraggio automatico della derivazione dei dati

Quando abiliti l'API Data Lineage, Google Cloud i sistemi che supportano la derivazione dei dati iniziano a segnalare lo spostamento dei dati. Ogni sistema integrato può inviare informazioni sulla derivazione per un intervallo diverso di origini dati.

Controllare l'importazione della derivazione

Puoi controllare quali Google Cloud servizi generano dati di derivazione abilitando o disabilitando l'importazione della derivazione per integrazioni specifiche. Puoi controllare l'importazione della derivazione a livello di organizzazione, cartella e progetto. Durante l'anteprima, questa funzionalità supporta la configurazione dell'importazione della derivazione solo per Managed Service per Apache Spark. Se disabiliti l'importazione della derivazione per Managed Service per Apache Spark, viene disabilitata anche l'importazione della derivazione per Managed Service per Apache Spark Managed Service per Apache Spark.

Dataplex Universal Catalog valuta la gerarchia delle risorse (progetto, cartelle, poi organizzazione) per determinare la configurazione effettiva. La prima configurazione impostata esplicitamente a qualsiasi livello in questa traversata verso l'alto ha effetto.

  • Se imposti una configurazione a livello di progetto, Dataplex Universal Catalog la utilizza.
  • Se non è impostata alcuna configurazione a livello di progetto, Dataplex Universal Catalog utilizza la configurazione della cartella principale più vicina con una configurazione esplicita.
  • Se non è impostata alcuna configurazione a livello di progetto o cartella, Dataplex Universal Catalog utilizza la configurazione a livello di organizzazione.
  • Se non è impostata alcuna configurazione a nessuno di questi livelli, Dataplex Universal Catalog utilizza l'impostazione predefinita del sistema per l'integrazione. L'impostazione predefinita per la configurazione di abilitazione della derivazione può essere Abilitata o Disabilitata. Per Managed Service per Apache Spark, l'importazione della derivazione è Abilitata per impostazione predefinita quando l'API Data Lineage è attiva.

Ad esempio, considera un'organizzazione test-org con le seguenti configurazioni di derivazione di Managed Service per Apache Spark:

  • Organizzazione test-org: Abilitata
    • Cartella folder-a: Disabilitata
      • Progetto project-a: nessuna configurazione impostata
    • Cartella folder-b: Abilitata
      • Progetto project-b: Disabilitata

In questo scenario, si applicano le seguenti impostazioni:

  • Per project-a, l'importazione della derivazione è Disabilitata. Dataplex Universal Catalog inizia la valutazione da project-a, non trova alcuna configurazione, passa a folder-a, e applica la configurazione Disabilitata da folder-a.
  • Per project-b, l'importazione della derivazione è Disabilitata. Dataplex Universal Catalog inizia la valutazione da project-b e applica la configurazione Disabilitata, sostituendo le impostazioni in folder-b e test-org.

Il controllo della generazione dei dati di derivazione ti aiuta a gestire i costi e le policy di governance. Ad esempio, puoi disabilitare la raccolta della derivazione per i progetti di sviluppo o per i carichi di lavoro ad alto volume che non richiedono il monitoraggio della derivazione.

Per informazioni su come configurare e controllare l'importazione della derivazione, consulta Controllare l'importazione della derivazione per un servizio.

Limitazioni

La derivazione dei dati presenta le seguenti limitazioni:

  • Tutte le informazioni sulla derivazione vengono conservate nel sistema solo per 30 giorni.

  • Le informazioni sulla derivazione persistono dopo l'eliminazione dell'origine dati correlata. Ad esempio, se elimini una tabella BigQuery, puoi comunque visualizzarne la derivazione tramite l'API e la console per un massimo di 30 giorni.

  • La derivazione dei dati non registra automaticamente le informazioni sulla derivazione diretta per le routine BigQuery. Se una routine viene utilizzata in una query, la derivazione dei dati registra la derivazione tra le tabelle che la routine legge come dipendenze delle tabelle che la query scrive.

Limitazioni della derivazione a livello di colonna

La derivazione a livello di colonna presenta le seguenti limitazioni aggiuntive:

  • La derivazione a livello di colonna non viene raccolta per i job di caricamento di BigQuery o per le routine.

  • La derivazione a livello di colonna upstream non viene raccolta per le tabelle esterne.

  • La derivazione a livello di colonna non viene raccolta se un job crea più di 1500 link a livello di colonna. In questi casi, viene raccolta solo la derivazione a livello di tabella.

  • Non esiste un'API per creare, leggere, aggiornare, eliminare o cercare la derivazione a livello di colonna.

  • Il supporto per le tabelle partizionate è limitato, perché le colonne di partizionamento come _PARTITIONDATE e _PARTITIONTIME non vengono riconosciute nel grafico di derivazione.

  • Limitazioni della console:

    • La traversata del grafico di derivazione è limitata a una profondità di 20 livelli e 10.000 link in ogni direzione.

    • La derivazione a livello di colonna viene recuperata solo dalla regione in cui si trova la tabella radice. Non è previsto il supporto per la derivazione tra regioni nella visualizzazione del grafico.

Prezzi

  • Dataplex Universal Catalog utilizza lo SKU di elaborazione premium per addebitare la derivazione dei dati. Per saperne di più, consulta i prezzi.

  • Per separare gli addebiti della derivazione dei dati dagli altri addebiti nello SKU di elaborazione premium di Dataplex Universal Catalog, nel report sulla fatturazione Cloud utilizza l'etichetta goog-dataplex-workload-type con il valore LINEAGE.

  • Se chiami l'API Data Lineage Origin sourceType con un valore diverso da CUSTOM, si generano costi aggiuntivi.

Passaggi successivi