Monitorare la derivazione dei dati con Knowledge Catalog

Questa pagina spiega come monitorare la derivazione dei dati per l'istanza di Looker (Google Cloud core) utilizzando Knowledge Catalog.

La derivazione dei dati è il processo di monitoraggio del flusso dei dati attraverso i sistemi. Integrando Looker (Google Cloud core) con Knowledge Catalog, puoi visualizzare il percorso end-to-end dei dati dalla loro origine in BigQuery tramite il livello semantico di Looker (visualizzazioni LookML ed esplorazioni) fino al consumo downstream in dashboard e Look.

Questa visibilità aiuta gli ingegneri e gli amministratori dei dati a eseguire l'analisi dell'impatto. Ad esempio, prima di eliminare una colonna in una tabella BigQuery, puoi controllare il grafico di derivazione per vedere esattamente quali dashboard di Looker verrebbero interrotte dalla modifica.

Prima di iniziare

Per utilizzare la derivazione dei dati con Looker (Google Cloud core), devi soddisfare i seguenti prerequisiti:

  1. Looker (Google Cloud core): la derivazione dei dati è supportata per tutti i tipi di edizione delle istanze di Looker (Google Cloud core). Le istanze di Looker (originale) non si integrano con Knowledge Catalog.
  2. Autorizzazioni richieste: per visualizzare i grafici di derivazione, devi disporre dei seguenti ruoli IAM:
    • Visualizzatore schema Looker (roles/looker.schemaViewer) nel progetto che ospita l'istanza di Looker (Google Cloud core)
    • Visualizzatore Dataplex (roles/dataplex.viewer) o autorizzazioni equivalenti per visualizzare gli asset di Knowledge Catalog
    • Visualizzatore derivazione dei dati (roles/datalineage.viewer) per leggere i dati di derivazione

Abilita la derivazione dei dati

Per abilitare la derivazione dei dati, completa i seguenti passaggi:

  1. Abilita l'integrazione di Universal Catalog per Looker (Google Cloud core): l'integrazione tra l'istanza di Looker (Google Cloud core) e Knowledge Catalog è abilitata per impostazione predefinita nella Google Cloud console. Se l'integrazione è stata disabilitata, devi riattivarla. Per istruzioni, consulta Abilitare l'integrazione.
  2. Abilita la funzionalità in anteprima Derivazione di Knowledge Catalog in Looker: la funzionalità in anteprima Derivazione di Knowledge Catalog è disabilitata per impostazione predefinita nella pagina Funzionalità in anteprima del pannello Amministrazione all'interno dell'istanza di Looker (Google Cloud core).
  3. Abilita l'API Data Lineage: devi abilitare l'API Data Lineage (datalineage.googleapis.com) in tutti i Google Cloud progetti che ospitano l'istanza di Looker (Google Cloud core) e i dati BigQuery.

    Abilita API Data Lineage

  4. Abilita l'importazione della derivazione a livello di servizio: Ensure che l'integrazione della derivazione e del servizio Looker (Google Cloud core) sia abilitata. La derivazione a livello di servizio rispetta i seguenti stati predefiniti:
    • Per evitare implicazioni sui prezzi futuri, l'importazione della derivazione a livello di servizio di Looker (Google Cloud core) è disabilitata per impostazione predefinita per i progetti che, alla data di rilascio dell'anteprima di questa funzionalità, avevano l'API Data Lineage abilitata e ospitavano almeno un'istanza di Looker (Google Cloud core).
    • L'importazione della derivazione a livello di servizio è abilitata per impostazione predefinita per le istanze di Looker (Google Cloud core) create dopo la data di rilascio dell'anteprima di questa funzionalità nei progetti con l'API Data Lineage abilitata.

Per visualizzare la configurazione della derivazione per un Google Cloud progetto, consulta la documentazione Recuperare la configurazione corrente. Se l'integrazione con Looker (Google Cloud core) è disabilitata, il comando restituirà un output simile al seguente:

    {
    "name": "projects/123456789012/locations/global/config",
    "ingestion": {
      "rules": [
        {
          "integrationSelector": {
            "integration": "LOOKER_CORE"
          },
          "lineageEnablement": {
            "enabled": false
          }
        }
      ]
    },
    "etag": "Wb35wDxTTLd6Z+QAL+Yd4g=="
  }

L'ID progetto nella risposta rifletterà l'ID nella richiesta. Il campo etag è un checksum generato dal server e basato sul valore corrente della configurazione.

Visualizza la derivazione dei dati

Una volta abilitata l'integrazione e completata la sincronizzazione iniziale (che può richiedere fino a 24 ore), puoi visualizzare la derivazione nella console Knowledge Catalog.

  1. Nella Google Cloud console, vai alla pagina Knowledge Catalog.

    Vai a Knowledge Catalog

  2. Fai clic su Cerca nel riquadro di navigazione a sinistra.
  3. Cerca una tabella BigQuery o un asset di Looker (Google Cloud core) (ad esempio una dashboard o un'esplorazione).
    • Puoi utilizzare il riquadro Filtri per filtrare per Sistema > Looker.
  4. Fai clic sul nome dell'asset per aprire la pagina dei dettagli.
  5. Fai clic sulla scheda Derivazione.

Il grafico di derivazione mostra l'asset come nodo centrale, con le origini upstream a sinistra e i consumatori downstream a destra.

Interpreta il grafico di derivazione

Il grafico di derivazione è composto da nodi e link:

  • Nodi: rappresentano gli asset di dati. Gli asset di Looker (Google Cloud core) supportati includono:
    • Dashboard di Looker
    • Elemento della dashboard di Looker (riquadro)
    • Look di Looker
    • Esplorazione LookML
    • Visualizzazione LookML
  • Link: rappresentano il flusso di dati. Ad esempio, un link da una tabella BigQuery a una visualizzazione LookML indica che la visualizzazione seleziona i dati da quella tabella.

Identifica i proprietari degli asset

Per scoprire chi è il proprietario di un asset downstream che potrebbe essere interessato da una modifica:

  1. Nel grafico di derivazione, fai clic sul nodo dell'asset (ad esempio, una dashboard di Looker).
  2. Sul lato destro dello schermo si apre un riquadro informativo.
  3. Cerca la sezione Aspetti per trovare il Proprietario (indirizzo email).

Filtra l'elenco di derivazione

Nella visualizzazione Elenco della derivazione, puoi filtrare le entità in base al nome o al valore della proprietà. Ad esempio, i modelli LookML complessi possono generare grafici di derivazione di grandi dimensioni con molte entità intermedie. Per concentrarti sull'impatto aziendale, puoi filtrare per tipo di entità seguendo questi passaggi:

  1. Nella scheda Derivazione, passa alla visualizzazione Elenco.
  2. Individua le opzioni Filtra nella barra degli strumenti.
  3. Nel filtro Entità, inserisci Dashboard di Looker e Look di Looker per filtrare i tipi intermedi come Visualizzazione LookML ed Esplorazione di Looker.

L'elenco delle entità viene aggiornato per mostrare solo i tipi di asset selezionati, semplificando l'identificazione dei contenuti rivolti agli utenti.

Limitazioni

L'integrazione della derivazione di Looker (Google Cloud core) presenta le seguenti limitazioni durante la release di anteprima:

  • Origini dati: nell'anteprima, la derivazione è supportata solo per le origini dati BigQuery.
  • Granularità: la derivazione viene fornita a livello di oggetto (tabella, visualizzazione, esplorazione, dashboard). La derivazione a livello di colonna non è supportata.
  • Latenza: i dati di derivazione non sono in tempo reale. In genere, il processo di sincronizzazione richiede quattro ore. Tuttavia, la sincronizzazione può richiedere fino a otto ore, a seconda della tempistica delle esportazioni dei metadati di Looker e del consumo dei dati di derivazione. Potrebbe essere necessario del tempo prima che le modifiche apportate in Looker o BigQuery vengano visualizzate nel grafico di derivazione.
  • SQL complesso: il codice LookML definito con SQL personalizzato complesso (ad esempio, modelli Liquid, tabelle derivate con join complessi) potrebbe non essere analizzato completamente, con la conseguente possibilità di nodi disconnessi.

Prezzi

Durante la release di anteprima, non sono previsti costi per le funzionalità di derivazione dei dati utilizzate con questa integrazione.

Quando la derivazione dei dati sarà disponibile pubblicamente, verranno addebitati i costi. Per evitare implicazioni sui prezzi futuri, l'importazione della derivazione di Looker (Google Cloud core) è disabilitata per impostazione predefinita per i progetti che, alla data di rilascio dell'anteprima di questa funzionalità, avevano l'API Data Lineage abilitata e ospitavano almeno un'istanza di Looker (Google Cloud core).

Per ulteriori informazioni, consulta la pagina dei prezzi di Knowledge Catalog.

Passaggi successivi