Monitorare la derivazione dei dati per una tabella BigQuery

Questo documento descrive come monitorare la derivazione dei dati nelle tabelle BigQuery. La derivazione dei dati è il processo di monitoraggio della provenienza dei dati, di come vengono trasformati e di dove vengono spostati nel tempo. Comprendere la derivazione dei dati è fondamentale per garantire la conformità, risolvere i problemi relativi ai dati ed eseguire l'analisi della causa principale.

Questa guida rapida mostra come iniziare a utilizzare la lineage dei dati per le tabelle BigQuery:

  1. Copia due tabelle da un set di dati new_york_taxi_trips disponibile pubblicamente.

  2. Combina il numero totale di corse in taxi di entrambe le tabelle in una nuova tabella.

  3. Visualizza un grafico di visualizzazione della derivazione per tutte e tre le operazioni.

Prima di iniziare

Configura il progetto:

  1. Accedi al tuo account Google Cloud . Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per visualizzare i grafici di visualizzazione della derivazione, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Aggiungere un set di dati pubblico al progetto

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

    Pulsante evidenziato per il riquadro Spazio di esplorazione.

    Se non vedi il riquadro a sinistra, fai clic su Espandi riquadro a sinistra per aprirlo.

  3. Nel riquadro Explorer, fai clic su Aggiungi dati.

  4. Nel riquadro Aggiungi dati, seleziona Set di dati pubblici.

  5. Nel riquadro Marketplace, cerca NYC TLC Trips e fai clic sul risultato NYC TLC Trips.

  6. Fai clic su Visualizza set di dati.

In questo modo, il progetto del set di dati pubblico viene aggiunto come riferimento che puoi visualizzare nel riquadro Explorer. Il riquadro dei dettagli mostra le Informazioni sul set di dati, incluse informazioni come ID set di dati, Posizione dei dati e data dell'ultima modifica.

Crea un set di dati nel tuo progetto

  1. Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

    Pulsante evidenziato per il riquadro Spazio di esplorazione.

  2. Nel riquadro Explorer, seleziona il progetto in cui vuoi creare il set di dati.

  3. Fai clic su Azioni e poi su Crea set di dati.

  4. Nella pagina Crea set di dati, nel campo ID set di dati, inserisci: data_lineage_demo. Lascia invariati i valori predefiniti degli altri campi.

  5. Fai clic su Crea set di dati.

  6. Nel riquadro Explorer, fai clic su Set di dati e poi sul data_lineage_demo appena aggiunto.

Il riquadro dei dettagli mostra le Informazioni sul set di dati.

Copia due tabelle accessibili pubblicamente nel tuo set di dati

  1. Apri un editor di query: nel riquadro dei dettagli, accanto alla scheda chiamata data_lineage_demo, fai clic su Query SQL. Questo passaggio crea una scheda denominata Untitled.

  2. Nell'editor di query, copia la prima tabella inserendo la seguente query. Sostituisci PROJECT_ID con l'identificatore del progetto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Fai clic su Esegui. Questo passaggio crea la prima tabella, denominata nyc_green_trips_2021.

  4. Nel riquadro Risultati delle query, fai clic su Vai alla tabella. Questo passaggio mostra i contenuti della prima tabella.

  5. Nell'editor di query, copia la seconda tabella sostituendo la query precedente con la seguente. Sostituisci PROJECT_ID con l'identificatore del progetto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Fai clic su Esegui. Questo passaggio crea la seconda tabella, denominata nyc_green_trips_2022.

  7. Nel riquadro Risultati delle query, fai clic su Vai alla tabella. Questo passaggio mostra i contenuti della seconda tabella.

Aggrega i dati in una nuova tabella

  1. Nell'editor di query, inserisci la seguente query. Sostituisci PROJECT_ID con l'identificatore del progetto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Fai clic su Esegui. Questo passaggio crea una tabella combinata, denominata total_green_trips_22_21.

  3. Nel riquadro Risultati delle query, fai clic su Vai alla tabella. Questo passaggio mostra la tabella combinata.

Visualizza il grafico della derivazione in Knowledge Catalog

  1. Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.

    Vai a Cerca

  2. Se la piattaforma di ricerca è impostata su Data Catalog, nel menu Scegli la piattaforma di ricerca, seleziona Knowledge Catalog.

  3. Nella casella Cerca, inserisci total_green_trips_22_21 e fai clic su Cerca.

  4. Nell'elenco dei risultati, fai clic su total_green_trips_22_21. Questo passaggio mostra la scheda Dettagli della tabella BigQuery.

  5. Fai clic sulla scheda Lignaggio.

La tabella total_green_trips_22_21 con il riquadro dei dettagli ancorato in basso.
Figura 1. Derivazione dei dati con i dettagli dei nodi

Nel grafico della derivazione, ogni nodo rettangolare rappresenta una tabella, originale, copiata o combinata. Puoi:

  • Per mostrare o nascondere l'origine di una tabella, fai clic su + (Espandi) o - (Comprimi).

  • Per visualizzare le informazioni sulla tabella, fai clic su un nodo. Questo passaggio mostra un riquadro Dettagli del nodo.

  • Per visualizzare le informazioni sul processo, fai clic su visualizzare i dettagli del processo di derivazione. Questo passaggio mostra un riquadro Dettagli del processo che mostra il job che ha trasformato una tabella di origine in una tabella di destinazione.

La tabella intermedia nyc_green_trips_2021 con il riquadro dei dettagli agganciato in basso.
Figura 2. Derivazione dei dati con dettagli del processo

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Elimina il progetto

  1. Nella console Google Cloud , vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona quello che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Eliminazione del set di dati

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

    Pulsante evidenziato per il riquadro Spazio di esplorazione.

  3. Nel riquadro Explorer, cerca il set di dati data_lineage_demo che hai creato.

  4. Fai clic sul set di dati, quindi su Elimina.

  5. Conferma l'eliminazione.

Passaggi successivi