Monitorare la derivazione dei dati per una tabella BigQuery

Questo documento descrive come monitorare la derivazione dei dati nelle tabelle BigQuery. La derivazione dei dati è il processo di monitoraggio della provenienza dei dati, di come vengono trasformati e di dove si spostano nel tempo. Comprendere la derivazione dei dati è fondamentale per garantire la conformità, risolvere i problemi relativi ai dati ed eseguire l'analisi della causa principale.

Questa guida rapida mostra come iniziare a utilizzare la derivazione dei dati per le tabelle BigQuery:

  1. Copia due tabelle da un set di dati new_york_taxi_trips disponibile pubblicamente.

  2. Combina il numero totale di corse in taxi di entrambe le tabelle in una nuova tabella.

  3. Visualizza un grafico di visualizzazione della derivazione per tutte e tre le operazioni.

Prima di iniziare

Configura il progetto:

  1. Accedi al tuo Google Cloud account. Se non hai mai utilizzato Google Cloud, crea un account per valutare il rendimento dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per visualizzare i grafici di visualizzazione della derivazione, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Aggiungere un set di dati pubblico al progetto

  1. Nella Google Cloud console, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

    Pulsante evidenziato per il riquadro Spazio di esplorazione.

    Se non vedi il riquadro a sinistra, fai clic su Espandi riquadro a sinistra per aprirlo.

  3. Nel riquadro Spazio di esplorazione, fai clic su Aggiungi dati.

  4. Nel riquadro Aggiungi dati, seleziona Set di dati pubblici.

  5. Nel riquadro Marketplace, cerca NYC TLC Trips e fai clic sul risultato NYC TLC Trips.

  6. Fai clic su Visualizza set di dati.

In questo modo, il progetto del set di dati pubblico viene aggiunto come riferimento che puoi visualizzare nel riquadro Spazio di esplorazione. Il riquadro dei dettagli mostra Informazioni sul set di dati, incluse informazioni come ID set di dati, Posizione dei dati e data Ultima modifica.

Creare un set di dati nel progetto

  1. Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

    Pulsante evidenziato per il riquadro Spazio di esplorazione.

  2. Nel riquadro Spazio di esplorazione, seleziona il progetto in cui vuoi creare il set di dati.

  3. Fai clic su Azioni e poi su Crea set di dati.

  4. Nella pagina Crea set di dati, nel campo ID set di dati, inserisci: data_lineage_demo. Lascia invariati i valori predefiniti degli altri campi.

  5. Fai clic su Crea set di dati.

  6. Nel riquadro Spazio di esplorazione, fai clic su Set di dati, quindi fai clic su data_lineage_demo appena aggiunto.

Il riquadro dei dettagli mostra le Informazioni sul set di dati.

Copiare due tabelle accessibili pubblicamente nel set di dati

  1. Apri un editor di query: nel riquadro dei dettagli, accanto alla scheda denominata data_lineage_demo, fai clic su Query SQL. Questo passaggio crea una scheda denominata Untitled.

  2. Nell'editor di query, copia la prima tabella inserendo la query seguente. Sostituisci PROJECT_ID con l'identificatore del tuo progetto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Fai clic su Esegui. Questo passaggio crea la prima tabella, denominata nyc_green_trips_2021.

  4. Nel riquadro Risultati query, fai clic su Vai alla tabella. Questo passaggio mostra i contenuti della prima tabella.

  5. Nell'editor di query, copia la seconda tabella sostituendo la query precedente con la query seguente. Sostituisci PROJECT_ID con l'identificatore del tuo progetto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Fai clic su Esegui. Questo passaggio crea la seconda tabella, denominata nyc_green_trips_2022.

  7. Nel riquadro Risultati query, fai clic su Vai alla tabella. Questo passaggio mostra i contenuti della seconda tabella.

Aggregare i dati in una nuova tabella

  1. Nell'editor di query, inserisci la query seguente. Sostituisci PROJECT_ID con l'identificatore del tuoprogetto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Fai clic su Esegui. Questo passaggio crea una tabella combinata, denominata total_green_trips_22_21.

  3. Nel riquadro Risultati query, fai clic su Vai alla tabella. Questo passaggio mostra la tabella combinata.

Visualizzare il grafico della derivazione in Dataplex Universal Catalog

  1. Nella Google Cloud console, vai alla pagina Cerca di Dataplex Universal Catalog.

    Vai a Cerca

  2. Se la piattaforma di ricerca è impostata su Data Catalog, nel Scegli la piattaforma di ricerca menu, seleziona Dataplex Universal Catalog.

  3. Nella casella Cerca, inserisci total_green_trips_22_21 e fai clic su Cerca.

  4. Nell'elenco dei risultati, fai clic su total_green_trips_22_21. Questo passaggio mostra la scheda Dettagli della tabella BigQuery.

  5. Fai clic sulla scheda Derivazione.

La tabella total_green_trips_22_21 con il riquadro dei dettagli ancorato in basso.
Figura 1. Derivazione dei dati con dettagli del nodo

Nel grafico della derivazione, ogni nodo rettangolare rappresenta una tabella, originale, copiata o combinata. Puoi:

  • Per mostrare o nascondere l'origine di una tabella, fai clic su + (Espandi) o - (Comprimi).

  • Per visualizzare le informazioni sulla tabella, fai clic su un nodo. Questo passaggio mostra un riquadro Dettagli del nodo.

  • Per visualizzare le informazioni sul processo, fai clic su visualizzare i dettagli del processo di derivazione. Questo passaggio mostra un riquadro Dettagli del processo che mostra il job che ha trasformato una tabella di origine in una tabella di destinazione.

La tabella intermedia nyc_green_trips_2021 con il riquadro dei dettagli agganciato in basso.
Figura 2. Derivazione dei dati con dettagli del processo

Libera spazio

Per evitare che al tuo Google Cloud account vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Elimina il progetto

  1. Nella Google Cloud console, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID progetto e fai clic su Chiudi per eliminare il progetto.

Eliminazione del set di dati

  1. Nella Google Cloud console, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

    Pulsante evidenziato per il riquadro Spazio di esplorazione.

  3. Nel riquadro Spazio di esplorazione, cerca il set di dati data_lineage_demo che hai creato.

  4. Fai clic sul set di dati, quindi fai clic su Elimina.

  5. Conferma l'azione di eliminazione.

Passaggi successivi