Datenherkunft für eine BigQuery-Tabelle nachverfolgen

In diesem Dokument wird beschrieben, wie Sie die Herkunft von Daten in BigQuery-Tabellen nachverfolgen. Bei der Datenherkunft wird nachverfolgt, woher Daten stammen, wie sie transformiert werden und wohin sie im Laufe der Zeit verschoben werden. Das Verständnis der Datenherkunft ist entscheidend, um die Compliance sicherzustellen, Datenprobleme zu beheben und Ursachenanalysen durchzuführen.

In dieser Kurzanleitung erfahren Sie, wie Sie mit der Datenherkunft für BigQuery-Tabellen beginnen:

  1. Kopieren Sie zwei Tabellen aus einem öffentlich verfügbaren new_york_taxi_trips-Dataset.

  2. Kombinieren Sie die Gesamtzahl der Taxifahrten aus beiden Tabellen in einer neuen Tabelle.

  3. Sehen Sie sich ein Diagramm zur Herkunftsvisualisierung für alle drei Vorgänge an.

Hinweis

So richten Sie Ihr Projekt ein:

  1. Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie noch nicht mit Google Cloudvertraut sind, erstellen Sie ein Konto, um die Leistung unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Diagrammen zur Herkunftsvisualisierung benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Öffentliches Dataset zu Ihrem Projekt hinzufügen

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Bereich auf Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

    Wenn der linke Bereich nicht angezeigt wird, klicken Sie auf Linken Bereich maximieren , um ihn zu öffnen.

  3. Klicken Sie im Bereich Explorer auf Daten hinzufügen.

  4. Wählen Sie im Bereich Daten hinzufügen die Option Öffentliche Datasets aus.

  5. Suchen Sie im Bereich Marketplace nach NYC TLC Trips und klicken Sie auf das Ergebnis NYC TLC Trips.

  6. Klicken Sie auf Dataset aufrufen.

Dadurch wird das Projekt des öffentlichen Datasets als Referenz hinzugefügt, die Sie im Bereich Explorer aufrufen können. Im Detailbereich werden die Dataset-Informationen angezeigt, einschließlich Informationen wie die Dataset-ID, der Ort für Datenpool und das Datum der letzten Änderung.

Dataset in Ihrem Projekt erstellen

  1. Klicken Sie im linken Bereich auf Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

  2. Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie das Dataset erstellen möchten.

  3. Klicken Sie auf Aktionen und dann auf Dataset erstellen.

  4. Geben Sie auf der Seite Dataset erstellen im Feld Dataset-ID Folgendes ein: data_lineage_demo. Übernehmen Sie für alle anderen Felder die Standardwerte.

  5. Klicken Sie auf Dataset erstellen.

  6. Klicken Sie im Bereich Explorer auf Datasets und dann auf das neu hinzugefügte data_lineage_demo.

Im Detailbereich werden die Dataset-Informationen angezeigt.

Zwei öffentlich zugängliche Tabellen in Ihr Dataset kopieren

  1. Öffnen Sie einen Abfrageeditor: Klicken Sie im Detailbereich neben dem Tab data_lineage_demo auf SQL-Abfrage. Dadurch wird ein Tab mit dem Namen Untitled erstellt.

  2. Kopieren Sie die erste Tabelle im Abfrageeditor, indem Sie die folgende Abfrage eingeben. Ersetzen Sie PROJECT_ID durch die ID Ihres Projekts.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Klicken Sie auf Ausführen. Dadurch wird die erste Tabelle mit dem Namen nyc_green_trips_2021 erstellt.

  4. Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. Dadurch wird der Inhalt der ersten Tabelle angezeigt.

  5. Kopieren Sie die zweite Tabelle im Abfrageeditor, indem Sie die vorherige Abfrage durch die folgende Abfrage ersetzen. Ersetzen Sie PROJECT_ID durch die ID Ihres Projekts identifier.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Klicken Sie auf Ausführen. Dadurch wird die zweite Tabelle mit dem Namen nyc_green_trips_2022 erstellt.

  7. Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. Dadurch wird der Inhalt der zweiten Tabelle angezeigt.

Daten in einer neuen Tabelle zusammenfassen

  1. Geben Sie im Abfrageeditor die folgende Abfrage ein. Ersetzen Sie PROJECT_ID durch die ID Ihres Projekts.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Klicken Sie auf Ausführen. Dadurch wird eine kombinierte Tabelle mit dem Namen total_green_trips_22_21 erstellt.

  3. Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. Dadurch wird die kombinierte Tabelle angezeigt.

Herkunftsdiagramm in Dataplex Universal Catalog ansehen

  1. Rufen Sie in der Google Cloud Console die Seite Suchen von Dataplex Universal Catalog auf.

    Zur Suche

  2. Wenn Ihre Suchplattform auf Data Catalog festgelegt ist, wählen Sie im Suchplattform auswählen-Menü die Option Dataplex Universal Catalog aus.

  3. Geben Sie im Feld Suchen total_green_trips_22_21 ein und klicken Sie auf Suchen.

  4. Klicken Sie in der Ergebnisliste auf total_green_trips_22_21. Dadurch wird der Tab Details der BigQuery-Tabelle angezeigt.

  5. Klicken Sie auf den Tab Herkunft.

Die Tabelle „total_green_trips_22_21“ mit dem Detailbereich, der unten angedockt ist.
Abbildung 1 Datenherkunft mit Knotendetails

Im Herkunftsdiagramm stellt jeder rechteckige Knoten eine Tabelle dar, entweder eine Original-, eine kopierte oder eine kombinierte Tabelle. In diesem Fall können Sie folgende Aktionen ausführen:

  • Wenn Sie den Ursprung einer Tabelle ein- oder ausblenden möchten, klicken Sie auf + (Maximieren) oder - (Minimieren).

  • Klicken Sie auf einen Knoten, um Tabelleninformationen aufzurufen. Dadurch wird der Bereich Details des Knotens angezeigt.

  • Klicken Sie auf „ Details zum Herkunftsprozess ansehen“, um Prozessinformationen aufzurufen. Dadurch wird der Bereich Details des Prozesses angezeigt, in dem der Job zu sehen ist, der eine Quelltabelle in eine Zieltabelle transformiert hat.

Die Zwischentabelle „nyc_green_trips_2021“ mit dem Detailbereich, der unten angedockt ist.
Abbildung 2 Datenherkunft mit Prozessdetails

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:

Projekt löschen

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Dataset löschen

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Bereich auf Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

  3. Suchen Sie im Bereich Explorer nach dem von Ihnen erstellten Dataset data_lineage_demo.

  4. Klicken Sie auf das Dataset und dann auf Löschen.

  5. Bestätigen Sie den Löschvorgang.

Nächste Schritte