Visualisierung der Herkunft

Mit der Datenherkunft können Sie nachvollziehen, wie Daten durch Ihre Systeme fließen. Dazu werden die Beziehungen zwischen Datenassets und den Prozessen verfolgt, die sie transformieren. Sie können diese Informationen zur Herkunft als Diagramme und Listen in der Google Cloud Console ansehen.

In diesem Dokument finden Sie eine Übersicht über das Informationsmodell zur Datenherkunft, Details zum Detaillierungsgrad der Herkunft auf Tabellen- und Spaltenebene sowie eine Anleitung zur Verwendung von Diagramm- und Listenansichten, um die Datenherkunft zu untersuchen.

Informationsmodell zur Datenherkunft

Die Herkunft ist ein Datensatz, der die Transformation von Daten aus Quellen in Ziele dokumentiert. Die Data Lineage API erfasst diese Informationen und organisiert sie in einem hierarchischen Datenmodell, das die Konzepte von Prozessen, Ausführungen und Ereignissen verwendet.

  • Prozess: eine Definition der Datentransformation.
  • Ausführung: eine Ausführung eines Prozesses.
  • Ereignis: ein Datensatz der Datenbewegung während einer Ausführung.

Prozess

Ein Prozess ist die Definition eines Datentransformationsvorgangs für ein bestimmtes System. Für die BigQuery-Herkunft ist ein Prozess ein Job eines unterstützten Jobtyps. Alle Ausführungen derselben SQL-Abfrage sind mit einem einzelnen Prozess verknüpft. So können Sie jede Instanz nachverfolgen, in der eine bestimmte Transformationslogik verwendet wird.

Die folgende SQL-Abfrage ist beispielsweise ein Prozess. Mit dieser Abfrage wird eine Tabelle erstellt, indem die Gesamtzahl der Fahrten für jeden Anbieter aus zwei Quelltabellen gezählt wird.

  CREATE TABLE `dataplex-docs.data_lineage_demo.total_green_trips_22_21`
  AS
  SELECT
      vendor_id,
      COUNT(*) AS number_of_trips
  FROM
      (
          SELECT vendor_id
          FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2022`
          UNION ALL
          SELECT vendor_id
          FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2021`
      )
  GROUP BY
      vendor_id;

Das REST-Ressourcennameformat für einen Prozess ist projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID.

Beispiel: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6

Weitere Informationen zur Ressource process finden Sie in der Referenz zur Ressource „Process“.

Ausführung

Eine Ausführung ist eine einzelne Ausführung eines Prozesses. Prozesse können mehrere Ausführungen haben.

Jede Ausführung ist ein eindeutiger Vorgang, der durch eine startTime, eine endTime und einen Endstatus wie COMPLETED, FAILED oder ABORTED gekennzeichnet ist.

Wenn Sie beispielsweise die SQL-Abfrage aus dem Abschnitt „Prozess“ um 9:00 Uhr ausführen, wird eine bestimmte Ausführung erstellt. Wenn Sie dieselbe Abfrage um 10:00 Uhr noch einmal ausführen, wird eine neue, separate Ausführung erstellt. Beide Ausführungen sind mit demselben übergeordneten Prozess verknüpft.

Das REST-Ressourcennameformat für eine Ausführung zeigt, dass sie ein untergeordnetes Element eines Prozesses ist: projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID/runs/RUN_ID.

Beispiel: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6/runs/83dd03a51cd2ac80f465c9e267a950b1

Weitere Informationen zur Ressource run finden Sie in der Referenz zur Ressource „Run“.

Ereignis

Ein Ereignis stellt einen Zeitpunkt dar, an dem eine Datentransformation Daten zwischen einer Quell- und einer Zielentität verschiebt. Ein Ereignis ist ein detaillierter Datensatz einer bestimmten Datenbewegung, der Quell- und Zieltabellen für eine bestimmte Ausführung verbindet. Ein Ereignis kann auch mehrere Quellen und Ziele haben.

Wenn bei der Ausführung beispielsweise die im Abschnitt „ Prozess“ beschriebene SQL-Abfrage ausgeführt wird, wird in einem Herkunftsereignis aufgezeichnet, dass die nyc_green_trips_2021 und nyc_green_trips_2022 Quelltabellen verwendet werden, um die total_green_trips_22_21 Zieltabelle zu erstellen.

Ein Herkunftsereignis enthält eine Liste von Links , die Quelle und Ziel definieren. Ereignisse werden verwendet, um Herkunftsdiagramme zu erstellen. In der Google Cloud Console werden diese Herkunftsdiagramme zwar angezeigt, einzelne Ereignisse jedoch nicht direkt. Mit der Data Lineage API können Sie Ereignisse erstellen, lesen und löschen, aber nicht aktualisieren.

Jeder Link in einem Ereignis definiert einen einzelnen Pfad des Datenflusses von einer Quell- zu einer Zielentität. Eine Entität ist ein Verweis auf ein Datenasset, z. B. eine BigQuery-Tabelle, und wird durch ihren voll qualifizierten Namen (Fully Qualified Name, FQN)identifiziert. Ein einzelnes Ereignis kann mehrere Links enthalten. Das ist bei Vorgängen wie Tabellenverknüpfungen üblich, bei denen mehrere Quellen zu einem Ziel beitragen.

Weitere Informationen dazu, wie Ereignisse die Herkunft auf Spaltenebene unterstützen, finden Sie unter Herkunft auf Spaltenebene.

Detaillierungsgrad der Herkunft

Mit der Datenherkunft können Sie den Ursprung und den Transformationspfad Ihrer Daten sowohl auf Tabellen- als auch auf Spaltenebene nachverfolgen.

Herkunft auf Tabellenebene

Die Herkunft auf Tabellenebene bietet einen allgemeinen Überblick über Ihre Datenpipelines, indem die Beziehungen zwischen gesamten Tabellen dargestellt werden. Verwenden Sie die Herkunft auf Tabellenebene für Aufgaben auf Makroebene, z. B.:

  • Data Discovery : Ein Analyst, der ein neues Dashboard erstellt, kann die Herkunft auf Tabellenebene verwenden, um eine Zusammenfassungstabelle zu ihren Quellen zurückzuverfolgen und zu bestätigen, dass die Daten aus einer autoritativen Datenbank stammen.

  • Migrationsplanung : Ein Datenbankadministrator, der eine Migration einer Kerndatenbank plant, kann die Herkunft auf Tabellenebene verwenden, um alle nachgelagerten Berichte und Dashboards zu identifizieren, die davon abhängen.

  • Audit und Governance : Ein Data Governor kann die Herkunft auf Tabellen- und Spaltenebene verwenden, um zu prüfen, wie Daten aus einer Tabelle mit personenbezogenen Daten durch eine Pipeline fließen.

Herkunft auf Spaltenebene

Die Herkunft auf Spaltenebene bietet eine detailliertere Ansicht, indem der Datenfluss zwischen einzelnen Spalten nachverfolgt wird. In dieser Ansicht stellen die Links in einem Herkunftsereignis die Beziehung zwischen einer Quell- und einer Zielspalte dar. Jeder dieser Links auf Spaltenebene hat einen Abhängigkeitstyp, der die Transformation beschreibt:

  • Exact copy: Werte werden zwischen Spalten kopiert.

  • Other: andere Arten von Abhängigkeiten zwischen Spalten.

Verwenden Sie die Herkunft auf Spaltenebene für Aufgaben wie:

  • Ursachenanalyse : Wenn ein Data Analyst einen falschen Wert in einer Spalte findet, kann er die Herkunft auf Spaltenebene verwenden, um ihn zu den Quellspalten zurückzuverfolgen und die Ursache zu finden.

  • Wirkungsanalyse : Bevor ein Data Engineer eine Spalte einstellt, kann er die Herkunft auf Spaltenebene verwenden, um alle nachgelagerten Spalten zu finden, die davon abhängen.

  • Überprüfung der Datenquelle für Messwerte : Ein Data Analyst kann die Herkunft auf Spaltenebene verwenden, um zu ermitteln, welche Quellspalten zur Berechnung eines Messwerts verwendet werden, ohne eine komplexe SQL-Abfrage entschlüsseln zu müssen.

Die Herkunft auf Spaltenebene wird automatisch für die folgenden Arten von BigQuery-Jobs erfasst:

Herkunftsansichten in der Google Cloud Console

Mit der Datenherkunft in der Google Cloud Console können Sie auf zwei Arten mit Herkunftsinformationen interagieren: Sie können das Herkunftsdiagramm in mehreren verfügbaren Regionen untersuchen oder den Bereich Lineage Explorer verwenden, um eine gezieltere Ansicht in einer bestimmten Region zu erhalten. Sie können auch zwischen der Ansicht Diagramm und der Ansicht Liste wechseln, um den Datenfluss auf verschiedenen Detailebenen zu analysieren.

Herkunftsansichten sind nur für Knowledge Catalog-Einträge (ehemals Dataplex Universal Catalog), BigQuery-Assets und Vertex AI-Ressourcen (Modelle, Datasets, Feature Store-Ansichten und Featuregruppen) verfügbar.

Informationen zu den verschiedenen Ansichten, die auf dieser Seite beschrieben werden, finden Sie unter Datenherkunft mit Google Cloud Systemen verwenden.

Herkunftsdiagrammansicht

In der Ansicht Diagramm werden der Fluss und die Beziehungen von Datenassets in verschiedenen Systemen und Regionen visualisiert. So können Sie die Datenarchitektur besser verstehen, Ursprünge und Ziele nachverfolgen und Muster erkennen. Diese Herkunftsdiagramme, die vom Data Lineage API-Dienst für einen bestimmten Knowledge Catalog-Eintrag generiert werden, zeigen, wie Daten im Laufe der Zeit transformiert werden. Dabei werden Upstream-, Downstream- oder beide Flüsse aus einem ausgewählten Stammeintrag angezeigt.

Die Data Lineage API empfängt automatisch Asset-Informationen aus unterstützten Systemen und über API-Aufrufe für benutzerdefinierte Quellen.

Die wichtigsten Elemente im Diagramm werden so beschrieben:

  • Knoten : Stellen die Datenentitäten dar. In einer Ansicht auf Tabellenebene zeigt ein Knoten den Tabellennamen und seine Spalten. In einer Ansicht auf Spaltenebene stellt jeder Knoten eine bestimmte Tabelle und Spalte dar.

  • Edges : Die Linien, die Knoten verbinden und die Prozesse darstellen, die zwischen ihnen stattfinden. Das Aussehen einer Edge hängt von der Herkunftsansicht ab:

    • In der Ansicht auf Tabellenebene haben Edges Symbole, die Datentransformationen angeben.
    • In der Ansicht auf Spaltenebene haben Edges Labels, die Datentransformationen angeben. Ein Edge-Label kann beispielsweise Exact copy enthalten, um zu beschreiben, wie eine Quellspalte in eine Zielspalte kopiert wurde.
  • Prozesssymbole und -labels : Werden auf Edges angezeigt, um weitere Informationen zur Transformation zu liefern.

    • Symbole : Stellen den Transformationsprozess dar. Wenn Sie das Diagramm manuell untersuchen, stellen Symbole auf Edges das Quellsystem des Prozesses dar (z. B. BigQuery oder Vertex AI). Wenn mehrere Prozesse beteiligt sind, wird ein Symbol für mehrere Prozesse angezeigt. Wenn das Quellsystem des Prozesses unbekannt ist, wird ein Zahnradsymbol verwendet. Wenn Sie Filter anwenden, wird für alle Prozesse ein Zahnradsymbol verwendet.
    • Labels : In der Herkunftsansicht auf Spaltenebene beschreibt ein Label den Typ der Abhängigkeit zwischen Spalten: Exact copy oder Other.

Herkunftsdiagramm manuell untersuchen

Wenn Sie den Tab Herkunft öffnen, wird die Standardansicht Diagramm angezeigt. Die Standardansicht bietet einen allgemeinen Überblick über Systeme und Regionen hinweg. Das Diagramm kann manuell und inkrementell erweitert werden, wobei jeweils fünf Knoten geladen werden können. Prozesssymbole auf Edges stellen das Quellsystem dar oder geben an, dass mehrere Prozesse beteiligt sind.

Eine Standardansicht des Lineage-Diagramms mit verbundenen Daten-Assets.
Standardansicht des Herkunftsdiagramms

Filter für eine gezielte Herkunftsansicht anwenden

Wenn Sie Herkunftsdaten für eine gezielte Analyse in einer bestimmten Region filtern möchten, verwenden Sie den Bereich Lineage Explorer. Hier sind einige Kriterien, mit denen Sie zu einer gezielten Ansicht wechseln können:

  • Spaltenname: Filtern Sie die Herkunft nach Spaltenname, um Details auf Spaltenebene zu sehen.
  • Richtung: Zeigen Sie die Upstream- oder Downstream-Herkunft oder beides an.
  • Zeitraum: Filtern Sie die Herkunft nach einer bestimmten Start- oder Endzeit.
  • Abhängigkeitstyp: Filtern Sie die Herkunft auf Spaltenebene nach Abhängigkeitstyp. Verfügbare Optionen sind beispielsweise All oder Exact copy.
Der Bereich „Lineage Explorer“ mit Filtern für die Herkunft auf Spaltenebene, die Richtung und den Zeitraum.
Bereich „Lineage Explorer“

In der gezielten Ansicht wird das Diagramm automatisch auf bis zu drei Ebenen erweitert und alle Herkunftsdaten geladen, die den Filterkriterien entsprechen. Lineage Explorer ruft bis zu zehn Ebenen des Herkunftsdiagramms ab, aber standardmäßig werden nur die ersten drei Ebenen erweitert. Sie können das Diagramm erweitern, um die restlichen Ebenen zu sehen, indem Sie auf die Pfeile klicken.

Die gezielte Ansicht unterstützt sowohl die Herkunft auf Tabellen- als auch auf Spaltenebene, einschließlich der Pfadvisualisierung von jedem ausgewählten Knoten zurück zum Stamm. In dieser gezielten Ansicht wird für alle Prozesse ein allgemeines Zahnradsymbol verwendet.

Eine fokussierte Herkunftsdiagrammansicht mit gefilterten Daten-Assets.
Gezielte Ansicht des Herkunftsdiagramms auf Tabellenebene

Wenn Sie die Herkunft auf Spaltenebene ansehen möchten, haben Sie folgende Möglichkeiten:

  • Klicken Sie in einer gezielten Ansicht Diagramm auf das Spaltensymbol in einer Tabelle, um zur Herkunft auf Spaltenebene zu wechseln.

    Symbol zum Wechseln zur Herkunft auf Spaltenebene.
    Spaltensymbol
  • Wenden Sie in der Standardansicht Diagramm oder in der gezielten Ansicht Diagramm im Bereich Lineage Explorer einen Spaltennamen an.

Ein Lineage-Diagramm, das Beziehungen zwischen Tabellen auf Spaltenebene zeigt.
Ansicht der Herkunft auf Spaltenebene

Wenn Sie alle Filter entfernen und zur Standardansicht zurückkehren möchten, klicken Sie auf „Zurücksetzen“.

Knotendetails

Wenn Sie die Details eines Knotens sehen möchten, klicken Sie auf den Knoten. Eine Seitenleiste wird angezeigt und enthält detaillierte Informationen zum ausgewählten Datenasset. Wenn Sie beispielsweise in einer Herkunftsansicht auf Tabellenebene auf einen Knoten klicken, werden Informationen wie der voll qualifizierte Name, der Typ und andere relevante Attribute des Assets angezeigt.

Detailbereich für einen ausgewählten Knoten im Herkunftsdiagramm.
Knotendetails

Audit und Verlauf von Ausführungen

Ein vollständiges Herkunftsdiagramm ist das Ergebnis von Ausführungen aus vielen verschiedenen Jobs. Jeder Job erstellt einen bestimmten Link im Diagramm. Mehrere Ausführungen werden als neue Ausführungen protokolliert, ändern aber nicht das statische Aussehen des Diagramms.

Wenn Sie die Details dieser einzelnen Ausführungen sehen möchten, klicken Sie auf eine Edge mit einem Prozess im Diagramm. Klicken Sie im angezeigten Bereich Abfrage auf den Tab Ausführungen.

Das Feld „Abfrage“ mit den Tabs „Details“ und „Ausführungen“.
Bereich „Abfrage“

Transformationslogik prüfen

Wenn Sie die Geschäftslogik einer Transformation verstehen möchten, ohne nach dem Code zu suchen, können Sie die genaue SQL-Abfrage ansehen, die ausgeführt wurde. Klicken Sie dazu auf eine Edge mit einem Prozess im Diagramm. Klicken Sie in der angezeigten Seitenleiste auf den Tab Details.

Visualisierung des Herkunftspfads

Mit der Visualisierung des Herkunftspfads können Sie den Pfad von jedem ausgewählten Knoten im Diagramm zurück zum Stammeintrag nachverfolgen. Wenn Sie einen Knoten auswählen und auf Pfad visualisieren klicken, werden im Diagramm nur die Knoten und Prozesse hervorgehoben, die den direkten Herkunftspfad zum Stammeintrag bilden.

Wenn Sie die Visualisierung des Herkunftspfads sehen möchten, wenden Sie im Bereich Lineage Explorer einen Filter an, um eine gezielte Ansicht Diagramm zu erstellen. Wählen Sie dann in der gezielten Ansicht Diagramm einen Knoten aus. Klicken Sie im Detailbereich für den ausgewählten Knoten auf Pfad visualisieren.

Die Visualisierung des Herkunftspfads ist für die Herkunft auf Tabellen- und Spaltenebene verfügbar. Sie können die Visualisierung des Herkunftspfads auch in der Ansicht Liste verwenden.

Schaltfläche zum Visualisieren des Herkunftspfads in der Diagrammansicht für die Herkunft auf Spaltenebene.
Schaltfläche „Herkunftspfad visualisieren“ in der Herkunftsdiagrammansicht auf Spaltenebene

Herkunft in Listenansicht

Die Ansicht Liste bietet eine tabellarische, strukturierte Darstellung der Herkunft, die mit der Ansicht Diagramm synchronisiert ist. Sie erleichtert das Sortieren, Filtern und Herunterladen von Datenassets. Diese Ansicht eignet sich ideal für die Analyse von Beziehungen zwischen Quelle und Ziel, die detaillierte Beschreibung der beteiligten Assets und den Export von Herkunftsdaten.

Die Ansicht Liste ist sowohl für die Herkunft auf Tabellen- als auch auf Spaltenebene verfügbar. Sie können zwischen den folgenden detaillierten und vereinfachten Listenansichten wechseln.

  • Vereinfachte Listenansicht: Diese Ansicht ist nützlich, um eine komprimierte, eindeutige Liste aller Assets zu erhalten, die an der Herkunft beteiligt sind. In den Spalten wie System, Projekt, Entität, Voll qualifizierter Name (Fully Qualified Name, FQN), Richtung und Tiefe sehen Sie alle Datenassets in der Herkunft, ihren Speicherort, ihre ursprüngliche Quelle und ihre Entfernung vom analysierten zentralen Asset. Sie eignet sich ideal für einen allgemeinen Überblick über alle Entitäten, die am Datenfluss beteiligt sind. Das ist die Standardansicht.

  • Detaillierte Listenansicht: Diese Ansicht ist für die Analyse einzelner Beziehungen zwischen Quelle und Ziel konzipiert. Durch separate Spalten für Quelle und Ziel sehen Sie jeden spezifischen Link zur Datentransformation. Diese Ansicht eignet sich ideal für Aufgaben, die ein tiefes Verständnis dafür erfordern, wie Daten zwischen bestimmten Asset-Paaren verschoben werden, z. B. für das Audit einzelner Datenflüsse, das Verständnis von Abhängigkeiten zwischen Tabellen oder den Export detaillierter Herkunftsdatensätze für jede Verbindung.

Listenansicht der Herkunft auf Tabellenebene

In dieser Ansicht werden Beziehungen zwischen Tabellen als Ganzes dargestellt. Verwenden Sie die bereitgestellten Filter, um die gewünschten Spalten auszuwählen.

Eine Tabelle mit der vereinfachten Listenansicht der Herkunft auf Tabellenebene.
Vereinfachte Listenansicht auf Tabellenebene

Maximieren Sie die folgenden Abschnitte, um die Spalten zu sehen, die in den Listenansichten auf Tabellenebene verfügbar sind.

In der vereinfachten Listenansicht auf Tabellenebene verfügbare Spalten

  • System: Das System, in dem sich das Datenasset befindet. Beispiele: BigQuery.
  • Projekt: Die Google Cloud Projekt-ID, die das Datenasset enthält.
  • Entität: Der Name des Datenassets. Beispiele: ein Tabellenname.
  • FQN: Der FQN der ursprünglichen Quellentität oder -spalte.
  • Richtung: Gibt an, ob das aufgeführte Asset im Herkunftsfluss Upstream (Quelle) oder Downstream (Ziel) ist.
  • Tiefe: Die Anzahl der Herkunftsschritte vom analysierten zentralen Asset.

In der detaillierten Listenansicht auf Tabellenebene verfügbare Spalten

  • Quellsystem: Das System, in dem sich das Quelldatenasset befindet. Beispiele: BigQuery.
  • Quellprojekt: Die Google Cloud Projekt-ID, die das Quelldatenasset enthält.
  • Quelle: Der Name des Quelldatenassets. Beispiele: ein Tabellen name.
  • Voll qualifizierter Name der Quelle (Source FQN): Der FQN der Quellentität.
  • Zielsystem: Das System, in dem sich das Zieldatenasset befindet. Beispiele: BigQuery.
  • Zielprojekt: Die Google Cloud Projekt-ID, die das Zieldatenasset enthält.
  • Ziel: Der Name des Zieldatenassets. Beispiele: ein Tabellen name.
  • Voll qualifizierter Name des Ziels (Target FQN): Der FQN der Zielentität.
  • Richtung: Gibt an, ob das aufgeführte Asset im Herkunftsfluss Upstream (Quelle) oder Downstream (Ziel) ist.
  • Tiefe: Die Anzahl der Herkunftsschritte vom analysierten zentralen Asset.

Listenansicht der Herkunft auf Spaltenebene

In dieser Ansicht werden Beziehungen zwischen einzelnen Spalten in den Quell- und Zieltabellen dargestellt. Verwenden Sie die bereitgestellten Filter, um die gewünschten Spalten auszuwählen.

Eine Tabelle mit der vereinfachten Listenansicht der Herkunft auf Spaltenebene.
Vereinfachte Listenansicht auf Spaltenebene

Maximieren Sie die folgenden Abschnitte, um die Spalten zu sehen, die in den Listenansichten auf Spaltenebene verfügbar sind.

In der vereinfachten Listenansicht auf Spaltenebene verfügbare Spalten

  • System: Das System, in dem sich das Datenasset befindet. Beispiele: BigQuery.
  • Projekt: Die Google Cloud Projekt-ID, die das Datenasset enthält.
  • Entität: Der Name des Datenassets. Beispiele: ein Tabellenname.
  • Spalte: Die spezifische Spalte, die im Bereich Lineage Explorer in der Entität ausgewählt wurde.
  • FQN: Der FQN der ursprünglichen Quellentität oder -spalte.
  • Richtung: Gibt an, ob das aufgeführte Asset im Herkunftsfluss Upstream (Quelle) oder Downstream (Ziel) ist.
  • Tiefe: Die Anzahl der Herkunftsschritte vom analysierten zentralen Asset.

In der detaillierten Listenansicht auf Spaltenebene verfügbare Spalten

  • Quellsystem: Das System, in dem sich das Quelldatenasset befindet.
  • Quellprojekt: Die Google Cloud Projekt-ID, die das Quelldatenasset enthält.
  • Voll qualifizierter Name der Quelle (Source FQN): Der FQN der Quellspalte.
  • Zielsystem: Das System, in dem sich das Zieldatenasset befindet.
  • Zielprojekt: die Google Cloud Projekt-ID, die das Zieldatenasset enthält.
  • Voll qualifizierter Name des Ziels (Target FQN): Der FQN der Zielspalte.
  • Richtung: Gibt an, ob der Datenfluss Upstream oder Downstream ist.
  • Abhängigkeitstypen: Beschreibt die Art der Beziehung zwischen den Spalten.
  • Tiefe: Die Anzahl der Herkunftsschritte vom analysierten zentralen Asset.

Nächste Schritte