Data Lineage

Die Datenherkunft ist eine visuelle Karte, die den gesamten Lebenszyklus Ihrer Daten nachvollzieht. Sie sehen, woher Ihre Daten stammen (der Ursprung), wohin sie übertragen werden (die Ziele) und welche Änderungen oder Transformationen auf dem Weg dorthin erfolgen.

Sie können diese vollständige Karte des Datenflusses direkt in derGoogle Cloud -Konsole für Assets ansehen, die in Produkten wie Dataplex Universal Catalog, BigQuery und Vertex AI erstellt wurden. Erfahrene Nutzer können diese Informationen auch über die Data Lineage API abrufen.

Warum Sie die Datenherkunft benötigen

Moderne Unternehmen verschieben und ändern ständig große Datenmengen. Beispielsweise werden Rohdaten zu Kundenkäufen in Berichte, Dashboards und Modelle für maschinelles Lernen umgewandelt. Diese Komplexität stellt Ihr Team vor große Herausforderungen:

Vertrauen und Überprüfung: Daten werden oft von Nutzern verwendet, die Schwierigkeiten haben, zu bestätigen, dass die Berichte und Zahlen, die sie sehen, korrekt sind und aus einer vertrauenswürdigen Quelle stammen.
Fehlerbehebung: Wenn in einem Abschlussbericht ein Fehler auftritt, kann es für Datenteams schwierig und zeitaufwendig sein, das Problem in jedem Schritt bis zur Ursache zurückzuverfolgen.
Änderungsmanagement: Bevor ein Datenelement (z. B. eine Spalte in einer Tabelle) geändert oder gelöscht wird, müssen Teams jeden einzelnen nachgelagerten Bericht oder jedes nachgelagerte Modell kennen, das darauf basiert, um zu vermeiden, dass kritische Systeme beschädigt werden.
Compliance: Führungskräfte müssen wissen, wie sensible Daten (z. B. Kunden- oder Finanzinformationen) in der gesamten Organisation verwendet werden, um behördliche Anforderungen zu erfüllen.

Die Datenherkunft löst diese Probleme, indem sie einen klaren, visuellen und dokumentierten Weg Ihrer Daten bietet. So können Sie Datenquellen schnell nachvollziehen, Fehler nachverfolgen, die Auswirkungen von Änderungen bewerten und die Compliance aufrechterhalten.

Workflow zur Datenherkunft

Der Workflow für den Datenursprung umfasst die folgenden Schritte:

Datenquellen und Aufnahme: Die Herkunftsinformationen aus Ihren Datenquellen sind der Ausgangspunkt für den gesamten Prozess. Weitere Informationen finden Sie unter Lineage-Quellen.
- Google Cloud Dienste: Wenn die Data Lineage API aktiviert ist, melden unterstützte Dienste wie BigQuery und Dataflow automatisch Herkunftsereignisse, wenn Daten verschoben oder transformiert werden.
- Benutzerdefinierte Quellen: Für alle Systeme, die nicht automatisch vonGoogle Cloud -Integrationen unterstützt werden, können Sie die Data Lineage API verwenden, um Informationen zur Datenherkunft manuell aufzuzeichnen. Wir empfehlen, Ereignisse zu importieren, die gemäß dem OpenLineage-Standard formatiert sind.
Lineage-Plattform: Auf dieser zentralen Plattform werden alle Herkunftsdaten aufgenommen, modelliert und gespeichert. Weitere Informationen finden Sie unter Modell und Granularität von Lineage-Informationen.
- Data Lineage API: Diese API fungiert als einziger Einstiegspunkt für alle eingehenden Informationen zur Herkunft von Daten. Dabei wird ein hierarchisches Datenmodell mit drei Kernkonzepten verwendet: Prozess, Ausführung und Ereignis.
- Verarbeitung und Speicherung: Die Plattform verarbeitet eingehende Daten und speichert sie in zuverlässigen, abfrageoptimierten Datenbanken.
Nutzerfreundlichkeit: Sie können auf zwei Arten mit den gespeicherten Informationen zur Datenherkunft interagieren:
- Visuelle Analyse: In der Google Cloud Console ruft ein Frontend-Dienst die Lineage-Daten ab und rendert sie als interaktives Diagramm oder als interaktive Liste. Dies wird für Dataplex Universal Catalog, BigQuery und Vertex AI (für Modelle, Datasets, Feature Store-Ansichten und Feature-Gruppen) unterstützt. Das ist ideal, um den Weg Ihrer Daten visuell nachzuvollziehen. Weitere Informationen finden Sie unter Lineage-Ansichten in der Google Cloud Console.
- Programmatischer Zugriff: Mit einem API-Client können Sie direkt mit der Data Lineage API kommunizieren, um die Verwaltung der Datenherkunft zu automatisieren. So können Sie Herkunftsinformationen aus benutzerdefinierten Quellen schreiben. Außerdem können Sie die gespeicherten Lineage-Daten lesen und abfragen, um sie in anderen Anwendungen zu verwenden oder benutzerdefinierte Berichte zu erstellen.

Lineage-Quellen

Sie können Informationen zur Datenherkunft in Dataplex Universal Catalog auf folgende Weise einfügen:

Automatisch aus integrierten Google Cloud Diensten
Manuell über die Data Lineage API für benutzerdefinierte Quellen
Ereignisse aus OpenLineage importieren

BigQuery

Wenn Sie die Herkunft der Daten in Ihrem BigQuery-Projekt aktivieren, zeichnet Dataplex Universal Catalog automatisch die Herkunftsinformationen für Folgendes auf:

Neue Tabellen, die durch die folgenden BigQuery-Jobs erstellt wurden:
- Kopierjobs
- Ladejobs, für die ein Cloud Storage-URI verwendet wird
- Abfragejobs, die die folgende DDL-Anweisung (Data Definition Language) in GoogleSQL verwenden:
  - CREATE TABLE
  - CREATE TABLE AS SELECT
  - CREATE TABLE COPY
  - CREATE TABLE CLONE
  - CREATE TABLE FUNCTION
  - CREATE TABLE LIKE
  - CREATE VIEW
  - CREATE MATERIALIZED VIEW
Vorhandene Tabellen, wenn Sie die folgenden DML-Anweisungen (Data Manipulation Language) in GoogleSQL verwenden:
- SELECT in Bezug auf einen der aufgeführten Tabellentypen:
- INSERT SELECT
- MERGE
- UPDATE
- DELETE

BigQuery-Kopier-, ‑Abfrage- und ‑Ladejobs werden als Prozesse dargestellt.

Wenn Sie die Prozessdetails aufrufen möchten, klicken Sie im Herkunftsdiagramm auf das Symbol Prozessdetails .

Jeder Prozess enthält die BigQuery-job_id in der Liste attributes für den letzten BigQuery-Job.

Weitere Dienste

Die Datenherkunft unterstützt die Integration mit den folgendenGoogle Cloud -Diensten:

Datenherkunft für benutzerdefinierte Datenquellen

Mit der Data Lineage API können Sie Lineage-Informationen für jede Datenquelle manuell aufzeichnen, die von integrierten Systemen nicht unterstützt wird.

Dataplex Universal Catalog kann Herkunftsgraphen für manuell aufgezeichnete Herkunft erstellen, wenn Sie eine fullyQualifiedName verwenden, die mit den vollständig qualifizierten Namen vorhandener Dataplex Universal Catalog-Einträge übereinstimmt. Wenn Sie den Datenursprung für eine benutzerdefinierte Datenquelle aufzeichnen möchten, müssen Sie zuerst einen benutzerdefinierten Eintrag erstellen.

Jeder Prozess für eine benutzerdefinierte Datenquelle kann in der Attributliste einen sql-Schlüssel enthalten. Der Wert dieses Schlüssels wird verwendet, um eine Codehervorhebung im Detailbereich des Datenherkunftsgraphen zu rendern. Die SQL-Anweisung wird so angezeigt, wie sie angegeben wurde. Sie sind dafür verantwortlich, sensible Informationen herauszufiltern. Beim Schlüsselnamen sql wird zwischen Groß- und Kleinschreibung unterschieden.

OpenLineage

Wenn Sie OpenLineage bereits verwenden, um Informationen zur Datenherkunft aus anderen Datenquellen zu erfassen, können Sie OpenLineage-Ereignisse in Dataplex Universal Catalog importieren und in der Google Cloud -Konsole ansehen. Weitere Informationen finden Sie unter Mit OpenLineage integrieren.

Automatisierte Nachverfolgung der Datenherkunft

Wenn Sie die Data Lineage API aktivieren, Google Cloud beginnen Systeme, die die Datenherkunft unterstützen, mit der Meldung ihrer Datenbewegungen. Jedes integrierte System kann Herkunftsinformationen für einen anderen Bereich von Datenquellen senden.

Aufnahme von Lineage steuern

Sie können festlegen, für welche Google Cloud Dienste Lineage-Daten generiert werden, indem Sie die Aufnahme von Lineage-Daten für bestimmte Integrationen aktivieren oder deaktivieren. Sie können die Aufnahme von Lineage-Informationen auf Organisations-, Ordner- und Projektebene steuern. Während der Vorschauphase wird mit dieser Funktion nur die Konfiguration der Lineage-Erfassung für Dataproc unterstützt. Wenn Sie die Erfassung von Lineage-Daten für Dataproc deaktivieren, wird sie auch für Dataproc Serverless für Apache Spark deaktiviert.

Dataplex Universal Catalog wertet die Ressourcenhierarchie (Projekt, dann Ordner, dann Organisation) aus, um die effektive Konfiguration zu ermitteln. Die erste Konfiguration, die auf einer beliebigen Ebene in diesem Aufwärtslauf explizit festgelegt wird, wird angewendet.

Wenn Sie eine Konfiguration auf Projektebene festlegen, wird sie von Dataplex Universal Catalog verwendet.
Wenn auf Projektebene keine Konfiguration festgelegt ist, verwendet Dataplex Universal Catalog die Konfiguration des nächstgelegenen übergeordneten Ordners mit einer expliziten Konfiguration.
Wenn keine Konfiguration auf Projekt- oder Ordnerebene festgelegt ist, wird die Konfiguration auf Organisationsebene verwendet.
Wenn auf keiner dieser Ebenen eine Konfiguration festgelegt ist, verwendet Dataplex Universal Catalog den Systemstandard für die Integration. Die Standardeinstellung für die Konfiguration der Lineage-Aktivierung kann Aktiviert oder Deaktiviert sein. Bei Dataproc ist die Erfassung von Herkunftsdaten standardmäßig aktiviert, wenn die Data Lineage API aktiv ist.

Angenommen, Sie haben eine Organisation test-org mit den folgenden Dataproc-Abstammungskonfigurationen:

Organisation test-org: Aktiviert
- Ordner folder-a: Deaktiviert
  - Projekt project-a: Keine Konfiguration festgelegt
- Ordner folder-b: Aktiviert
  - Projekt project-b: Deaktiviert

In diesem Szenario gelten die folgenden Einstellungen:

Für project-a ist die Aufnahme von Lineage-Informationen Deaktiviert. Dataplex Universal Catalog beginnt mit der Auswertung von project-a, findet keine Konfiguration, wechselt zu folder-a und wendet die Konfiguration Deaktiviert aus folder-a an.
Für project-b ist die Aufnahme von Lineage-Informationen Deaktiviert. Dataplex Universal Catalog beginnt mit der Auswertung ab project-b und wendet die Deaktiviert-Konfiguration an, wodurch die Einstellungen unter folder-b und test-org überschrieben werden.

Wenn Sie die Generierung von Lineage-Daten steuern, können Sie Kosten und Governance-Richtlinien besser verwalten. Sie können beispielsweise die Erfassung von Lineage-Informationen für Entwicklungsprojekte oder Arbeitslasten mit hohem Volumen deaktivieren, für die kein Lineage-Tracking erforderlich ist.

Informationen zum Konfigurieren und Steuern der Lineage-Erfassung finden Sie unter Lineage-Erfassung für einen Dienst steuern.

Beschränkungen

Für den Datenursprung gelten die folgenden Einschränkungen:

Alle Informationen zur Herkunft werden nur 30 Tage lang im System aufbewahrt.
Die Informationen zur Datenherkunft bleiben erhalten, nachdem Sie die zugehörige Datenquelle gelöscht haben. Wenn Sie beispielsweise eine BigQuery-Tabelle löschen, können Sie ihre Herkunft über die API und die Console noch bis zu 30 Tage lang aufrufen.
Bei der Datenherkunft werden keine direkten Herkunftsinformationen für BigQuery-Routinen automatisch aufgezeichnet. Wenn eine Routine in einer Abfrage verwendet wird, werden in den Datengenealogie-Aufzeichnungen Genealogiebeziehungen zwischen den Tabellen, aus denen die Routine Daten liest, als Abhängigkeiten von Tabellen, in die die Abfrage Daten schreibt, erfasst.

Einschränkungen der Herkunft auf Spaltenebene

Für den Spaltenursprung gelten die folgenden zusätzlichen Einschränkungen:

Die Herkunft auf Spaltenebene wird nicht für BigQuery-Ladejobs oder für Routinen erfasst.
Die Upstream-Lineage auf Spaltenebene wird für externe Tabellen nicht erfasst.
Die Herkunft auf Spaltenebene wird nicht erfasst,wenn in einem Job mehr als 1.500 Links auf Spaltenebene erstellt werden. In diesen Fällen wird nur der Datenfluss auf Tabellenebene erfasst.
Es gibt keine API zum Erstellen, Lesen, Aktualisieren, Löschen oder Suchen von Herkunft auf Spaltenebene.
Die Unterstützung für partitionierte Tabellen ist eingeschränkt, da Partitionierungsspalten wie _PARTITIONDATE und _PARTITIONTIME im Lineage-Diagramm nicht erkannt werden.
Einschränkungen der Konsole:
- Die Durchläufe des Herkunftsgraphen sind auf eine Tiefe von 20 Ebenen und 10.000 Links in jeder Richtung begrenzt.
- Die Herkunft auf Spaltenebene wird nur aus der Region abgerufen, in der sich die Stamm-Tabelle befindet. Die regionenübergreifende Herkunft wird in der Diagrammansicht nicht unterstützt.

Preise

In Dataplex Universal Catalog wird die Premium-Verarbeitungs-SKU für die Datenherkunft verwendet. Weitere Informationen finden Sie unter Preise.
Wenn Sie die Gebühren für die Datenherkunft von anderen Gebühren in der Dataplex Universal Catalog Premium-Verarbeitungs-SKU trennen möchten, verwenden Sie im Cloud-Abrechnungsbericht das Label goog-dataplex-workload-type mit dem Wert LINEAGE.
Wenn Sie die Data Lineage API Origin sourceType mit einem anderen Wert als CUSTOM aufrufen, fallen zusätzliche Kosten an.

Nächste Schritte

Datenherkunft für eine BigQuery-Tabellenkopie und Abfragejobs nachverfolgen
Informationen zur Verwendung der Datenherkunft mit Google Cloud -Systemen
Weitere Informationen zu Lineage-Ansichten in der Google Cloud Console
Data Lineage API
Administrativen Informationen finden Sie unter Überlegungen zur Herkunft und Audit-Logging zur Datenherkunft.