Überlegungen zur Datenherkunft

In diesem Dokument finden Sie Informationen zur Einhaltung der Datenherkunft und zu Einschränkungen. Die Datenherkunft wird pro Projekt und nicht pro System aktiviert. Das bedeutet, dass nach der Aktivierung der Data Lineage API Herkunftsinformationen für mehrere Systeme im Projekt automatisch gemeldet werden können, je nach Herkunftssteuerung auf Produktebene für jedes System.

Die automatische Herkunftsanalyse wird für die folgenden Systeme unterstützt:

Abstammungssteuerung auf Produktebene in Google Cloud unterstützten Systemen
System Verfügbare Lineage-Einstellungen
BigQuery,
Cloud Data Fusion
Wenn die Data Lineage API in einem Projekt aktiviert ist, kann die Lineage-Erfassung nicht auf Cloud Data Fusion oder BigQuery beschränkt werden.
Managed Service for Apache Airflow Managed Service for Apache Airflow verwendet die Integration der Datenherkunft auf Umgebungsebene. Die Datenherkunft ist für alle neuen Managed Service for Apache Airflow-Umgebungen automatisch aktiviert, sofern sie die Anforderungen erfüllen. Weitere Informationen finden Sie unter Datenherkunft mit Knowledge Catalog (ehemals Dataplex Universal Catalog). Bei vorhandenen Umgebungen können Sie die Integration der Datenherkunft in den Umgebungseinstellungen aktivieren oder deaktivieren.
Dataflow Dataflow-Jobs können Herkunftsereignisse erfassen und in der Data Lineage API veröffentlichen. Weitere Informationen finden Sie unter Data Lineage in Dataflow verwenden.
Managed Service for Apache Spark Mit Managed Service for Apache Spark-Spark-Jobs können Herkunftsereignisse erfasst und in der Data Lineage API veröffentlicht werden. Weitere Informationen finden Sie unter Data Lineage-Integration von Managed Service for Apache Spark.
Looker (Google Cloud Core) (Vorschau) Looker (Google Cloud Core)-Metadaten aus BigQuery-Quellen können mit der Datenherkunft visualisiert werden. Data Lineage muss auf der Ressourcenebene von Looker (Google Cloud Core) und auf der Ebene des Data Lineage-Dienstes aktiviert sein. Weitere Informationen finden Sie unter Datenherkunft mit Knowledge Catalog nachverfolgen.
Vertex AI Die Datenherkunft ist für Vertex AI-Artefakte und -Parameter wie Modelle, Datasets, Pipeline-Vorlagen und Komponenten automatisch aktiviert. Die Herkunft einer Pipeline umfasst Faktoren, die zu ihrer Erstellung beigetragen haben, sowie Artefakte und Metadaten, die danach abgeleitet wurden. Weitere Informationen finden Sie unter Herkunft von Pipeline-Artefakten verfolgen.

Auswirkungen auf die Abrechnung

Wenn Sie die Data Lineage API für ein Projekt aktivieren, sollten Sie sich die Auswirkungen auf Ihre Abrechnungsgebühren ansehen, da die Data Lineage API pro Projekt aktiviert wird (siehe vorheriger Abschnitt). Weitere Informationen zur Abrechnung der Datenherkunft finden Sie unter Knowledge Catalog-Preise.

Bei BigQuery Omni wird die Verarbeitung von Lineage-Daten auf bestimmte Regionen verteilt. Die Kosten hängen von den Regionen ab, in denen die Verarbeitung erfolgt.

Compliance mit der Datenherkunft

  • Data-Lineage-Datensätze enthalten Metadaten zur Datenübertragung, aber nicht die Daten selbst. Weitere Informationen dazu, welche Felder in den Metadaten enthalten sind, finden Sie im Informationsmodell zur Datenherkunft und in der API-Referenz zur Datenherkunft.
  • Die Datenherkunft als Teil von Knowledge Catalog bietet Unterstützung für VPC-SC.
  • Knowledge Catalog bietet nicht die Möglichkeit, kundenverwaltete Verschlüsselungsschlüssel zum Schutz der erfassten Lineage-Metadaten zu verwenden.

Einschränkungen bei der Datenherkunft

Wenn Sie einen Knoten im Lineage-Diagramm auswählen, ist die Seitenleiste mit den Knotendetails leer, wenn:

  1. Die Ressource befindet sich in einer anderen Organisation.
  2. Der Nutzer ist kein Mitglied der Organisation, die die Ressource hostet.