Überlegungen zur Datenherkunft

In diesem Dokument finden Sie Informationen zur Compliance und zu den Einschränkungen der Datenherkunft. Die Datenherkunft wird pro Projekt und nicht pro System aktiviert. Das bedeutet, dass nach der Aktivierung der Data Lineage API Herkunftsinformationen automatisch für mehrere Systeme im Projekt gemeldet werden können, je nach der Herkunftssteuerung auf Produktebene des jeweiligen Systems.

Die automatische Herkunftsverfolgung wird für die folgenden Systeme unterstützt:

Herkunftssteuerung auf Produktebene in Google Cloud unterstützten Systemen
System Verfügbare Herkunftssteuerungen
BigQuery,
Cloud Data Fusion
Es gibt keine Konfigurationsmöglichkeit, die Herkunftsverfolgung auf Cloud Data Fusion oder BigQuery zu beschränken, wenn die Data Lineage API in einem Projekt aktiviert ist.
Cloud Composer Cloud Composer verwendet die Steuerung der Datenherkunft auf Umgebungsebene Integration. Die Datenherkunft wird automatisch aktiviert für alle neuen Cloud Composer-Umgebungen, sofern sie die Anforderungen erfüllen. Weitere Informationen finden Sie unter Datenherkunft mit Knowledge Catalog (ehemals Dataplex Universal Catalog). Bei vorhandenen Umgebungen können Sie die Integration der Datenherkunft in den Umgebungseinstellungen aktivieren oder deaktivieren.
Dataflow Dataflow-Jobs können Herkunftsereignisse erfassen und an die Data Lineage API senden. Weitere Informationen finden Sie unter Datenherkunft in Dataflow verwenden.
Managed Service for Apache Spark Managed Service for Apache Spark-Spark-Jobs können Herkunftsereignisse erfassen und an die Data Lineage API senden. Weitere Informationen finden Sie unter Integration von Managed Service for Apache Spark in die Datenherkunft.
Looker (Google Cloud core) (Vorschau) Looker (Google Cloud core)-Metadaten aus BigQuery-Quellen können mithilfe der Datenherkunft visualisiert werden. Die Datenherkunft muss auf Ressourcenebene von Looker (Google Cloud core) und auf Dienstebene der Datenherkunft aktiviert sein. Weitere Informationen finden Sie unter Datenherkunft mit Knowledge Catalog verfolgen.
Vertex AI Die Datenherkunft wird automatisch für Vertex AI-Artefakte und -Parameter aktiviert, z. B. für Modelle, Datasets, Pipelinevorlagen und Komponenten. Die Herkunft einer Pipeline umfasst Faktoren, die zu ihrer Erstellung beigetragen haben, sowie Artefakte und Metadaten, die danach abgeleitet wurden. Weitere Informationen finden Sie unter Herkunft von Pipeline-Artefakten verfolgen.

Auswirkungen auf die Abrechnung

Wenn Sie die Data Lineage API für ein Projekt aktivieren, sollten Sie die Auswirkungen auf Ihre Abrechnungsgebühren prüfen, da die Data Lineage API pro Projekt aktiviert wird (weitere Informationen finden Sie im vorherigen Abschnitt). Weitere Informationen zur Abrechnung der Datenherkunft finden Sie unter Knowledge Catalog-Preise.

Bei BigQuery Omni wird die Herkunftsverarbeitung auf bestimmte Regionen verteilt. Die Kosten hängen von den Regionen ab, in denen die Verarbeitung erfolgt.

Compliance der Datenherkunft

  • In Datensätzen zur Datenherkunft werden Metadaten zur Datenbewegung erfasst, aber nicht die Daten selbst. Details zu den Feldern, die in den Metadaten enthalten sind, finden Sie im Informationsmodell zur Datenherkunft und in der Data Lineage API-Referenz.
  • Die Datenherkunft als Teil von Knowledge Catalog bietet VPC-SC-Support.
  • Knowledge Catalog bietet keine Möglichkeit, die erfassten Herkunftsmetadaten mit kundenverwalteten Verschlüsselungsschlüsseln zu schützen.

Einschränkungen der Datenherkunft

Wenn Sie einen Knoten im Herkunftsgraphen auswählen, ist der Seitenbereich mit den Knotendetails leer, wenn

  1. sich die Ressource in einer anderen Organisation befindet oder
  2. der Nutzer kein Mitglied der Organisation ist, die die Ressource hostet.