Überlegungen zur Datenherkunft

In diesem Dokument finden Sie Informationen zur Compliance und zu den Einschränkungen der Datenherkunft. Die Datenherkunft wird pro Projekt und nicht pro System aktiviert. Das bedeutet, dass nach der Aktivierung der Data Lineage API Herkunftsinformationen automatisch für mehrere Systeme im Projekt gemeldet werden können, je nach der Herkunftssteuerung auf Produktebene des jeweiligen Systems.

Die automatische Herkunftsverfolgung wird für die folgenden Systeme unterstützt:

Herkunftssteuerung auf Produktebene in Google Cloud unterstützten Systemen
System Verfügbare Herkunftssteuerung
BigQuery,
Cloud Data Fusion
Es gibt keine Konfigurationsmöglichkeit, die Herkunftsverfolgung auf Cloud Data Fusion oder BigQuery zu beschränken, wenn die Data Lineage API in einem Projekt aktiviert ist.
Cloud Composer Cloud Composer verwendet die Datenherkunft Integrationssteuerung auf Umgebungsebene. Die Datenherkunft wird automatisch aktiviert für alle neuen Cloud Composer-Umgebungen, sofern sie die Anforderungen erfüllen. Weitere Informationen finden Sie unter Datenherkunft mit Dataplex Universal Catalog. Bei vorhandenen Umgebungen können Sie die Datenherkunft-Integration in den Umgebungseinstellungen aktivieren oder deaktivieren.
Dataflow Dataflow-Jobs können Herkunftsereignisse erfassen und an die Data Lineage API senden. Weitere Informationen finden Sie unter Datenherkunft in Dataflow verwenden.
Managed Service for Apache Spark Managed Service for Apache Spark-Spark-Jobs können Herkunftsereignisse erfassen und an die Data Lineage API senden. Weitere Informationen finden Sie unter Datenherkunft-Integration für Managed Service for Apache Spark.
Looker (Google Cloud core) (Vorschau) Looker (Google Cloud core)-Metadaten aus BigQuery-Quellen können mithilfe der Datenherkunft visualisiert werden. Die Datenherkunft muss auf Ressourcenebene von Looker (Google Cloud core) und auf Dienstebene der Datenherkunft aktiviert sein. Weitere Informationen finden Sie unter Datenherkunft mit Dataplex Universal Catalog verfolgen.
Vertex AI Die Datenherkunft wird automatisch für Vertex AI-Artefakte und -Parameter aktiviert, z. B. für Modelle, Datasets, Pipelinevorlagen und Komponenten. Die Herkunft einer Pipeline umfasst Faktoren, die zu ihrer Erstellung beigetragen haben, sowie Artefakte und Metadaten, die danach abgeleitet wurden. Weitere Informationen finden Sie unter Herkunft von Pipeline-Artefakten verfolgen.

Auswirkungen auf die Abrechnung

Wenn Sie die Data Lineage API für ein Projekt aktivieren, sollten Sie die Auswirkungen auf Ihre Abrechnungsgebühren prüfen, da die Data Lineage API pro Projekt aktiviert wird (siehe vorheriger Abschnitt). Weitere Informationen zur Abrechnung der Datenherkunft finden Sie unter Preise für Dataplex Universal Catalog.

Bei BigQuery Omni wird die Herkunftsverarbeitung auf bestimmte Regionen verteilt. Die Kosten hängen von den Regionen ab, in denen die Verarbeitung erfolgt.

Compliance der Datenherkunft

  • In Datensätzen zur Datenherkunft werden Metadaten zur Datenbewegung erfasst, aber nicht die Daten selbst. Details zu den Feldern, die in den Metadaten enthalten sind, finden Sie unter Datenherkunft-Informationsmodell und Data Lineage API-Referenz.
  • Die Datenherkunft als Teil von Dataplex Universal Catalog bietet VPC Service Controls-Unterstützung.
  • Dataplex Universal Catalog bietet keine Möglichkeit, vom Kunden verwaltete Verschlüsselungsschlüssel zum Schutz der erfassten Herkunftsmetadaten zu verwenden.

Einschränkungen der Datenherkunft

Wenn Sie einen Knoten im Herkunftsgraphen auswählen, ist das Seitenfenster mit den Knotendetails leer, wenn:

  1. sich die Ressource in einer anderen Organisation befindet oder
  2. der Nutzer kein Mitglied der Organisation ist, die die Ressource hostet.