Die Datenherkunft ist eine Dataflow-Funktion, mit der Sie verfolgen können, wie sich Daten durch Ihre Systeme bewegen – woher sie kommen, wohin sie übergeben werden und welche Transformationen auf sie angewendet werden.
Jede Pipeline, die Sie mit Dataflow ausführen, hat mehrere zugehörige Daten-Assets. Die Herkunft eines Daten-Assets umfasst seine Quelle, was damit geschieht und wohin es im Laufe der Zeit verschoben wird. Mit der Datenherkunft können Sie die End-to-End-Bewegung Ihrer Daten-Assets von der Quelle bis zum endgültigen Ziel verfolgen.
Wenn Sie die Datenherkunft für Ihre Dataflow-Jobs aktivieren, erfasst Dataflow Herkunftsereignisse und veröffentlicht sie in der Knowledge Catalog Data Lineage API.
Informationen zum Zugriff auf Herkunftsinformationen über Knowledge Catalog finden Sie unter Datenherkunft mit Google Cloud Systemen verwenden.
Hinweis
So richten Sie Ihr Projekt ein:
- Melden Sie sich in Ihrem Google Cloud Konto an. Wenn Sie noch kein Konto haben Google Cloud, erstellen Sie ein Konto, um zu testen, wie sich unsere Produkte in realen Szenarien schlagen. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, BigQuery, and Data lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, BigQuery, and Data lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
In Dataflow müssen Sie die Herkunft auch auf Jobebene aktivieren. Weitere Informationen finden Sie unter Datenherkunft in Dataflow aktivieren in diesem Dokument.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Diagrammen zur Herkunftsvisualisierung benötigen:
- Dataplex Catalog-Betrachter (
roles/dataplex.catalogViewer) für das Knowledge Catalog-Ressourcenprojekt - Data Lineage-Betrachter (
roles/datalineage.viewer) für das Projekt, in dem Sie Dataflow verwenden - Dataflow-Betrachter (
roles/dataflow.viewer) für das Projekt, in dem Sie Dataflow verwenden
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Weitere Informationen zu Rollen für die Datenherkunft finden Sie unter Vordefinierte Rollen für die Datenherkunft.
Unterstützung und Einschränkungen
Für die Datenherkunft in Dataflow gelten die folgenden Einschränkungen:
- Die Datenherkunft wird in den Apache Beam SDK-Versionen 2.63.0 und höher unterstützt.
- Sie müssen die Datenherkunft pro Job aktivieren.
- Die Datenerfassung erfolgt nicht sofort. Es kann einige Minuten dauern, bis die Daten zur Herkunft von Dataflow-Jobs in Knowledge Catalog angezeigt werden.
Die folgenden Quellen und Senken werden unterstützt:
- Apache Kafka
- BigQuery (Streaming-Jobs in Python verwenden die Legacy
STREAMING_INSERT-Methode, die die Datenherkunft nicht unterstützt. Wenn Sie die Datenherkunft verwenden möchten, wechseln Sie zu der empfohlenenSTORAGE_WRITE_APIMethode. Weitere Informationen finden Sie unter Aus Dataflow in BigQuery schreiben.) - Bigtable
- Cloud Storage
- JDBC (Java Database Connectivity)
- Pub/Sub
- Spanner (Änderungsstream wird nicht unterstützt)
Dataflow-Vorlagen , die diese Quellen und Senken verwenden, erfassen und veröffentlichen auch automatisch Herkunftsereignisse.
Datenherkunft in Dataflow aktivieren
Sie müssen die Herkunft auf Jobebene aktivieren. Verwenden Sie die enable_lineage
Dataflow-Dienstoption
, um die Datenherkunft zu aktivieren:
Java
--dataflowServiceOptions=enable_lineage=true
Python
--dataflow_service_options=enable_lineage=true
Go
--dataflow_service_options=enable_lineage=true
gcloud
Verwenden Sie den
gcloud dataflow jobs run Befehl
mit der additional-experiments Option. Wenn Sie flexible Vorlagen verwenden, verwenden Sie
den
gcloud dataflow flex-template run
Befehl.
--additional-experiments=enable_lineage=true
Optional können Sie einen oder beide der folgenden Parameter mit der Dienstoption angeben:
process_id: Eine eindeutige ID, die Knowledge Catalog verwendet, um Jobausführungen zu gruppieren. Wenn nicht angegeben, wird der Jobname verwendet.process_name: Ein für Menschen lesbarer Name für den Datenherkunftsprozess. Wenn nicht angegeben, wird der Jobname mit dem Präfix"Dataflow "verwendet.
Geben Sie diese Optionen so an:
Java
--dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Python
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Go
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
gcloud
--additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Herkunft in Knowledge Catalog ansehen
Die Datenherkunft enthält Informationen zu den Beziehungen zwischen Ihren Projektressourcen und den Prozessen, mit denen sie erstellt wurden. Sie können Informationen zur Datenherkunft in der Google Cloud Konsole in Form eines Diagramms oder einer einzelnen Tabelle ansehen. Sie können Informationen zur Datenherkunft auch in Form von JSON-Daten aus der Data Lineage API abrufen.
Weitere Informationen finden Sie unter Datenherkunft mit Google Cloud Systemen verwenden.
Datenherkunft in Dataflow deaktivieren
Wenn die Datenherkunft für einen bestimmten Job aktiviert ist und Sie sie deaktivieren möchten, brechen Sie den vorhandenen Job ab und führen Sie eine neue Version des Jobs ohne die Dienstoption enable_lineage aus.
Abrechnung
Die Verwendung der Datenherkunft in Dataflow hat keine Auswirkungen auf Ihre Dataflow-Rechnung, kann aber zu zusätzlichen Kosten auf Ihrer Knowledge Catalog-Rechnung führen. Weitere Informationen finden Sie unter Überlegungen zur Datenherkunft und Knowledge Catalog-Preise.
Nächste Schritte
- Weitere Informationen zur Datenherkunft.
- Informationen zur Verwendung der Datenherkunft