Die Datenherkunft ist eine Dataflow-Funktion, mit der Sie verfolgen können, wie sich Daten durch Ihre Systeme bewegen – woher sie kommen, wohin sie übergeben werden und welche Transformationen auf sie angewendet werden.
Jeder Pipeline, die Sie mit Dataflow ausführen, sind mehrere Daten-Assets zugeordnet. Die Herkunft einer Datenressource umfasst ihren Ursprung, was mit ihr geschieht und wohin sie sich im Laufe der Zeit bewegt. Mit der Datenherkunft können Sie die End-to-End-Bewegung Ihrer Datenressourcen vom Ursprung bis zum endgültigen Ziel nachvollziehen.
Wenn Sie die Datenherkunft für Ihre Dataflow-Jobs aktivieren, erfasst Dataflow Herkunftsereignisse und veröffentlicht sie in der Data Lineage API von Dataplex Universal Catalog.
Informationen zum Zugriff auf Informationen zur Datenherkunft über Dataplex Universal Catalog finden Sie unter Datenherkunft mit Google Cloud -Systemen verwenden.
Hinweis
So richten Sie Ihr Projekt ein:
- Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie mit Google Cloudnoch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, BigQuery, and Data lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, BigQuery, and Data lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
In Dataflow müssen Sie die Herkunft auch auf Jobebene aktivieren. Weitere Informationen finden Sie in diesem Dokument unter Data Lineage in Dataflow aktivieren.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Diagrammen zur Herkunftsvisualisierung benötigen:
-
Dataplex Catalog-Betrachter (
roles/dataplex.catalogViewer) für das Dataplex Universal Catalog-Ressourcenprojekt -
Data Lineage-Betrachter (
roles/datalineage.viewer) für das Projekt, in dem Sie Dataflow verwenden -
Dataflow-Betrachter (
roles/dataflow.viewer) für das Projekt, in dem Sie Dataflow verwenden
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Weitere Informationen zu Rollen für den Datenursprung finden Sie unter Vordefinierte Rollen für den Datenursprung.
Unterstützung und Einschränkungen
Für die Datenherkunft in Dataflow gelten die folgenden Einschränkungen:
- Die Datenherkunft wird in den Apache Beam SDK-Versionen 2.63.0 und höher unterstützt.
- Sie müssen die Datenherkunft pro Job aktivieren.
- Die Datenerfassung erfolgt nicht sofort. Es kann einige Minuten dauern, bis die Herkunftsdaten von Dataflow-Jobs im Dataplex Universal Catalog angezeigt werden.
Die folgenden Quellen und Senken werden unterstützt:
- Apache Kafka
- BigQuery: Streamingjobs in Python verwenden die Legacy-Methode
STREAMING_INSERT, die keine Datenherkunft unterstützt. Wenn Sie die Datenherkunft verwenden möchten, wechseln Sie zur empfohlenen MethodeSTORAGE_WRITE_API. Weitere Informationen finden Sie unter Aus Dataflow in BigQuery schreiben. - Bigtable
- Cloud Storage
- JDBC (Java Database Connectivity)
- Pub/Sub
- Spanner (Änderungsstream wird nicht unterstützt)
Bei Dataflow-Vorlagen, die diese Quellen und Senken verwenden, werden Herkunftsereignisse ebenfalls automatisch erfasst und veröffentlicht.
Data Lineage in Dataflow aktivieren
Sie müssen den Datenursprung auf Jobebene aktivieren. Verwenden Sie die enable_lineage-Dataflow-Dienstoption, um die Datenherkunft zu aktivieren:
Java
--dataflowServiceOptions=enable_lineage=true
Python
--dataflow_service_options=enable_lineage=true
Go
--dataflow_service_options=enable_lineage=true
gcloud
Führen Sie den Befehl gcloud dataflow jobs run mit der Option additional-experiments aus. Wenn Sie flexible Vorlagen verwenden, verwenden Sie den Befehl gcloud dataflow flex-template run.
--additional-experiments=enable_lineage=true
Optional können Sie einen oder beide der folgenden Parameter mit der Dienstoption angeben:
process_id: Eine eindeutige Kennung, die von Dataplex Universal Catalog zum Gruppieren von Jobläufen verwendet wird. Wenn keine Angabe erfolgt, wird der Jobname verwendet.process_name: Ein für Menschen lesbarer Name für den Datenherkunftsprozess. Wenn keine Angabe erfolgt, wird der Jobname mit dem Präfix"Dataflow "verwendet.
Geben Sie diese Optionen so an:
Java
--dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Python
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Go
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
gcloud
--additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Lineage in Dataplex Universal Catalog ansehen
Die Datenherkunft liefert Informationen zu den Beziehungen zwischen Ihren Projektressourcen und den Prozessen, mit denen sie erstellt wurden. Sie können Informationen zum Datenursprung in der Google Cloud -Console in Form eines Diagramms oder einer einzelnen Tabelle aufrufen. Sie können auch Datenherkunftsinformationen in Form von JSON-Daten über die Data Lineage API abrufen.
Weitere Informationen finden Sie unter Datenherkunft mit Google Cloud -Systemen verwenden.
Data Lineage in Dataflow deaktivieren
Wenn die Datenherkunft für einen bestimmten Job aktiviert ist und Sie sie deaktivieren möchten, brechen Sie den vorhandenen Job ab und führen Sie eine neue Version des Jobs ohne die Dienstoption enable_lineage aus.
Abrechnung
Die Verwendung von Datenherkunft in Dataflow hat keine Auswirkungen auf Ihre Dataflow-Rechnung, kann aber zusätzliche Gebühren auf Ihrer Dataplex Universal Catalog-Rechnung verursachen. Weitere Informationen finden Sie unter Überlegungen zur Datenherkunft und Dataplex Universal Catalog – Preise.