Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Datenabfolge in Dataflow verwenden

Die Datenherkunft ist eine Dataflow-Funktion, mit der Sie verfolgen können, wie sich Daten durch Ihre Systeme bewegen – woher sie kommen, wohin sie übergeben werden und welche Transformationen auf sie angewendet werden.

Jede Pipeline, die Sie mit Dataflow ausführen, hat mehrere zugehörige Daten-Assets. Die Herkunft eines Daten-Assets umfasst seine Quelle, was damit geschieht und wohin es im Laufe der Zeit verschoben wird. Mit der Datenherkunft können Sie die End-to-End-Bewegung Ihrer Daten-Assets von der Quelle bis zum endgültigen Ziel verfolgen.

Wenn Sie die Datenherkunft für Ihre Dataflow-Jobs aktivieren, erfasst Dataflow Herkunftsereignisse und veröffentlicht sie in der Knowledge Catalog Data Lineage API.

Informationen zum Zugriff auf Herkunftsinformationen über Knowledge Catalog finden Sie unter Datenherkunft mit Google Cloud Systemen verwenden.

Hinweis

So richten Sie Ihr Projekt ein:

Melden Sie sich in Ihrem Google Cloud Konto an. Wenn Sie noch kein Konto haben Google Cloud, erstellen Sie ein Konto, um zu testen, wie sich unsere Produkte in realen Szenarien schlagen. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

Verify that billing is enabled for your Google Cloud project.

Enable the Dataplex, BigQuery, and Data lineage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Verify that billing is enabled for your Google Cloud project.

Enable the Dataplex, BigQuery, and Data lineage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In Dataflow müssen Sie die Herkunft auch auf Jobebene aktivieren. Weitere Informationen finden Sie unter Datenherkunft in Dataflow aktivieren in diesem Dokument.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Diagrammen zur Herkunftsvisualisierung benötigen:

Dataplex Catalog-Betrachter (roles/dataplex.catalogViewer) für das Knowledge Catalog-Ressourcenprojekt
Data Lineage-Betrachter (roles/datalineage.viewer) für das Projekt, in dem Sie Dataflow verwenden
Dataflow-Betrachter (roles/dataflow.viewer) für das Projekt, in dem Sie Dataflow verwenden

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Weitere Informationen zu Rollen für die Datenherkunft finden Sie unter Vordefinierte Rollen für die Datenherkunft.

Unterstützung und Einschränkungen

Für die Datenherkunft in Dataflow gelten die folgenden Einschränkungen:

Die Datenherkunft wird in den Apache Beam SDK-Versionen 2.63.0 und höher unterstützt.
Sie müssen die Datenherkunft pro Job aktivieren.
Die Datenerfassung erfolgt nicht sofort. Es kann einige Minuten dauern, bis die Daten zur Herkunft von Dataflow-Jobs in Knowledge Catalog angezeigt werden.
Die folgenden Quellen und Senken werden unterstützt:
- Apache Kafka
- BigQuery (Streaming-Jobs in Python verwenden die Legacy STREAMING_INSERT -Methode, die die Datenherkunft nicht unterstützt. Wenn Sie die Datenherkunft verwenden möchten, wechseln Sie zu der empfohlenen STORAGE_WRITE_API Methode. Weitere Informationen finden Sie unter Aus Dataflow in BigQuery schreiben.)
- Bigtable
- Cloud Storage
- JDBC (Java Database Connectivity)
- Pub/Sub
- Spanner (Änderungsstream wird nicht unterstützt)
Dataflow-Vorlagen , die diese Quellen und Senken verwenden, erfassen und veröffentlichen auch automatisch Herkunftsereignisse.

Datenherkunft in Dataflow aktivieren

Sie müssen die Herkunft auf Jobebene aktivieren. Verwenden Sie die enable_lineage Dataflow-Dienstoption , um die Datenherkunft zu aktivieren:

Java

--dataflowServiceOptions=enable_lineage=true

Python

--dataflow_service_options=enable_lineage=true

Go

--dataflow_service_options=enable_lineage=true

gcloud

Verwenden Sie den gcloud dataflow jobs run Befehl mit der additional-experiments Option. Wenn Sie flexible Vorlagen verwenden, verwenden Sie den gcloud dataflow flex-template run Befehl.

--additional-experiments=enable_lineage=true

Optional können Sie einen oder beide der folgenden Parameter mit der Dienstoption angeben:

process_id: Eine eindeutige ID, die Knowledge Catalog verwendet, um Jobausführungen zu gruppieren. Wenn nicht angegeben, wird der Jobname verwendet.
process_name: Ein für Menschen lesbarer Name für den Datenherkunftsprozess. Wenn nicht angegeben, wird der Jobname mit dem Präfix "Dataflow " verwendet.

Geben Sie diese Optionen so an:

Java

--dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

Python

--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

Go

--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

gcloud

--additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

Herkunft in Knowledge Catalog ansehen

Die Datenherkunft enthält Informationen zu den Beziehungen zwischen Ihren Projektressourcen und den Prozessen, mit denen sie erstellt wurden. Sie können Informationen zur Datenherkunft in der Google Cloud Konsole in Form eines Diagramms oder einer einzelnen Tabelle ansehen. Sie können Informationen zur Datenherkunft auch in Form von JSON-Daten aus der Data Lineage API abrufen.

Weitere Informationen finden Sie unter Datenherkunft mit Google Cloud Systemen verwenden.

Datenherkunft in Dataflow deaktivieren

Wenn die Datenherkunft für einen bestimmten Job aktiviert ist und Sie sie deaktivieren möchten, brechen Sie den vorhandenen Job ab und führen Sie eine neue Version des Jobs ohne die Dienstoption enable_lineage aus.

Abrechnung

Die Verwendung der Datenherkunft in Dataflow hat keine Auswirkungen auf Ihre Dataflow-Rechnung, kann aber zu zusätzlichen Kosten auf Ihrer Knowledge Catalog-Rechnung führen. Weitere Informationen finden Sie unter Überlegungen zur Datenherkunft und Knowledge Catalog-Preise.

Nächste Schritte

Weitere Informationen zur Datenherkunft.
Informationen zur Verwendung der Datenherkunft

Datenabfolge in Dataflow verwenden Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hinweis

Erforderliche Rollen

Unterstützung und Einschränkungen

Datenherkunft in Dataflow aktivieren

Java

Python

Go

gcloud

Java

Python

Go

gcloud

Herkunft in Knowledge Catalog ansehen

Datenherkunft in Dataflow deaktivieren

Abrechnung

Nächste Schritte

Datenabfolge in Dataflow verwenden