Auf dieser Seite wird beschrieben, wie Sie die von Ihren Cloud Data Fusion-Pipelines generierte Data Lineage – zusammen mit anderen Datenverschiebungen in Google Cloudfür Suchanfragen und Governance-Zwecke – ansehen. Sie können die Herkunftsgraphen für unterstützte Datenquellen auf der Seite „Knowledge Catalog“ in der Konsole ansehen oder die Data Lineage API verwenden, um vollständige Datensatzdatensätze abzurufen.
Plug-ins, die die Knowledge Catalog-Datenherkunft unterstützen
Cloud Data Fusion und Knowledge Catalog unterstützen die Datenherkunft auf Asset-Ebene für die folgenden Plug-ins:
- Amazon S3
- BigQuery
- BigQuery-Multitabellensenke (Version 6.9.1 und höher)
- Spanner
- Cloud Storage
- Cloud SQL for MySQL
- Cloud SQL for PostgreSQL
- Knowledge Catalog
- FTP
- Generische Datenbank
- HTTP
- MSSQL/SQL Server
- Quelle „Mehrere Datenbanktabellen“ (Version 6.9.1 und höher)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- SAP-Tabelle
Weitere Informationen finden Sie unter Cloud Data Fusion-Plug-ins.
Hinweis
So aktivieren Sie die Anzeige von Cloud Data Fusion-Herkunftsdiagrammen auf der Seite „Knowledge Catalog“ in der Console:
Datenpipeline erstellen, die nur die unterstützten Plug-ins verwendet.
Aktivieren Sie die Data Lineage API in dem Projekt, das Ihre Cloud Data Fusion-Instanz enthält.
Weisen Sie dem von Cloud Data Fusion verwalteten Dienstkonto, dem Cloud Data Fusion API Service Agent, die Rolle „Data Lineage Events Producer“ (
roles/datalineage.producer) zu. Der Vorgang variiert, wenn Ihre Instanz in einer früheren Version von Cloud Data Fusion ausgeführt wird und RBAC aktiviert ist.6.10 oder höher oder kein RBAC
Wenn Ihre Cloud Data Fusion-Instanz Version 6.10.0 oder höher verwendet oder Ihre Instanz eine frühere Version verwendet und RBAC nicht aktiviert ist, führen Sie die folgenden Schritte aus:
Rufen Sie in der Google Cloud Console die Seite IAM auf.
Klicken Sie auf das Kästchen Von Google bereitgestellte Rollenzuweisungen einschließen.
Wählen Sie das Dienstkonto „Cloud Data Fusion API Service Agent“ aus und klicken Sie auf Bearbeiten.
Klicken Sie auf Weitere Rolle hinzufügen und wählen Sie die Rolle Data Lineage Events Producer aus.
Klicken Sie auf Speichern.
<6.10 mit RBAC
Wenn für Ihre Cloud Data Fusion-Instanz eine Version vor 6.10.0 verwendet wird und RBAC aktiviert ist, wird das Dienstkonto nicht in der Liste der Principals auf der IAM-Seite angezeigt. Sie müssen den Namen des Dienstkontos manuell eingeben.
So weisen Sie die erforderliche Rolle zu:
Rufen Sie in der Google Cloud Console die Seite IAM auf.
Klicken Sie auf Zugriff erlauben.
Geben Sie im Feld Neue Hauptkonten das Dienstkonto des Cloud Data Fusion API-Dienst-Agents ein. Verwenden Sie das folgende Format:
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.Ersetzen Sie
TENANT_PROJECT_IDdurch die Mandanten-ID für Ihre Instanz. Die Mandantenprojekt-ID finden Sie auf der Seite Instanzen. Klicken Sie dort auf den Instanznamen, um die Instanzdetails aufzurufen.Wählen Sie die Rolle Data Lineage Events Producer aus.
Klicken Sie auf Speichern.
Knowledge Catalog-Datenherkunft in Cloud Data Fusion aktivieren
Bei neuen Instanzen in Cloud Data Fusion ist der Datenursprung von Knowledge Catalog standardmäßig deaktiviert. Wenn Sie die Instanz vor dem 27. Januar 2024 mit Version 6.8.0 oder höher erstellt haben, ist sie nach Abschluss der Schritte unter Vorbereitung standardmäßig aktiviert.
Knowledge Catalog-Datenherkunft beim Erstellen einer Instanz aktivieren
Console
So aktivieren Sie die Knowledge Catalog-Datenherkunft beim Erstellen einer Instanz:
Rufen Sie die Seite Cloud Data Fusion-Instanzen auf und klicken Sie auf Instanz erstellen.
Maximieren Sie beim Konfigurieren der Instanz den Bereich Erweiterte Optionen und klicken Sie auf Einbindung von Dataplex Data Lineage aktivieren. Weitere Informationen zum Erstellen von Instanzen finden Sie unter Öffentliche Instanz erstellen.
REST API
Wenn Sie die Knowledge Catalog-Datenherkunft beim Erstellen einer Instanz aktivieren möchten, legen Sie die optionale Eigenschaft dataplex_data_lineage_integration_enabled auf true fest:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
Wenn Sie die Funktion deaktivieren möchten, legen Sie das Attribut auf „false“ fest oder lassen Sie es weg, da die Herkunft standardmäßig deaktiviert ist, wenn Sie eine neue Instanz erstellen.
Knowledge Catalog-Datenherkunft in einer vorhandenen Instanz aktivieren oder deaktivieren
Console
So aktivieren oder deaktivieren Sie die Knowledge Catalog-Datenherkunft in einer vorhandenen Instanz in Cloud Data Fusion:
- Rufen Sie die Instanzdetails auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Klicken Sie auf Instanzen und dann auf den Namen der Instanz, um die Seite Instanzdetails aufzurufen.
- Klicken Sie im Feld Dataplex Data Lineage-Integration auf Bearbeiten.
- Aktivieren oder deaktivieren Sie die Knowledge Catalog-Datenherkunft und klicken Sie dann auf Speichern.
REST API
Wenn Sie die Datenherkunft von Knowledge Catalog in einer vorhandenen Instanz in Cloud Data Fusion aktivieren möchten, legen Sie die Eigenschaft dataplex_data_lineage_integration_enabled auf true fest und fügen Sie den Parameterwert updateMask ein:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Wenn Sie die Knowledge Catalog-Datenherkunft in einer vorhandenen Instanz in Cloud Data Fusion deaktivieren möchten, legen Sie die Eigenschaft dataplex_data_lineage_integration_enabled auf false fest und fügen Sie den Parameterwert updateMask ein:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Herkunftsdiagramme ansehen
So rufen Sie Lineage-Diagramme für Entitäten in allen Google Cloud -Diensten auf:
Rufen Sie Ihre Instanz in Cloud Data Fusion auf und führen Sie eine Datenpipeline aus, in der unterstützte Plug-ins verwendet werden.
Rufen Sie die Herkunftsgrafiken auf der Seite „Knowledge Catalog“ in der Console auf und suchen Sie das Asset, für das Sie Herkunftsinformationen ansehen möchten.
Beschränkungen
Für die Anzeige von Lineage im Knowledge Catalog gelten die folgenden Einschränkungen:
Die Datenherkunft im Knowledge Catalog ist nur sichtbar, wenn eine BigQuery-Entität mit den unterstützten Plug-ins verbunden ist. Weitere Informationen dazu, wann Datenherkunftsgrafiken verfügbar sind, finden Sie unter Datenherkunft.
Die Data Lineage API unterstützt keine kundenverwalteten Verschlüsselungsschlüssel (CMEK).
Cloud Data Fusion unterstützt dieses Feature nicht an den Standorten
me-central1odereurope-west12.