Herkunft im Knowledge Catalog ansehen

Auf dieser Seite wird beschrieben, wie Sie die von Ihren Cloud Data Fusion-Pipelines generierte Data Lineage – zusammen mit anderen Datenverschiebungen in Google Cloudfür Suchanfragen und Governance-Zwecke – ansehen. Sie können die Herkunftsgraphen für unterstützte Datenquellen auf der Seite „Knowledge Catalog“ in der Konsole ansehen oder die Data Lineage API verwenden, um vollständige Datensatzdatensätze abzurufen.

Plug-ins, die die Knowledge Catalog-Datenherkunft unterstützen

Cloud Data Fusion und Knowledge Catalog unterstützen die Datenherkunft auf Asset-Ebene für die folgenden Plug-ins:

  • Amazon S3
  • BigQuery
  • BigQuery-Multitabellensenke (Version 6.9.1 und höher)
  • Spanner
  • Cloud Storage
  • Cloud SQL for MySQL
  • Cloud SQL for PostgreSQL
  • Knowledge Catalog
  • FTP
  • Generische Datenbank
  • HTTP
  • MSSQL/SQL Server
  • Quelle „Mehrere Datenbanktabellen“ (Version 6.9.1 und höher)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • SAP-Tabelle

Weitere Informationen finden Sie unter Cloud Data Fusion-Plug-ins.

Hinweis

So aktivieren Sie die Anzeige von Cloud Data Fusion-Herkunftsdiagrammen auf der Seite „Knowledge Catalog“ in der Console:

  1. Datenpipeline erstellen, die nur die unterstützten Plug-ins verwendet.

  2. Aktivieren Sie die Data Lineage API in dem Projekt, das Ihre Cloud Data Fusion-Instanz enthält.

  3. Weisen Sie dem von Cloud Data Fusion verwalteten Dienstkonto, dem Cloud Data Fusion API Service Agent, die Rolle „Data Lineage Events Producer“ (roles/datalineage.producer) zu. Der Vorgang variiert, wenn Ihre Instanz in einer früheren Version von Cloud Data Fusion ausgeführt wird und RBAC aktiviert ist.

    6.10 oder höher oder kein RBAC

    Wenn Ihre Cloud Data Fusion-Instanz Version 6.10.0 oder höher verwendet oder Ihre Instanz eine frühere Version verwendet und RBAC nicht aktiviert ist, führen Sie die folgenden Schritte aus:

    1. Rufen Sie in der Google Cloud Console die Seite IAM auf.

      IAM aufrufen

    2. Klicken Sie auf das Kästchen Von Google bereitgestellte Rollenzuweisungen einschließen.

    3. Wählen Sie das Dienstkonto „Cloud Data Fusion API Service Agent“ aus und klicken Sie auf  Bearbeiten.

    4. Klicken Sie auf Weitere Rolle hinzufügen und wählen Sie die Rolle Data Lineage Events Producer aus.

    5. Klicken Sie auf Speichern.

    <6.10 mit RBAC

    Wenn für Ihre Cloud Data Fusion-Instanz eine Version vor 6.10.0 verwendet wird und RBAC aktiviert ist, wird das Dienstkonto nicht in der Liste der Principals auf der IAM-Seite angezeigt. Sie müssen den Namen des Dienstkontos manuell eingeben.

    So weisen Sie die erforderliche Rolle zu:

    1. Rufen Sie in der Google Cloud Console die Seite IAM auf.

      IAM aufrufen

    2. Klicken Sie auf Zugriff erlauben.

    3. Geben Sie im Feld Neue Hauptkonten das Dienstkonto des Cloud Data Fusion API-Dienst-Agents ein. Verwenden Sie das folgende Format: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.

      Ersetzen Sie TENANT_PROJECT_ID durch die Mandanten-ID für Ihre Instanz. Die Mandantenprojekt-ID finden Sie auf der Seite Instanzen. Klicken Sie dort auf den Instanznamen, um die Instanzdetails aufzurufen.

      Zur Seite „VM-Instanzen“

    4. Wählen Sie die Rolle Data Lineage Events Producer aus.

    5. Klicken Sie auf Speichern.

Knowledge Catalog-Datenherkunft in Cloud Data Fusion aktivieren

Bei neuen Instanzen in Cloud Data Fusion ist der Datenursprung von Knowledge Catalog standardmäßig deaktiviert. Wenn Sie die Instanz vor dem 27. Januar 2024 mit Version 6.8.0 oder höher erstellt haben, ist sie nach Abschluss der Schritte unter Vorbereitung standardmäßig aktiviert.

Knowledge Catalog-Datenherkunft beim Erstellen einer Instanz aktivieren

Console

So aktivieren Sie die Knowledge Catalog-Datenherkunft beim Erstellen einer Instanz:

  1. Rufen Sie die Seite Cloud Data Fusion-Instanzen auf und klicken Sie auf Instanz erstellen.

    Instanz erstellen

  2. Maximieren Sie beim Konfigurieren der Instanz den Bereich Erweiterte Optionen und klicken Sie auf Einbindung von Dataplex Data Lineage aktivieren. Weitere Informationen zum Erstellen von Instanzen finden Sie unter Öffentliche Instanz erstellen.

REST API

Wenn Sie die Knowledge Catalog-Datenherkunft beim Erstellen einer Instanz aktivieren möchten, legen Sie die optionale Eigenschaft dataplex_data_lineage_integration_enabled auf true fest:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

Wenn Sie die Funktion deaktivieren möchten, legen Sie das Attribut auf „false“ fest oder lassen Sie es weg, da die Herkunft standardmäßig deaktiviert ist, wenn Sie eine neue Instanz erstellen.

Knowledge Catalog-Datenherkunft in einer vorhandenen Instanz aktivieren oder deaktivieren

Console

So aktivieren oder deaktivieren Sie die Knowledge Catalog-Datenherkunft in einer vorhandenen Instanz in Cloud Data Fusion:

  1. Rufen Sie die Instanzdetails auf:
    1. Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.

    2. Klicken Sie auf Instanzen und dann auf den Namen der Instanz, um die Seite Instanzdetails aufzurufen.

      Zur Seite „VM-Instanzen“

  2. Klicken Sie im Feld Dataplex Data Lineage-Integration auf Bearbeiten.
  3. Aktivieren oder deaktivieren Sie die Knowledge Catalog-Datenherkunft und klicken Sie dann auf Speichern.

REST API

Wenn Sie die Datenherkunft von Knowledge Catalog in einer vorhandenen Instanz in Cloud Data Fusion aktivieren möchten, legen Sie die Eigenschaft dataplex_data_lineage_integration_enabled auf true fest und fügen Sie den Parameterwert updateMask ein:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Wenn Sie die Knowledge Catalog-Datenherkunft in einer vorhandenen Instanz in Cloud Data Fusion deaktivieren möchten, legen Sie die Eigenschaft dataplex_data_lineage_integration_enabled auf false fest und fügen Sie den Parameterwert updateMask ein:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Herkunftsdiagramme ansehen

So rufen Sie Lineage-Diagramme für Entitäten in allen Google Cloud -Diensten auf:

  1. Rufen Sie Ihre Instanz in Cloud Data Fusion auf und führen Sie eine Datenpipeline aus, in der unterstützte Plug-ins verwendet werden.

  2. Rufen Sie die Herkunftsgrafiken auf der Seite „Knowledge Catalog“ in der Console auf und suchen Sie das Asset, für das Sie Herkunftsinformationen ansehen möchten.

Beschränkungen

Für die Anzeige von Lineage im Knowledge Catalog gelten die folgenden Einschränkungen:

Nächste Schritte