Seit dem 10. April 2026 heißt Dataplex Universal Catalog jetzt Knowledge Catalog. Die Namen der API, der Clientbibliothek, der CLI und von IAM bleiben unverändert. Weitere Informationen finden Sie unter Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Daten mit Cloud Data Fusion aufnehmen

Cloud Data Fusion bietet ein Knowledge Catalog-Senken-Plug-in (ehemals Dataplex Universal Catalog), mit dem Daten in alle vom Knowledge Catalog unterstützten Assets aufgenommen werden können.

Hinweis

Wenn Sie keine Cloud Data Fusion-Instanz haben, erstellen Sie eine. Dieses Plug-in ist in Instanzen verfügbar, die mit Cloud Data Fusion Version 6.6 oder höher ausgeführt werden. Weitere Informationen finden Sie unter Öffentliche Cloud Data Fusion-Instanz erstellen.
Das BigQuery-Dataset oder der Cloud Storage-Bucket in dem Daten aufgenommen werden, muss Teil eines Knowledge Catalog-Lake sein.
Damit Daten aus Cloud Storage-Entitäten gelesen werden können, Dataproc Metastore an den Lake angehängt sein.
CSV-Daten in Cloud Storage-Entitäten werden nicht unterstützt.
Aktivieren Sie im Knowledge Catalog-Projekt den privater Google-Zugriff im Subnetzwerk, das in der Regel auf default festgelegt ist, oder legen Sie internal_ip_only auf false fest.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für den Dataproc-Dienst-Agent und den Cloud Data Fusion-Dienst-Agent (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Verwalten von Rollen benötigen:

Dataplex-Entwickler (roles/dataplex.developer)
Dataplex-Datenleser (roles/dataplex.dataReader)
Nutzer von Dataproc Metastore-Metadaten (roles/metastore.metadataUser)
Cloud Dataplex-Dienst-Agent (roles/dataplex.serviceAgent)
Dataplex-Metadatenleser (roles/dataplex.metadataReader)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Plug-in zur Pipeline hinzufügen

Rufen Sie in der Google Cloud console die Cloud Data Fusion-Seite Instanzen auf.

Zur Seite „VM-Instanzen“

Auf dieser Seite können Sie Ihre Instanzen verwalten.
Klicken Sie auf Instanz ansehen, um Ihre Instanz zu öffnen.
Rufen Sie die Seite Studio auf, maximieren Sie das Menü Senke und klicken Sie auf Dataplex.

Plug-in konfigurieren

Nachdem Sie dieses Plug-in auf der Seite Studio zu Ihrer Pipeline hinzugefügt haben, klicken Sie auf die Knowledge Catalog-Senke, um die zugehörigen Eigenschaften zu konfigurieren und zu speichern.

Weitere Informationen zu Konfigurationen finden Sie in der Referenz zur Dataplex-Senke.

Optional: Erste Schritte mit einer Beispielpipeline

Es sind Beispielpipelines verfügbar, darunter eine Pipeline von einer SAP-Quelle zu einer Knowledge Catalog-Senke und eine Pipeline von einer Knowledge Catalog-Quelle zu einer BigQuery-Senke.

Wenn Sie eine Beispielpipeline verwenden möchten, öffnen Sie Ihre Instanz in der Cloud Data Fusion-UI, klicken Sie auf Hub > Pipelines und wählen Sie eine der Knowledge Catalog-Pipelines aus. Ein Dialogfeld hilft Ihnen beim Erstellen der Pipeline.

Pipeline ausführen

Öffnen Sie nach der Bereitstellung der Pipeline die Pipeline auf der Cloud Data Fusion-Seite Studio.
Klicken Sie auf Konfigurieren > Ressourcen.
Optional: Ändern Sie die Executor-CPU und den Arbeitsspeicher entsprechend der Gesamtdatengröße und der Anzahl der in der Pipeline verwendeten Transformationen.
Klicken Sie auf Speichern.
Klicken Sie zum Starten der Datenpipeline auf Ausführen.

Nächste Schritte

Daten mit Cloud Data Fusion verarbeiten mithilfe des Knowledge Catalog-Quell-Plug-ins.

Daten mit Cloud Data Fusion aufnehmen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.