Mulai 10 April 2026, Dataplex Universal Catalog kini disebut Knowledge Catalog. Nama API, library klien, CLI, dan IAM tidak berubah. Untuk mengetahui informasi selengkapnya, lihat Memperkenalkan Katalog Pengetahuan Google Cloud.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Menyerap data dengan Cloud Data Fusion

Cloud Data Fusion menyediakan plugin Sink Knowledge Catalog (sebelumnya Dataplex Universal Catalog) untuk menyerap data ke salah satu aset yang didukung Knowledge Catalog.

Sebelum memulai

Jika Anda belum memiliki instance Cloud Data Fusion, buatlah. Plugin ini tersedia di instance yang berjalan di Cloud Data Fusion versi 6.6 atau yang lebih baru. Untuk mengetahui informasi selengkapnya, lihat Membuat instance publik Cloud Data Fusion.
Set data BigQuery atau bucket Cloud Storage tempat data di-ingest harus menjadi bagian dari data lake Knowledge Catalog.
Agar data dapat dibaca dari entity Cloud Storage, Dataproc Metastore harus dilampirkan ke data lake.
Data CSV di entitas Cloud Storage tidak didukung.
Di project Knowledge Catalog, aktifkan Akses Google Pribadi di subnetwork, yang biasanya disetel ke default, atau tetapkan internal_ip_only ke false.

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk mengelola peran, minta administrator untuk memberi Anda peran IAM berikut pada agen layanan Dataproc dan agen layanan Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Developer Dataplex (roles/dataplex.developer)
Pembaca Data Dataplex (roles/dataplex.dataReader)
Dataproc Metastore Metadata User (roles/metastore.metadataUser)
Agen Layanan Cloud Dataplex (roles/dataplex.serviceAgent)
Pembaca Metadata Dataplex (roles/dataplex.metadataReader)

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Menambahkan plugin ke pipeline

Di konsol Google Cloud , buka halaman Instances Cloud Data Fusion.

Buka Instances

Halaman ini memungkinkan Anda mengelola instance.
Untuk membuka instance, klik Lihat instance.
Buka halaman Studio, luaskan menu Sink, lalu klik Dataplex.

Mengonfigurasi plugin

Setelah menambahkan plugin ini ke pipeline di halaman Studio, klik sink Knowledge Catalog untuk mengonfigurasi dan menyimpan propertinya.

Untuk mengetahui informasi selengkapnya tentang konfigurasi, lihat referensi Sink Dataplex.

Opsional: Mulai menggunakan pipeline contoh

Pipeline contoh tersedia, termasuk pipeline sumber SAP ke sink Knowledge Catalog dan pipeline sumber Knowledge Catalog ke sink BigQuery.

Untuk menggunakan pipeline sampel, buka instance Anda di UI Cloud Data Fusion, klik Hub > Pipelines, lalu pilih salah satu pipeline Knowledge Catalog. Dialog akan terbuka untuk membantu Anda membuat pipeline.

Menjalankan pipeline

Setelah men-deploy pipeline, buka pipeline Anda di halaman Studio Cloud Data Fusion.
Klik Konfigurasi > Sumber Daya.
Opsional: Ubah CPU Eksekutor dan Memori berdasarkan ukuran data keseluruhan dan jumlah transformasi yang digunakan dalam pipeline Anda.
Klik Simpan.
Untuk memulai pipeline data, klik Run.

Langkah berikutnya

Memproses data dengan Cloud Data Fusion menggunakan plugin Sumber Knowledge Catalog.

Menyerap data dengan Cloud Data Fusion Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.