Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Menggunakan silsilah data di Dataflow

Silsilah data adalah fitur Dataflow yang memungkinkan Anda melacak cara data berpindah melalui sistem Anda: dari mana data berasal, ke mana data diteruskan, dan transformasi apa yang diterapkan padanya.

Setiap pipeline yang Anda jalankan menggunakan Dataflow memiliki beberapa aset data terkait. Silsilah aset data mencakup asalnya, apa yang terjadi pada aset tersebut, dan ke mana aset tersebut berpindah dari waktu ke waktu. Dengan urutan data, Anda dapat melacak pergerakan aset data secara menyeluruh, dari asal hingga tujuan akhir.

Saat Anda mengaktifkan silsilah data untuk tugas Dataflow, Dataflow akan merekam peristiwa silsilah dan memublikasikannya ke Data Lineage API Knowledge Catalog.

Untuk mengakses informasi silsilah melalui Knowledge Catalog, lihat Menggunakan silsilah data dengan sistem Google Cloud .

Sebelum memulai

Siapkan project:

Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

Verify that billing is enabled for your Google Cloud project.

Enable the Dataplex, BigQuery, and Data lineage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Verify that billing is enabled for your Google Cloud project.

Enable the Dataplex, BigQuery, and Data lineage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Di Dataflow, Anda juga perlu mengaktifkan silsilah di tingkat tugas. Lihat Mengaktifkan silsilah data di Dataflow dalam dokumen ini.

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan guna melihat grafik visualisasi silsilah, minta administrator untuk memberi Anda peran IAM berikut:

Pelihat Dataplex Catalog (roles/dataplex.catalogViewer) di project resource Knowledge Catalog
Viewer Silsilah Data (roles/datalineage.viewer) pada project tempat Anda menggunakan Dataflow
Pelihat Dataflow (roles/dataflow.viewer) di project tempat Anda menggunakan Dataflow

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Untuk mengetahui informasi selengkapnya tentang peran silsilah data, lihat Peran standar untuk silsilah data.

Dukungan dan batasan

Linieritas data di Dataflow memiliki batasan berikut:

Linage data didukung di Apache Beam SDK versi 2.63.0 dan yang lebih baru.
Anda harus mengaktifkan silsilah data berdasarkan per tugas.
Pengambilan data tidak dilakukan secara instan. Data silsilah tugas Dataflow dapat memerlukan waktu beberapa menit untuk muncul di Knowledge Catalog.
Sumber dan sink berikut didukung:
- Apache Kafka
- BigQuery (Tugas streaming di Python menggunakan metode STREAMING_INSERT lama, yang tidak mendukung data lineage. Untuk menggunakan silsilah data, beralihlah ke metode STORAGE_WRITE_API yang direkomendasikan. Untuk mengetahui informasi selengkapnya, lihat Menulis dari Dataflow ke BigQuery.)
- Bigtable
- Cloud Storage
- JDBC (Java Database Connectivity)
- Pub/Sub
- Spanner (Aliran Data Perubahan tidak didukung)
Template Dataflow yang menggunakan sumber dan tujuan ini juga otomatis merekam dan memublikasikan peristiwa silsilah.

Mengaktifkan silsilah data di Dataflow

Anda harus mengaktifkan silsilah di tingkat tugas. Untuk mengaktifkan silsilah data, gunakan enable_lineage opsi layanan Dataflow sebagai berikut:

Java

--dataflowServiceOptions=enable_lineage=true

Python

--dataflow_service_options=enable_lineage=true

Go

--dataflow_service_options=enable_lineage=true

gcloud

Gunakan perintah gcloud dataflow jobs run dengan opsi additional-experiments. Jika Anda menggunakan Template Flex, gunakan perintah gcloud dataflow flex-template run.

--additional-experiments=enable_lineage=true

Secara opsional, Anda dapat menentukan satu atau kedua parameter berikut dengan opsi layanan:

process_id: ID unik yang digunakan Knowledge Catalog untuk mengelompokkan proses tugas. Jika tidak ditentukan, nama tugas akan digunakan.
process_name: Nama yang mudah dibaca manusia untuk proses silsilah data. Jika tidak ditentukan, nama tugas yang diawali dengan "Dataflow " akan digunakan.

Tentukan opsi ini sebagai berikut:

Java

--dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

Python

--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

Go

--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

gcloud

--additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

Melihat silsilah di Knowledge Catalog

Silsilah data memberikan informasi tentang hubungan antara resource project Anda dan proses yang membuatnya. Anda dapat melihat informasi asal data di konsol Google Cloud dalam bentuk grafik atau tabel tunggal. Anda juga dapat mengambil informasi silsilah data dari Data Lineage API dalam bentuk data JSON.

Untuk mengetahui informasi selengkapnya, lihat Menggunakan silsilah data dengan sistem. Google Cloud

Menonaktifkan silsilah data di Dataflow

Jika asal-usul data diaktifkan untuk tugas tertentu dan Anda ingin menonaktifkannya, batalkan tugas yang ada dan jalankan versi baru tugas tanpa opsi layanan enable_lineage.

Penagihan

Penggunaan silsilah data di Dataflow tidak memengaruhi tagihan Dataflow Anda, tetapi dapat menimbulkan biaya tambahan pada tagihan Knowledge Catalog Anda. Untuk mengetahui informasi selengkapnya, lihat Pertimbangan silsilah data dan Harga Knowledge Catalog.

Langkah berikutnya

Pelajari lebih lanjut silsilah data.
Pelajari cara menggunakan silsilah data.

Menggunakan silsilah data di Dataflow Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Sebelum memulai

Peran yang diperlukan

Dukungan dan batasan

Mengaktifkan silsilah data di Dataflow

Java

Python

Go

gcloud

Java

Python

Go

gcloud

Melihat silsilah di Knowledge Catalog

Menonaktifkan silsilah data di Dataflow

Penagihan

Langkah berikutnya

Menggunakan silsilah data di Dataflow