Dokumen ini menjelaskan konsep, metode, dan kasus penggunaan untuk menelusuri silsilah data di beberapa wilayah geografis di Knowledge Catalog (sebelumnya Dataplex Universal Catalog).
Linage data di Knowledge Catalog adalah layanan regional. Data silsilah, termasuk link, proses, dan peristiwa, dicatat dan disimpan dalam lokasi geografis tertentu tempat transformasi data atau pergerakan data yang mendasarinya terjadi.
Namun, pipeline data perusahaan sering kali mencakup beberapa project dan region Google Cloud(misalnya, tabel BigQuery di us-central1 yang menyalin data ke bucket penyimpanan di europe-west1). Untuk melacak aset data secara komprehensif di seluruh batas ini, Anda harus melakukan penelusuran silsilah multi-region.
Katalog Pengetahuan menyediakan dua metode untuk menemukan dan menggabungkan grafik silsilah lintas regional:
- Metode otomatisasi sisi server yang menggunakan
API
searchLineageStreaming(Pratinjau)—Direkomendasikan - Metode fan-out sisi klien yang menggunakan
API
searchLinks
Konsep inti
Untuk memahami penemuan silsilah multi-region, sebaiknya pahami cara sistem menangani penelusuran grafik:
Kriteria root: Titik awal penelusuran silsilah Anda, yang ditentukan oleh satu atau beberapa nama aset (seperti tabel BigQuery atau topik Pub/Sub) atau kolom terperinci.
Arah: Orientasi traversal grafik relatif terhadap kriteria root. Anda dapat menelusuri hulu (untuk melihat asal data Anda) atau hilir (untuk melihat tujuan data Anda).
Penelusuran luas-pertama: Mekanisme arsitektur yang digunakan untuk menemukan node yang terhubung. Penelusuran melintasi grafik silsilah lapis demi lapis, dengan akurat menghitung kedalaman eksekusi setiap aset yang terhubung di seluruh batas regional.
Perbandingan metode penelusuran
Meskipun kedua metode memungkinkan Anda menyusun tampilan lintas wilayah dari data, keduanya menangani tugas berat secara berbeda:
| Fitur | Otomatisasi sisi server searchLineageStreaming API |
Fan-out sisi klien searchLinks API |
|---|---|---|
| Model eksekusi | Otomatisasi sisi server: Google Cloud Mesin perutean melintasi beberapa region secara native. | Orkestrasi sisi klien: Skrip aplikasi Anda harus melakukan loop dan mengelola permintaan secara manual. |
| Overhead permintaan | Permintaan API tunggal: Satu panggilan HTTP POST memulai penelusuran multi-region. |
Beberapa permintaan API: Memerlukan panggilan HTTP terpisah untuk setiap wilayah dan setiap lapisan grafik. |
| Penanganan respons | Streaming real-time: Hasil dikirim ke klien saat ditemukan, sehingga mencegah waktu tunggu habis. | Payload statis: Setiap array JSON harus diterima, dikumpulkan, dan digabungkan secara manual. |
| Grafik dalam (lebih dari 2 lapisan) | Menangani grafik silsilah bertingkat yang dalam secara otomatis hingga 100 tingkat. | Mengalami masalah kueri N+1; memerlukan perjalanan pulang pergi yang lambat dan berulang dari klien. |
Memilih metode yang tepat untuk kasus penggunaan Anda
Tinjau skenario berikut untuk menentukan metode penelusuran multi-region mana yang sesuai dengan workload Anda.
Pilih metode streaming API untuk kasus penggunaan berikut:
Melacak grafik yang dalam atau kompleks: Data Anda berpindah melalui beberapa tabel, bucket, atau pipeline perantara di berbagai region, yang memerlukan penelusuran multi-level (
maxDepthlebih besar dari 2).Melacak silsilah tingkat kolom: Anda ingin melacak kolom di seluruh region atau memanfaatkan penelusuran karakter pengganti (
*) untuk menarik semua dependensi kolom sekaligus.Mempertahankan kode ringan: Anda lebih memilih melakukan satu panggilan API dan membiarkan Google Cloud menangani perutean, penghapusan duplikat, dan perakitan grafik.
Memerlukan metadata pipeline: Anda ingin mengambil detail struktural tentang proses yang menjalankan pipeline Anda dalam payload permintaan yang sama.
Pilih metode fan-out sisi klien untuk skenario berikut:
Anda hanya melacak silsilah satu hop yang dangkal: Grafik silsilah Anda tidak rumit, dan Anda hanya perlu mencari link induk atau turunan langsung (
maxDepthsama dengan 1) di sejumlah kecil wilayah yang diketahui dan tetap.Anda bekerja dalam sistem lama yang ketat: Anda memiliki aplikasi tata kelola data yang sudah ada yang dibangun secara intensif di sekitar endpoint
SearchLinksstandar dan ingin mempertahankan kompatibilitas mundur struktural tanpa menerapkan konsumen respons streaming.
Langkah berikutnya
Pelajari cara menelusuri silsilah multi-region menggunakan otomatisasi sisi server.
Pelajari cara menelusuri silsilah multi-region menggunakan fan-out sisi klien.