Tentang silsilah data

Silsilah data adalah peta visual yang melacak seluruh siklus proses data Anda. Fitur ini menunjukkan asal data Anda (asal), ke mana data tersebut berpindah (tujuan), dan semua perubahan atau transformasi yang terjadi di sepanjang proses.

Anda dapat melihat peta lengkap perjalanan data ini langsung di Google Cloud konsol untuk aset yang dibuat di produk seperti Dataplex Universal Catalog, BigQuery, dan Vertex AI. Bagi pengguna tingkat lanjut, Anda juga dapat mengambil informasi ini menggunakan Data Lineage API.

Alasan Anda memerlukan silsilah data

Perusahaan modern terus-menerus memindahkan dan mengubah data dalam jumlah besar. Misalnya, mengubah pembelian pelanggan mentah menjadi laporan, dasbor, dan model machine learning. Kompleksitas ini menimbulkan tantangan penting bagi tim Anda:

  • Kepercayaan dan verifikasi: Pengguna data sering kali kesulitan mengonfirmasi bahwa laporan dan angka yang mereka lihat akurat dan berasal dari sumber tepercaya.

  • Pemecahan masalah: Saat error muncul dalam laporan akhir, tim data mungkin merasa kesulitan dan membutuhkan waktu lama untuk melacak masalah tersebut melalui setiap langkah hingga ke akar penyebabnya.

  • Pengelolaan perubahan: Sebelum mengubah atau menghapus sepotong data (seperti kolom dalam tabel), tim perlu mengetahui setiap laporan atau model hilir yang mengandalkan data tersebut untuk menghindari kerusakan sistem penting.

  • Kepatuhan: Pemimpin memerlukan visibilitas tentang cara data sensitif (seperti informasi pelanggan atau keuangan) digunakan di seluruh organisasi untuk memenuhi persyaratan peraturan.

Silsilah data menyelesaikan masalah ini dengan memberikan perjalanan data yang jelas, visual, dan terdokumentasi. Dengan begitu, Anda dapat memahami sumber data dengan cepat, melacak kesalahan, menilai dampak perubahan, dan mempertahankan kepatuhan.

Alur kerja silsilah data

Alur kerja asal data mencakup langkah-langkah berikut:

  1. Sumber data dan penyerapan: informasi silsilah dari sumber data Anda memulai seluruh proses. Untuk mengetahui informasi selengkapnya, lihat Sumber asal data.

    • LayananGoogle Cloud : saat Data Lineage API diaktifkan, layanan yang didukung seperti BigQuery dan Dataflow akan otomatis melaporkan peristiwa silsilah setiap kali data dipindahkan atau diubah.

    • Sumber kustom: untuk sistem apa pun yang tidak didukung secara otomatis oleh integrasiGoogle Cloud , Anda dapat menggunakan Data Lineage API untuk mencatat informasi silsilah secara manual. Sebaiknya impor peristiwa yang diformat sesuai dengan standar OpenLineage.

  2. Platform silsilah: platform pusat ini menyerap, memodelkan, dan menyimpan semua data silsilah. Untuk mengetahui informasi selengkapnya, lihat Model dan perincian informasi silsilah.

    • Data Lineage API: API ini bertindak sebagai titik entri tunggal untuk semua informasi silsilah yang masuk. Model ini menggunakan model data hierarkis yang terdiri dari tiga konsep inti: proses, operasi, dan peristiwa.

    • Pemrosesan dan penyimpanan: platform memproses data yang masuk dan menyimpannya dalam database yang andal dan dioptimalkan untuk kueri.

  3. Pengalaman pengguna: Anda dapat berinteraksi dengan informasi silsilah yang disimpan dengan dua cara utama:

    • Eksplorasi visual: di konsol Google Cloud , layanan frontend mengambil dan merender data silsilah sebagai grafik atau daftar interaktif. Hal ini didukung untuk Katalog Universal Dataplex, BigQuery, dan Vertex AI (untuk model, set data, tampilan feature store, dan grup fitur). Ini ideal untuk menjelajahi perjalanan data Anda secara visual. Untuk informasi selengkapnya, lihat Tampilan silsilah di konsol Google Cloud .

    • Akses terprogram: menggunakan klien API, Anda dapat berkomunikasi langsung dengan Data Lineage API untuk mengotomatiskan pengelolaan silsilah. Dengan begitu, Anda dapat menulis informasi silsilah dari sumber kustom. Anda juga dapat membaca dan mengirimkan kueri data silsilah yang disimpan untuk digunakan di aplikasi lain atau untuk membuat laporan kustom.

Sumber silsilah

Anda dapat mengisi informasi silsilah di Dataplex Universal Catalog dengan cara berikut:

  • Secara otomatis dari layanan Google Cloud terintegrasi
  • Secara manual, dengan menggunakan Data Lineage API untuk sumber kustom
  • Dengan mengimpor peristiwa dari OpenLineage

Pelacakan silsilah data otomatis

Saat Anda mengaktifkan Data Lineage API, Google Cloud sistem yang mendukung silsilah data akan mulai melaporkan pergerakan datanya. Setiap sistem terintegrasi dapat mengirimkan informasi silsilah untuk rentang sumber data yang berbeda.

BigQuery

Saat Anda mengaktifkan silsilah data di project BigQuery, Dataplex Universal Catalog akan otomatis mencatat informasi silsilah untuk hal berikut:

Tugas penyalinan, kueri, dan pemuatan BigQuery ditampilkan sebagai proses.

Untuk melihat detail proses, di grafik silsilah, klik .

Setiap proses berisi job_id BigQuery dalam daftar attributes untuk tugas BigQuery terbaru.

Layanan lainnya

Linage data mendukung integrasi dengan layananGoogle Cloud berikut:

Silsilah data untuk sumber data kustom

Anda dapat menggunakan Data Lineage API untuk mencatat informasi asal data secara manual untuk sumber data apa pun yang tidak didukung oleh sistem terintegrasi.

Dataplex Universal Catalog dapat membuat grafik silsilah untuk silsilah yang dicatat secara manual jika Anda menggunakan fullyQualifiedName yang cocok dengan nama yang sepenuhnya memenuhi syarat dari entri Dataplex Universal Catalog yang ada. Jika ingin merekam asal-usul untuk sumber data kustom, Anda harus membuat entri kustom terlebih dahulu.

Setiap proses untuk sumber data kustom dapat berisi kunci sql dalam daftar atribut. Nilai kunci ini digunakan untuk merender sorotan kode di panel detail grafik asal data. Pernyataan SQL ditampilkan sebagaimana diberikan. Anda bertanggung jawab untuk memfilter informasi sensitif. Nama kunci sql peka huruf besar/kecil.

OpenLineage

Jika sudah menggunakan OpenLineage untuk mengumpulkan informasi silsilah dari sumber data lain, Anda dapat mengimpor peristiwa OpenLineage ke Dataplex Universal Catalog dan melihat peristiwa ini di konsol. Google Cloud Untuk mengetahui informasi selengkapnya, lihat Mengintegrasikan dengan OpenLineage.

Batasan

Berikut adalah batasan untuk silsilah data:

  • Semua informasi silsilah dipertahankan dalam sistem hanya selama 30 hari.

  • Informasi silsilah tetap ada setelah Anda menghapus sumber data terkait. Misalnya, jika Anda menghapus tabel BigQuery, Anda masih dapat melihat silsilahnya melalui API dan konsol hingga 30 hari.

  • Silsilah data tidak secara otomatis mencatat informasi silsilah langsung untuk rutinitas BigQuery. Jika rutinitas digunakan dalam kueri, silsilah data mencatat silsilah antara tabel yang dibaca rutinitas sebagai dependensi tabel yang ditulis kueri.

Batasan silsilah tingkat kolom

Silsilah tingkat kolom memiliki batasan tambahan berikut:

  • Silsilah tingkat kolom tidak dikumpulkan untuk tugas pemuatan BigQuery atau untuk rutin.

  • Silsilah tingkat kolom upstream tidak dikumpulkan untuk tabel eksternal.

  • Silsilah tingkat kolom tidak dikumpulkan jika tugas membuat lebih dari 1.500 link tingkat kolom. Dalam kasus ini, hanya silsilah tingkat tabel yang dikumpulkan.

  • Tidak ada API untuk membuat, membaca, memperbarui, menghapus, atau menelusuri asal data tingkat kolom.

  • Dukungan untuk tabel berpartisi terbatas, karena kolom partisi seperti _PARTITIONDATE dan _PARTITIONTIME tidak dikenali dalam grafik silsilah.

  • Batasan konsol:

    • Penelusuran grafik silsilah dibatasi hingga kedalaman 20 tingkat dan 10.000 link di setiap arah.

    • Silsilah tingkat kolom hanya diambil dari region tempat tabel root berada. Tidak ada dukungan untuk silsilah lintas-region dalam tampilan grafik.

Harga

  • Katalog Universal Dataplex menggunakan SKU pemrosesan premium untuk menagih biaya silsilah data. Untuk mengetahui informasi selengkapnya, lihat Harga.

  • Untuk memisahkan biaya silsilah data dari biaya lainnya di SKU pemrosesan premium Dataplex Universal Catalog, di laporan Penagihan Cloud, gunakan label goog-dataplex-workload-type dengan nilai LINEAGE.

  • Jika Anda memanggil Data Lineage API Origin sourceType dengan nilai selain CUSTOM, hal ini akan menimbulkan biaya tambahan.

Langkah berikutnya