Menjelajahi silsilah data menggunakan metadata

Tutorial ini menunjukkan cara menggunakan Cloud Data Fusion untuk mengeksplorasi silsilah data: asal data dan perpindahannya dari waktu ke waktu.

Silsilah data Cloud Data Fusion

Anda dapat menggunakan silsilah data Cloud Data Fusion untuk melakukan hal berikut:

  • Mendeteksi penyebab utama peristiwa data bermasalah.

  • Lakukan analisis dampak sebelum membuat perubahan data.

Sebaiknya gunakan integrasi silsilah aset di Knowledge Catalog. Untuk mengetahui informasi selengkapnya, lihat Melihat silsilah di Knowledge Catalog.

Anda juga dapat melihat silsilah di tingkat set data dan kolom di Cloud Data Fusion Studio menggunakan opsi Metadata, yang menampilkan silsilah untuk rentang waktu yang dipilih.

  • Silsilah tingkat set data menunjukkan hubungan antara set data dan pipeline.

  • Silsilah tingkat kolom menunjukkan operasi yang dilakukan pada sekumpulan kolom di set data sumber untuk menghasilkan sekumpulan kolom yang berbeda di set data target.

Mulai dari Cloud Data Fusion 6.9.2.4 dan seterusnya, jika Anda tidak melacak silsilah di Cloud Data Fusion, sebaiknya nonaktifkan emisi silsilah tingkat kolom di instance Anda menggunakan metode patch:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer
$(gcloud auth print-access-token)"
'https://datafusion.googleapis.com/v1beta1/projects/PROJECT_ID/locations/REGION/instances/INSTANCE_ID?updateMask=options'
-d '{ "options": { "metadata.messaging.field.lineage.emission.enabled": "false" } }'

Ganti kode berikut:

  • PROJECT_ID: Google Cloud project ID
  • REGION: lokasi Google Cloud project
  • INSTANCE_ID: ID instance Cloud Data Fusion

Skenario Tutorial

Dalam tutorial ini, Anda akan menggunakan dua pipeline:

  • Pipeline Shipment Data Cleansing membaca data pengiriman mentah dari sampel set data kecil dan menerapkan transformasi untuk membersihkan data tersebut.

  • Pipeline Delayed Shipments USA kemudian membaca data pengiriman yang telah dibersihkan, menganalisisnya, dan menemukan pengiriman di Amerika Serikat yang tertunda hingga melebihi batas tertentu.

Pipeline tutorial ini menunjukkan skenario umum di mana data mentah dibersihkan lalu dikirim untuk pemrosesan downstream. Jejak data ini dari data mentah hingga data pengiriman yang telah dibersihkan hingga output analisis dapat dieksplorasi menggunakan fitur silsilah Cloud Data Fusion.

Tujuan

  • Menghasilkan silsilah dengan menjalankan contoh pipeline
  • Mengeksplorasi silsilah tingkat set data dan tingkat kolom
  • Meneruskan informasi handshake dari pipeline upstream ke pipeline downstream

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.

Pengguna Google Cloud baru mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Aktifkan Cloud Data Fusion, Cloud Storage, Dataproc, dan BigQuery API.

    Peran yang diperlukan untuk mengaktifkan API

    Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.

    Aktifkan API

  7. Buat instance Cloud Data Fusion.
  8. Klik link berikut untuk mendownload sampel set data kecil ini ke komputer lokal Anda:

Membuka UI Cloud Data Fusion

Saat menggunakan Cloud Data Fusion, Anda menggunakan Google Cloud konsol dan UI Cloud Data Fusion yang terpisah. Di konsol Google Cloud , Anda dapat membuat project konsol Google Cloud , serta membuat dan menghapus instance Cloud Data Fusion. Di UI Cloud Data Fusion, Anda dapat menggunakan berbagai halaman, seperti Silsilah, untuk mengakses fitur Cloud Data Fusion.

  1. Di konsol Google Cloud , buka halaman Instances.

    Buka halaman Instances

  2. Di kolom Actions untuk instance, klik link Lihat Instance. UI Cloud Data Fusion akan terbuka di tab browser baru.

  3. Di panel Integrate, klik Studio untuk membuka halaman Studio Cloud Data Fusion.

Men-deploy dan menjalankan pipeline

  1. Impor Data Pengiriman mentah. Di halaman Studio, klik Import atau klik + > Pipeline > Import, lalu pilih dan impor pipeline Shipment Data Cleansing yang telah Anda download di Sebelum memulai.

  2. Deploy pipeline. Klik Deploy di kanan atas halaman Studio. Setelah deployment, halaman Pipeline akan terbuka.

  3. Menjalankan pipeline. Klik Run di bagian tengah atas halaman Pipeline.

  4. Mengimpor, men-deploy, dan menjalankan pipeline dan data Delayed Shipments. Setelah status Shipping Data Cleansing menampilkan Succeeded, terapkan langkah-langkah sebelumnya ke data Delayed Shipments USA yang telah Anda download di Sebelum Anda Memulai. Kembali ke halaman Studio untuk mengimpor data, lalu deploy dan jalankan pipeline kedua ini dari halaman Pipeline. Setelah pipeline kedua berhasil diselesaikan, lanjutkan dengan langkah-langkah berikutnya.

Menemukan set data

Anda harus menemukan set data sebelum mengeksplorasi silsilahnya. Pilih Metadata dari panel navigasi kiri UI Cloud Data Fusion untuk membuka halaman Search metadata. Karena set data Shipment Data Cleansing menentukan Cleaned-Shipments sebagai set data referensi, masukkan shipment di kotak Search. Hasil penelusuran mencakup set data ini.

Menggunakan tag untuk menemukan set data

Penelusuran Metadata menemukan set data yang telah digunakan, diproses, atau dihasilkan oleh pipeline Cloud Data Fusion. Pipeline dijalankan pada framework terstruktur yang menghasilkan dan mengumpulkan metadata teknis dan operasional. Metadata teknis mencakup nama, jenis, skema, kolom, waktu pembuatan, dan informasi pemrosesan set data. Informasi teknis ini digunakan oleh fitur silsilah dan penelusuran metadata Cloud Data Fusion.

Cloud Data Fusion juga mendukung anotasi set data dengan metadata bisnis, seperti tag dan properti nilai kunci, yang dapat digunakan sebagai kriteria penelusuran. Misalnya, untuk menambahkan dan mencari anotasi tag bisnis pada set data Data Pengiriman Mentah:

  1. Klik tombol Properties pada node Raw Shipping Data di halaman Pipeline Shipment Data Cleansing untuk membuka halaman Cloud Storage Properties.

  2. Klik Lihat Metadata untuk membuka halaman Search.

  3. Di bagian Tag Bisnis, klik +, lalu masukkan nama tag (karakter alfanumerik dan garis bawah diizinkan) dan tekan Enter.

Menjelajahi silsilah

Silsilah tingkat set data

Klik nama set data Cleaned-Shipments yang tercantum di halaman Search (dari Temukan set data), lalu klik tab Silsilah. Grafik silsilah menunjukkan bahwa set data ini dihasilkan oleh pipeline Shipments-Data-Cleansing, yang telah menggunakan set data Raw_Shipping_Data.

Panah kiri dan kanan memungkinkan Anda menavigasi kembali dan maju melalui silsilah set data sebelumnya atau berikutnya. Dalam contoh ini, grafik menampilkan silsilah lengkap untuk set data Cleaned-Shipments.

Silsilah tingkat kolom

Silsilah tingkat kolom Cloud Data Fusion menunjukkan hubungan antara kolom set data dan transformasi yang dilakukan pada sekumpulan kolom untuk menghasilkan sekumpulan kolom yang berbeda. Seperti silsilah tingkat set data, silsilah tingkat kolom juga terikat waktu, dan hasilnya berubah seiring waktu.

Melanjutkan dari langkah Silsilah tingkat set data, klik tombol Field Level Lineage di kanan atas grafik silsilah tingkat set data Cleaned Shipments untuk menampilkan grafik silsilah tingkat kolomnya.

Grafik silsilah tingkat kolom menunjukkan hubungan antarkolom. Anda dapat memilih kolom untuk melihat silsilahnya. Pilih Lihat > Sematkan kolom untuk melihat silsilah kolom tersebut saja.

Pilih Lihat > Lihat dampak untuk melakukan analisis dampak.

Link penyebab dan dampak menunjukkan transformasi yang dilakukan di kedua sisi kolom dalam format buku besar yang dapat dibaca manusia. Informasi ini bisa jadi penting untuk pelaporan dan tata kelola.

Pembersihan

Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

Setelah menyelesaikan tutorial, bersihkan resource yang Anda buat di Google Cloud agar tidak menggunakan kuota dan Anda tidak akan ditagih untuk resource tersebut di masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.

Menghapus set data tutorial

Tutorial ini membuat set data logistics_demo dengan beberapa tabel dalam project Anda.

Anda dapat menghapus set data dari UI Web BigQuery di konsol Google Cloud .

Menghapus instance Cloud Data Fusion

Ikuti petunjuk untuk menghapus instance Cloud Data Fusion Anda.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

  1. Di Konsol Google Cloud , buka halaman Manage resources.

    Buka Kelola resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah berikutnya