Menganalisis dampak perubahan data pada alur kerja

Dalam skenario ini, Anda mengelola database yang menyimpan catatan tentang cara penggunaan berbagai layanan yang disediakan oleh penyedia layanan kesehatan. Agar data lebih mudah digunakan, Anda dapat menjelajahi tabel untuk mengidentifikasi potensi perubahan. Sebelum menerapkan perubahan, Anda mengidentifikasi apakah ada peningkatan yang memengaruhi alur kerja yang ada dan apakah penyesuaian tambahan diperlukan.

Dalam tutorial ini, gunakan silsilah data untuk mengidentifikasi pengaruh transformasi data terhadap resource hilir dan alur kerja yang menjadi bagian dari resource tersebut.

Mulai

Untuk menyelesaikan kasus penggunaan, siapkan lingkungan terlebih dahulu dan jalankan transformasi data. Gunakan halaman prasyarat dan penyiapan untuk menghubungkan repositori jarak jauh ke Dataform. Repositori ini berisi kode yang diperlukan untuk menyiapkan set data dan mentransformasi data.

Setelah Anda menyelesaikan penyiapan lingkungan, gunakan BigQuery dan Lineage Explorer untuk melacak transformasi data dan pengaruhnya terhadap alur kerja.

Menganalisis transformasi data dengan Lineage Explorer

Setelah menyiapkan set data, analisis dampak transformasi data menggunakan tab Silsilah BigQuery.

Memverifikasi integritas data

Dalam contoh ini, periksa kolom medicare_participation_indicator yang menunjukkan apakah dokter atau pemasok setuju untuk memberikan layanan untuk Medicare. Grafik silsilah menunjukkan bagaimana transformasi data di antara tabel turunan menghasilkan perubahan jenis data kolom:

  1. Di konsol Google Cloud , buka halaman BigQuery.
  2. Gunakan kolom penelusuran untuk menemukan tabel physicians_and_other_supplier_2012_original.
  3. Klik tab Silsilah.
  4. Di panel Lineage Explorer, lakukan hal berikut:
    1. Di bagian Column Level Lineage, pilih nama kolom medicare_participation_indicator dari daftar.
    2. Di bagian Direction, pilih arah Downstream.
    3. Klik Terapkan.
  5. Perluas jalur silsilah hingga Anda mencapai vertex_ai_model_final_features.
  6. Menganalisis perubahan jalur antara tabel supplier_stg3 dan tabel supplier_transform1:

    Pelacakan silsilah untuk kolom medicare_participation_indicator
    Visualisasi pelacakan asal untuk kolom medicare_participation_indicator
    • Penanda jalur Salinan Persis menunjukkan bahwa kolom diteruskan tanpa perubahan.
    • Penandaan jalur Lainnya menunjukkan transformasi. Dalam jalur ini, jenis data String diperlakukan seperti Boolean.

Jalur menunjukkan bahwa jenis data kolom berubah, yang mungkin memerlukan penyesuaian dalam alur kerja yang menggunakan tabel ini.

Mengidentifikasi kolom yang berlebihan

Contoh ini memeriksa kolom nppes_credentials yang mencantumkan ID Penyedia Nasional yang dimiliki praktisi dalam National Plan and Provider Enumeration System (NPPES):

  1. Di konsol Google Cloud , buka halaman BigQuery.
  2. Gunakan kolom penelusuran untuk menemukan tabel physicians_and_other_supplier_2012_original.
  3. Klik tab Silsilah.
  4. Di panel Lineage Explorer, lakukan hal berikut:
    1. Di bagian Column Level Lineage, pilih nama kolom nppes_credentials dari daftar.
    2. Di bagian Direction, pilih arah Downstream.
    3. Klik Terapkan.
  5. Perluas jalur untuk memeriksa apakah ada silsilah hilir yang mengarah ke vertex_ai_model_final_features.

Tidak ada silsilah berarti kolom ini mungkin tidak relevan dalam alur kerja tertentu ini, dan bahkan dapat dihapus.

Untuk mengetahui informasi selengkapnya tentang memvisualisasikan data dengan grafik silsilah data, lihat Tampilan grafik silsilah.