Melacak silsilah data untuk tabel BigQuery
Dokumen ini menjelaskan cara melacak asal-usul data di tabel BigQuery. Silsilah data adalah proses pelacakan asal data, cara data ditransformasi, dan ke mana data berpindah dari waktu ke waktu. Memahami silsilah data sangat penting untuk memastikan kepatuhan, memecahkan masalah data, dan melakukan analisis akar masalah.
Panduan memulai ini menunjukkan cara mulai menggunakan silsilah data untuk tabel BigQuery:
Salin dua tabel dari set data
new_york_taxi_tripsyang tersedia secara publik.Gabungkan jumlah total perjalanan taksi dari kedua tabel ke dalam tabel baru.
Lihat grafik visualisasi silsilah untuk ketiga operasi.
Sebelum memulai
Siapkan project:
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, BigQuery, and Data Lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, BigQuery, and Data Lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan guna melihat grafik visualisasi silsilah, minta administrator untuk memberi Anda peran IAM berikut:
-
Pelihat Katalog Dataplex (
roles/dataplex.catalogViewer) pada project resource Dataplex Universal Catalog -
Pelihat Silsilah Data (
roles/datalineage.viewer) di project tempat Anda menggunakan BigQuery -
BigQuery Data Viewer (
roles/bigquery.dataViewer) di project tempat Anda menggunakan BigQuery
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Menambahkan set data publik ke project Anda
Di konsol Google Cloud , buka halaman BigQuery.
Di panel kiri, klik Explorer:

Jika Anda tidak melihat panel kiri, klik Luaskan panel kiri untuk membuka panel.
Di panel Explorer, klik Tambahkan data.
Di panel Add data, pilih Public datasets.
Di panel Marketplace, telusuri
NYC TLC Trips, lalu klik hasil NYC TLC Trips.Klik View dataset.
Tindakan ini akan menambahkan project set data publik sebagai referensi yang dapat Anda lihat di panel Explorer. Panel detail menampilkan Info set data, termasuk informasi seperti ID set data, Lokasi data, dan tanggal Terakhir diubah.
Membuat set data di project Anda
Di panel kiri, klik Explorer:

Di panel Explorer, pilih project tempat Anda ingin membuat set data.
Klik Actions, lalu klik Create dataset.
Di halaman Create dataset, pada kolom Dataset ID, masukkan:
data_lineage_demo. Biarkan kolom lain tetap pada nilai defaultnya.Klik Create dataset.
Di panel Penjelajah, klik Set data, lalu klik
data_lineage_demoyang baru ditambahkan.
Panel detail menampilkan Info set data-nya.
Menyalin dua tabel yang dapat diakses secara publik ke set data Anda
Buka editor kueri: Di panel detail, di samping tab yang disebut
data_lineage_demo, klik SQL query. Langkah ini akan membuat tab bernamaUntitled.Di editor kueri, salin tabel pertama dengan memasukkan kueri berikut. Ganti
PROJECT_IDdengan ID project Anda.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`Klik Run. Langkah ini membuat tabel pertama, yang disebut
nyc_green_trips_2021.Di panel Query results, klik Go to table. Langkah ini menampilkan isi tabel pertama.
Di editor kueri, salin tabel kedua dengan mengganti kueri sebelumnya dengan kueri berikut. Ganti
PROJECT_IDdengan ID project Anda.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`Klik Run. Langkah ini membuat tabel kedua, yang disebut
nyc_green_trips_2022.Di panel Query results, klik Go to table. Langkah ini menampilkan isi tabel kedua.
Menggabungkan data ke dalam tabel baru
Di editor kueri, masukkan kueri berikut. Ganti
PROJECT_IDdengan ID project Anda.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_idKlik Run. Langkah ini akan membuat tabel gabungan, yang disebut
total_green_trips_22_21.Di panel Query results, klik Go to table. Langkah ini menampilkan tabel gabungan.
Melihat grafik silsilah di Dataplex Universal Catalog
Di konsol Google Cloud , buka halaman Penelusuran Dataplex Universal Catalog.
Jika platform penelusuran Anda disetel ke Data Catalog, di menu Choose search platform, pilih Dataplex Universal Catalog.
Di kotak Penelusuran, masukkan
total_green_trips_22_21, lalu klik Telusuri.Dari daftar hasil, klik
total_green_trips_22_21. Langkah ini menampilkan tab Detail tabel BigQuery.Klik tab Silsilah.
Dalam grafik silsilah, setiap node persegi panjang merepresentasikan tabel, baik tabel asli, yang disalin, atau yang digabungkan. Anda dapat melakukan hal berikut:
Untuk menampilkan atau menyembunyikan asal tabel, klik + (Luaskan) atau - (Ciutkan).
Untuk menampilkan informasi tabel, klik sebuah node. Langkah ini menampilkan panel Detail node.
Untuk menampilkan informasi proses, klik
.
Langkah ini menampilkan panel Detail proses yang menunjukkan tugas yang
mengubah tabel sumber menjadi tabel target.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
Menghapus project
- Di Konsol Google Cloud , buka halaman Manage resources.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Menghapus set data
Di konsol Google Cloud , buka halaman BigQuery.
Di panel kiri, klik Explorer:

Di panel Explorer, telusuri set data
data_lineage_demoyang Anda buat.Klik set data, lalu klik Hapus.
Konfirmasi tindakan penghapusan Anda.
Langkah berikutnya
- Pelajari lebih lanjut silsilah data.
- Pelajari cara menjalankan kueri BigQuery.
- Pelajari cara menggunakan silsilah data.
- Pelajari harga Katalog Universal Dataplex.