Anda mungkin pernah mengajukan pertanyaan seperti "Apa arti nama kolom ini?", "Siapa pemilik set data yang rusak ini?", atau "Apakah tabel ini disetujui untuk digunakan?" Beberapa katalog data menggunakan tag tidak terstruktur untuk menambahkan informasi ini, tetapi tag dengan cepat menjadi tidak berlaku atau tidak konsisten. Knowledge Catalog (sebelumnya Dataplex Universal Catalog) menghindari masalah ini dengan memungkinkan Anda melampirkan metadata terstruktur yang didorong skema dan definisi bisnis yang jelas langsung ke aset data Anda. Pendekatan ini membantu Anda membangun tata kelola terprogram dalam skala besar.
Tutorial ini menunjukkan cara memulai tata kelola data di Knowledge Catalog. Dirancang untuk engineer data, administrator database, dan arsitek data, tutorial ini membahas langkah-langkah UI manual untuk membantu Anda membangun model mental yang kuat sebelum mengotomatiskan alur kerja ini. Diagram ini memperjelas hubungan antara konsep utama Knowledge Catalog. Pada akhirnya, Anda akan mengetahui cara membuat data Anda dapat ditemukan dan tepercaya.
Tujuan
Dalam tutorial ini, Anda akan mempelajari cara:
- Buat satu sumber tepercaya untuk istilah bisnis Anda dengan glosarium bisnis.
- Susun dan atur metadata Anda dengan jenis aspek.
- Lampirkan metadata ke aset Anda dengan aspek.
- Gunakan Penelusuran Knowledge Catalog untuk menemukan apa yang Anda butuhkan menggunakan metadata terstruktur baru ini.
Sebelum memulai
Sebelum memulai, lakukan hal berikut:
- Pilih Google Cloud project untuk tutorial ini.
- Konfirmasi bahwa penagihan diaktifkan untuk project Anda.
Menyiapkan lingkungan Anda
Tutorial ini menggunakan Cloud Shell, lingkungan command line yang berjalan di cloud.
Dari Google Cloud konsol, klik Activate Cloud Shell di toolbar kanan atas. Proses menyediakan dan menghubungkan ke lingkungan memerlukan waktu beberapa saat.
Di Cloud Shell, tetapkan variabel
PROJECT_IDdanLOCATIONagar semua perintah mendatang menargetkan project Google Cloud spesifik Anda.export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"Aktifkan layanan Google Cloud yang diperlukan.
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
Buat set data BigQuery dan siapkan data contoh
Gunakan kode berikut untuk membuat set data BigQuery dan memuat beberapa transaksi CSV sampel ke dalam tabel. Setelah Anda membuat tabel, Knowledge Catalog akan otomatis menemukannya dan membuat entri untuk tabel tersebut di katalog.
Anggap entri sebagai representasi aset data Knowledge Catalog. Hal ini seperti catatan dalam katalog yang dapat Anda lampirkan metadata tata kelolanya. Daripada mengatur tabel BigQuery secara langsung, Anda mengatur entri tabel tersebut di Knowledge Catalog.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Retail data for governance codelab" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Jalankan kueri SELECT untuk memverifikasi penyiapan Anda:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
Contoh output:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
Menetapkan istilah umum dengan glosarium bisnis
Tata kelola yang baik bergantung pada definisi yang jelas. Misalnya, developer tidak perlu menebak apakah kolom bernama gmv berarti Nilai Barang Kotor atau apakah kolom tersebut menyertakan pajak atau pengembalian. Glosarium bisnis memecahkan masalah ini dengan membuat satu sumber tepercaya yang memisahkan definisi bisnis dari detail teknis. Hal ini memastikan bahwa istilah seperti Nilai Produk Kotor memiliki arti yang sama bagi semua orang, mulai dari tim Penjualan hingga tim Keuangan.
Ikuti langkah-langkah berikut untuk membuat glosarium dan menentukan istilah pertama Anda:
Di konsol Google Cloud , buka halaman Glossaries Knowledge Catalog.
Klik Buat Glosarium Bisnis.
Masukkan detail berikut:
- Nama tampilan:
Retail Business Glossary - Lokasi:
us-central1 (Iowa)
- Nama tampilan:
Klik Create.
Klik Buat Kategori.
Beri nama kategori
Sales Metrics, lalu klik Buat.Pilih kategori Metrik Penjualan, lalu klik Tambahkan istilah.
Beri nama istilah
Gross Merchandise Value, lalu klik Buat.Klik istilah Nilai Kotor Merchandise untuk membuka halaman detailnya.
Klik Tambahkan di samping Ringkasan. Masukkan detail berikut:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.Klik Simpan.
Anda kini telah membuat istilah glosarium yang dapat ditautkan ke aset data di seluruh organisasi Anda.
Menentukan metadata teknis dengan jenis aspek
Jika Anda perlu melacak siapa yang memiliki aset data tertentu, tag nilai kunci saja tidak cukup. Anda tidak ingin satu tabel diberi tag owner:bob dan tabel lainnya contact:alice@example.com. Anda menginginkan skema terstruktur yang mengharuskan informasi pemilik dalam format email yang valid.
Untuk memenuhi kebutuhan ini, Knowledge Catalog mendukung jenis aspek. Jenis aspek seperti cetak biru untuk metadata Anda yang memungkinkan Anda menetapkan aturan yang jelas dan kolom wajib diisi. Hal ini memastikan bahwa metadata yang Anda tambahkan nanti tetap teratur.
Di konsol Google Cloud , buka tab Jenis aspek Knowledge Catalog di halaman Jenis metadata.
Di tab Kustom, klik Buat.
Masukkan detail berikut:
- Nama tampilan:
Data Asset Governance - Lokasi:
us-central1 (Iowa)
- Nama tampilan:
Di bagian Template, klik Tambahkan Kolom untuk membuat tiga kolom berikut:
Kolom 1:
- Nama tampilan:
Data Steward - Jenis:
Text - Wajib Diisi: Pilih kotak centang.
- Jenis teks:
Plain text
- Nama tampilan:
Kolom 2 (klik Tambahkan kolom):
- Nama tampilan:
Data Sensitivity - Jenis:
Enum - Wajib Diisi: Biarkan opsional.
- Nilai: Tambahkan
Public,Internal, danConfidential
- Nama tampilan:
Kolom 3 (klik Tambahkan kolom):
- Nama tampilan:
Last Review Date - Wajib Diisi: Biarkan opsional.
- Jenis:
Date and time
- Nama tampilan:
Klik Simpan.
Sekarang Anda memiliki jenis aspek untuk kolom metadata terkait tata kelola seperti pengelola data, tingkat sensitivitas, dan tanggal peninjauan. Di bagian berikutnya, Anda akan menerapkan skema ini ke entri tabel dengan melampirkan aspek dengan nilai tertentu untuk kolom ini.
Memperkaya entri dengan metadata tata kelola
Nama kolom sering disingkat atau ambigu. Menautkan kolom ke istilah dalam glosarium bisnis Anda memberikan definisi yang jelas dan konsisten. Pada langkah ini, Anda akan memperkaya entri untuk tabel retail_data.transactions dengan menautkan istilah Gross Merchandise Value ke kolom bernama gmv dan menggunakan jenis aspek untuk melampirkan aspek ke entri tabel.
Menautkan kolom ke istilah bisnis
Untuk mengklarifikasi apa itu kolom gmv di retail_data.transactions, tautkan ke istilah Gross Merchandise Value Anda.
Di konsol Google Cloud , buka halaman Penelusuran Knowledge Catalog.
Klik Filter untuk membuka panel Filter.
Untuk Cakupan, pilih Project Saat Ini.
Cari
retail_data.transactionsdan klik tabel transaksi yang dikembalikan.Klik tab Schema.
Centang kotak di samping kolom
gmv, lalu klik Tambahkan istilah bisnis.Pilih
Gross Merchandise Value.
Melampirkan aspek ke entri tabel
Selain menautkan istilah bisnis ke kolom, Anda dapat melampirkan aspek ke entri tabel untuk merekam metadata tata kelola tingkat tabel, seperti kepemilikan dan sensitivitas data.
Aspek adalah instance jenis aspek, yang berisi nilai spesifik untuk kolom metadata. Saat Anda melampirkan aspek ke entri, Knowledge Catalog akan memeriksa informasi yang Anda berikan berdasarkan skema yang ditentukan dalam jenis aspek untuk memastikan konsistensi.
Untuk menentukan kepemilikan dan sensitivitas tabel retail_data.transactions, lampirkan aspek Data Asset Governance:
- Di tab Detail pada halaman entri
retail_data.transactions, klik Tambahkan di samping Aspek opsional. - Pilih
Data Asset Governancedari daftar. Masukkan nilai di kolom:
- Pengelola Data:
finance-team@example.com - Sensitivitas Data: Pilih Internal.
- Tanggal Ulasan Terakhir: Pilih tanggal hari ini.
- Pengelola Data:
Klik Simpan.
Anda kini telah menyiapkan fondasi yang kuat untuk tata kelola data di Knowledge Catalog.
Menelusuri entri menggunakan metadata yang diperkaya
Anda telah memperkaya entri retail_data.transactions dengan menautkan kolom ke istilah bisnis dan melampirkan aspek. Sekarang Anda dapat menggunakan Penelusuran Katalog Pengetahuan untuk menemukan entri berdasarkan konteks bisnis ini. Misalnya, Anda dapat menemukan semua aset dengan tingkat sensitivitas tertentu, atau menelusuri istilah glosarium untuk menemukan tabel pokoknya.
Di konsol Google Cloud , buka halaman Penelusuran Knowledge Catalog.
Klik Filter untuk membuka panel Filter.
Untuk Cakupan, pilih Project Saat Ini.
Di kotak penelusuran, masukkan
Find tables where the Data Asset Governance aspect has Internal sensitivity.Anda akan melihat tabel
retail_data.transactionsdi daftar hasil.Hapus teks di kotak penelusuran, lalu masukkan
Find tables with the Gross Merchandise Value term attached.Anda akan melihat kembali tabel
retail_data.transactionsdalam hasil, karena kolomgmv-nya ditautkan langsung ke istilah bisnis ini.
Pembersihan
Agar tidak menimbulkan biaya, hapus resource yang Anda buat dalam tutorial ini.
Menghapus set data sampel
Untuk menghapus set data BigQuery sampel dan semua tabelnya, gunakan perintah berikut. Tindakan ini tidak dapat diurungkan.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Menghapus artefak Knowledge Catalog
Di konsol Google Cloud , buka tab Jenis aspek Knowledge Catalog di halaman Jenis metadata.
Pilih jenis aspek
data_asset_governance, lalu klik Hapus.Di konsol Google Cloud , buka halaman Glossaries Knowledge Catalog.
Pilih istilah
Gross Merchandise Value, lalu klik Hapus.Pilih kategori
Sales Metrics, lalu klik Hapus.Pilih
Retail Business Glossary, lalu klik Hapus.
Langkah berikutnya
- Mengelola glosarium bisnis: Pelajari lebih lanjut cara membuat kosakata standar untuk data Anda di Mengelola glosarium bisnis.
- Memperkaya konteks metadata: Pelajari lebih lanjut cara menambahkan konteks yang bermakna menggunakan aspek di Mengelola aspek dan memperkaya metadata.
- Mengotomatiskan lampiran aspek: Lampirkan aspek ke set data baru dengan fungsi Cloud Run atau Cloud Build.
- Tata kelola sebagai kode: Kelola skema dalam kontrol versi menggunakan penyedia Terraform Google Cloud.