Membangun tata kelola data dasar

Anda mungkin pernah mengajukan pertanyaan seperti "Apa arti nama kolom ini?", "Siapa pemilik set data yang rusak ini?", atau "Apakah tabel ini disetujui untuk digunakan?" Beberapa katalog data menggunakan tag tidak terstruktur untuk menambahkan informasi ini, tetapi tag dengan cepat menjadi tidak berlaku atau tidak konsisten. Knowledge Catalog (sebelumnya Dataplex Universal Catalog) menghindari masalah ini dengan memungkinkan Anda melampirkan metadata terstruktur yang didorong skema dan definisi bisnis yang jelas langsung ke aset data Anda. Pendekatan ini membantu Anda membangun tata kelola terprogram dalam skala besar.

Tutorial ini menunjukkan cara memulai tata kelola data di Knowledge Catalog. Dirancang untuk engineer data, administrator database, dan arsitek data, tutorial ini membahas langkah-langkah UI manual untuk membantu Anda membangun model mental yang kuat sebelum mengotomatiskan alur kerja ini. Diagram ini memperjelas hubungan antara konsep utama Knowledge Catalog. Pada akhirnya, Anda akan mengetahui cara membuat data Anda dapat ditemukan dan tepercaya.

Tujuan

Dalam tutorial ini, Anda akan mempelajari cara:

  • Buat satu sumber tepercaya untuk istilah bisnis Anda dengan glosarium bisnis.
  • Susun dan atur metadata Anda dengan jenis aspek.
  • Lampirkan metadata ke aset Anda dengan aspek.
  • Gunakan Penelusuran Knowledge Catalog untuk menemukan apa yang Anda butuhkan menggunakan metadata terstruktur baru ini.

Sebelum memulai

Sebelum memulai, lakukan hal berikut:

Menyiapkan lingkungan Anda

Tutorial ini menggunakan Cloud Shell, lingkungan command line yang berjalan di cloud.

  1. Dari Google Cloud konsol, klik Activate Cloud Shell di toolbar kanan atas. Proses menyediakan dan menghubungkan ke lingkungan memerlukan waktu beberapa saat.

  2. Di Cloud Shell, tetapkan variabel PROJECT_ID dan LOCATION agar semua perintah mendatang menargetkan project Google Cloud spesifik Anda.

    export PROJECT_ID=$(gcloud config get-value project)
    gcloud config set project $PROJECT_ID
    export LOCATION="us-central1"
    
  3. Aktifkan layanan Google Cloud yang diperlukan.

    gcloud services enable \
      dataplex.googleapis.com \
      bigquery.googleapis.com \
      datacatalog.googleapis.com
    

Buat set data BigQuery dan siapkan data contoh

Gunakan kode berikut untuk membuat set data BigQuery dan memuat beberapa transaksi CSV sampel ke dalam tabel. Setelah Anda membuat tabel, Knowledge Catalog akan otomatis menemukannya dan membuat entri untuk tabel tersebut di katalog.

Anggap entri sebagai representasi aset data Knowledge Catalog. Hal ini seperti catatan dalam katalog yang dapat Anda lampirkan metadata tata kelolanya. Daripada mengatur tabel BigQuery secara langsung, Anda mengatur entri tabel tersebut di Knowledge Catalog.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into a BigQuery table
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Jalankan kueri SELECT untuk memverifikasi penyiapan Anda:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

Contoh output:

+----------------+------------------+-------+------------------+
| transaction_id |    user_email    |  gmv  | transaction_date |
+----------------+------------------+-------+------------------+
|           1001 | test@example.com | 150.5 |       2025-08-28 |
|           1002 | user@example.com |  75.0 |       2025-08-28 |
+----------------+------------------+-------+------------------+

Menetapkan istilah umum dengan glosarium bisnis

Tata kelola yang baik bergantung pada definisi yang jelas. Misalnya, developer tidak perlu menebak apakah kolom bernama gmv berarti Nilai Barang Kotor atau apakah kolom tersebut menyertakan pajak atau pengembalian. Glosarium bisnis memecahkan masalah ini dengan membuat satu sumber tepercaya yang memisahkan definisi bisnis dari detail teknis. Hal ini memastikan bahwa istilah seperti Nilai Produk Kotor memiliki arti yang sama bagi semua orang, mulai dari tim Penjualan hingga tim Keuangan.

Ikuti langkah-langkah berikut untuk membuat glosarium dan menentukan istilah pertama Anda:

  1. Di konsol Google Cloud , buka halaman Glossaries Knowledge Catalog.

    Buka Glosarium

  2. Klik Buat Glosarium Bisnis.

  3. Masukkan detail berikut:

    • Nama tampilan: Retail Business Glossary
    • Lokasi: us-central1 (Iowa)
  4. Klik Create.

  5. Klik Buat Kategori.

  6. Beri nama kategori Sales Metrics, lalu klik Buat.

  7. Pilih kategori Metrik Penjualan, lalu klik Tambahkan istilah.

  8. Beri nama istilah Gross Merchandise Value, lalu klik Buat.

  9. Klik istilah Nilai Kotor Merchandise untuk membuka halaman detailnya.

  10. Klik Tambahkan di samping Ringkasan. Masukkan detail berikut: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.

  11. Klik Simpan.

Anda kini telah membuat istilah glosarium yang dapat ditautkan ke aset data di seluruh organisasi Anda.

Menentukan metadata teknis dengan jenis aspek

Jika Anda perlu melacak siapa yang memiliki aset data tertentu, tag nilai kunci saja tidak cukup. Anda tidak ingin satu tabel diberi tag owner:bob dan tabel lainnya contact:alice@example.com. Anda menginginkan skema terstruktur yang mengharuskan informasi pemilik dalam format email yang valid.

Untuk memenuhi kebutuhan ini, Knowledge Catalog mendukung jenis aspek. Jenis aspek seperti cetak biru untuk metadata Anda yang memungkinkan Anda menetapkan aturan yang jelas dan kolom wajib diisi. Hal ini memastikan bahwa metadata yang Anda tambahkan nanti tetap teratur.

  1. Di konsol Google Cloud , buka tab Jenis aspek Knowledge Catalog di halaman Jenis metadata.

    Buka Jenis aspek

  2. Di tab Kustom, klik Buat.

  3. Masukkan detail berikut:

    • Nama tampilan: Data Asset Governance
    • Lokasi: us-central1 (Iowa)
  4. Di bagian Template, klik Tambahkan Kolom untuk membuat tiga kolom berikut:

    • Kolom 1:

      • Nama tampilan: Data Steward
      • Jenis: Text
      • Wajib Diisi: Pilih kotak centang.
      • Jenis teks: Plain text
    • Kolom 2 (klik Tambahkan kolom):

      • Nama tampilan: Data Sensitivity
      • Jenis: Enum
      • Wajib Diisi: Biarkan opsional.
      • Nilai: Tambahkan Public, Internal, dan Confidential
    • Kolom 3 (klik Tambahkan kolom):

      • Nama tampilan: Last Review Date
      • Wajib Diisi: Biarkan opsional.
      • Jenis: Date and time
  5. Klik Simpan.

Sekarang Anda memiliki jenis aspek untuk kolom metadata terkait tata kelola seperti pengelola data, tingkat sensitivitas, dan tanggal peninjauan. Di bagian berikutnya, Anda akan menerapkan skema ini ke entri tabel dengan melampirkan aspek dengan nilai tertentu untuk kolom ini.

Memperkaya entri dengan metadata tata kelola

Nama kolom sering disingkat atau ambigu. Menautkan kolom ke istilah dalam glosarium bisnis Anda memberikan definisi yang jelas dan konsisten. Pada langkah ini, Anda akan memperkaya entri untuk tabel retail_data.transactions dengan menautkan istilah Gross Merchandise Value ke kolom bernama gmv dan menggunakan jenis aspek untuk melampirkan aspek ke entri tabel.

Untuk mengklarifikasi apa itu kolom gmv di retail_data.transactions, tautkan ke istilah Gross Merchandise Value Anda.

  1. Di konsol Google Cloud , buka halaman Penelusuran Knowledge Catalog.

    Buka Penelusuran

  2. Klik Filter untuk membuka panel Filter.

  3. Untuk Cakupan, pilih Project Saat Ini.

  4. Cari retail_data.transactions dan klik tabel transaksi yang dikembalikan.

  5. Klik tab Schema.

  6. Centang kotak di samping kolom gmv, lalu klik Tambahkan istilah bisnis.

  7. Pilih Gross Merchandise Value.

Melampirkan aspek ke entri tabel

Selain menautkan istilah bisnis ke kolom, Anda dapat melampirkan aspek ke entri tabel untuk merekam metadata tata kelola tingkat tabel, seperti kepemilikan dan sensitivitas data.

Aspek adalah instance jenis aspek, yang berisi nilai spesifik untuk kolom metadata. Saat Anda melampirkan aspek ke entri, Knowledge Catalog akan memeriksa informasi yang Anda berikan berdasarkan skema yang ditentukan dalam jenis aspek untuk memastikan konsistensi.

Untuk menentukan kepemilikan dan sensitivitas tabel retail_data.transactions, lampirkan aspek Data Asset Governance:

  1. Di tab Detail pada halaman entri retail_data.transactions, klik Tambahkan di samping Aspek opsional.
  2. Pilih Data Asset Governance dari daftar.
  3. Masukkan nilai di kolom:

    • Pengelola Data: finance-team@example.com
    • Sensitivitas Data: Pilih Internal.
    • Tanggal Ulasan Terakhir: Pilih tanggal hari ini.
  4. Klik Simpan.

Anda kini telah menyiapkan fondasi yang kuat untuk tata kelola data di Knowledge Catalog.

Menelusuri entri menggunakan metadata yang diperkaya

Anda telah memperkaya entri retail_data.transactions dengan menautkan kolom ke istilah bisnis dan melampirkan aspek. Sekarang Anda dapat menggunakan Penelusuran Katalog Pengetahuan untuk menemukan entri berdasarkan konteks bisnis ini. Misalnya, Anda dapat menemukan semua aset dengan tingkat sensitivitas tertentu, atau menelusuri istilah glosarium untuk menemukan tabel pokoknya.

  1. Di konsol Google Cloud , buka halaman Penelusuran Knowledge Catalog.

    Buka Penelusuran

  2. Klik Filter untuk membuka panel Filter.

  3. Untuk Cakupan, pilih Project Saat Ini.

  4. Di kotak penelusuran, masukkan Find tables where the Data Asset Governance aspect has Internal sensitivity.

  5. Anda akan melihat tabel retail_data.transactions di daftar hasil.

  6. Hapus teks di kotak penelusuran, lalu masukkan Find tables with the Gross Merchandise Value term attached.

  7. Anda akan melihat kembali tabel retail_data.transactions dalam hasil, karena kolom gmv-nya ditautkan langsung ke istilah bisnis ini.

Pembersihan

Agar tidak menimbulkan biaya, hapus resource yang Anda buat dalam tutorial ini.

Menghapus set data sampel

Untuk menghapus set data BigQuery sampel dan semua tabelnya, gunakan perintah berikut. Tindakan ini tidak dapat diurungkan.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Menghapus artefak Knowledge Catalog

  1. Di konsol Google Cloud , buka tab Jenis aspek Knowledge Catalog di halaman Jenis metadata.

    Buka Jenis aspek

  2. Pilih jenis aspek data_asset_governance, lalu klik Hapus.

  3. Di konsol Google Cloud , buka halaman Glossaries Knowledge Catalog.

    Buka Glosarium

  4. Pilih istilah Gross Merchandise Value, lalu klik Hapus.

  5. Pilih kategori Sales Metrics, lalu klik Hapus.

  6. Pilih Retail Business Glossary, lalu klik Hapus.

Langkah berikutnya