Menetapkan konteks data dasar dengan Knowledge Catalog

Saat bekerja dengan data, Anda mungkin pernah mengajukan pertanyaan seperti "Apa arti nama kolom ini?", "Siapa pemilik set data yang rusak ini?", atau "Apakah tabel ini disetujui untuk digunakan?" Tag metadata mencoba menjawab pertanyaan ini, tetapi dengan cepat menjadi tidak berlaku atau tidak konsisten. Knowledge Catalog (sebelumnya Dataplex Universal Catalog) memecahkan masalah ini dengan memungkinkan Anda melampirkan metadata terstruktur dan definisi bisnis yang jelas langsung ke aset data. Menyediakan konteks data yang jelas mendasari agen AI dan membangun fondasi kepercayaan bagi setiap pengguna yang berinteraksi dengan data.

Tutorial ini menunjukkan cara membuat konteks data di Knowledge Catalog. Dirancang untuk pengguna seperti pengelola data dan analis bisnis, tutorial ini memandu Anda melalui langkah-langkah berbasis UI untuk membuat istilah dan konteks bisnis standar sebelum Anda mengotomatiskan alur kerja ini. Tutorial ini menjelaskan hubungan antara konsep utama Knowledge Catalog. Pada akhirnya, Anda akan mengetahui cara membuat data Anda dapat ditemukan dan tepercaya.

Tujuan

Dalam tutorial ini, Anda akan mempelajari cara:

  • Buat satu sumber tepercaya untuk istilah bisnis dengan glosarium bisnis.
  • Strukturkan dan atur metadata dengan jenis aspek.
  • Lampirkan metadata ke aset data dengan aspek.
  • Gunakan Penelusuran Knowledge Catalog untuk menemukan dengan tepat apa yang Anda butuhkan menggunakan metadata terstruktur baru ini.

Sebelum memulai

Sebelum memulai, lakukan hal berikut:

Menyiapkan lingkungan Anda

Tutorial ini menggunakan Cloud Shell, lingkungan command line yang berjalan di cloud.

  1. Dari Google Cloud konsol, klik Activate Cloud Shell di toolbar kanan atas. Proses menyediakan dan menghubungkan ke lingkungan memerlukan waktu beberapa saat.

  2. Di Cloud Shell, tetapkan variabel PROJECT_ID dan LOCATION agar semua perintah mendatang menargetkan project Google Cloud spesifik Anda.

    export PROJECT_ID=$(gcloud config get-value project)
    gcloud config set project $PROJECT_ID
    export LOCATION="us-central1"
    
  3. Aktifkan layanan Google Cloud yang diperlukan.

    gcloud services enable \
      dataplex.googleapis.com \
      bigquery.googleapis.com \
      datacatalog.googleapis.com
    

Buat set data BigQuery dan siapkan data contoh

Gunakan kode berikut untuk membuat set data BigQuery dan memuat beberapa transaksi CSV sampel ke dalam tabel. Setelah Anda membuat tabel, Knowledge Catalog akan menemukannya dan membuat entri untuk tabel tersebut di katalog.

Anggap entri sebagai representasi aset data Knowledge Catalog. Ini seperti catatan dalam katalog yang dapat Anda lampirkan metadata. Daripada menambahkan konteks ke (atau memperkaya) tabel BigQuery secara langsung, Anda menambahkannya ke entri di Knowledge Catalog.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Sample retail data for foundational data context tutorial" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into a BigQuery table
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Jalankan kueri SELECT untuk memverifikasi penyiapan Anda:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

Contoh output:

+----------------+------------------+-------+------------------+
| transaction_id |    user_email    |  gmv  | transaction_date |
+----------------+------------------+-------+------------------+
|           1001 | test@example.com | 150.5 |       2025-08-28 |
|           1002 | user@example.com |  75.0 |       2025-08-28 |
+----------------+------------------+-------+------------------+

Menetapkan istilah umum dengan glosarium bisnis

Konteks data yang baik bergantung pada definisi yang jelas. Misalnya, developer tidak perlu menebak apakah kolom bernama gmv berarti Nilai Barang Kotor atau apakah kolom tersebut menyertakan pajak dan pengembalian barang. Glosarium bisnis menciptakan satu sumber tepercaya untuk definisi ini di seluruh organisasi Anda. Saat rekan tim atau agen AI menganalisis data Anda, mereka akan mewarisi konteks bisnis yang tepat ini. Definisi bersama menyelaraskan metrik di seluruh tim seperti Keuangan, Penjualan, dan Operasi, serta membantu agen AI menghindari halusinasi.

Ikuti langkah-langkah berikut untuk membuat glosarium dan menentukan istilah pertama Anda:

  1. Di konsol Google Cloud , buka halaman Glosarium Knowledge Catalog.

    Buka Glosarium

  2. Klik Buat Glosarium Bisnis.

  3. Masukkan detail berikut:

    • Nama tampilan: Retail Business Glossary
    • Lokasi: us-central1 (Iowa)
  4. Klik Create.

  5. Klik Buat Kategori.

  6. Beri nama kategori Sales Metrics, lalu klik Buat.

  7. Pilih kategori Metrik Penjualan, lalu klik Tambahkan istilah.

  8. Beri nama istilah Gross Merchandise Value, lalu klik Buat.

  9. Klik istilah Nilai Produk Kotor untuk membuka halaman detailnya.

  10. Klik Tambahkan di samping Ringkasan. Masukkan detail berikut: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.

  11. Klik Simpan.

Anda kini telah membuat istilah glosarium yang dapat ditautkan ke entri data di seluruh organisasi Anda.

Menentukan metadata teknis dengan jenis aspek

Saat menggunakan tag metadata tidak terstruktur, Anda sering kali mendapatkan entri katalog yang tidak konsisten. Misalnya, satu tabel mungkin diberi tag owner:bob dan tabel lainnya steward:alice@example.com. Untuk menjaga metadata Anda tetap teratur dalam skala besar, Anda memerlukan skema yang konsisten.

Di sinilah jenis aspek berperan. Jenis aspek adalah cetak biru metadata yang memungkinkan Anda menetapkan aturan yang jelas dan kolom wajib diisi. Dengan mewajibkan kolom standar seperti alamat email yang valid untuk pengelola data, skrip hilir dapat memvalidasi dan melindungi metadata Anda secara otomatis.

Ikuti langkah-langkah berikut untuk membuat jenis aspek:

  1. Di konsol Google Cloud , buka tab Jenis aspek Knowledge Catalog di halaman Jenis metadata.

    Buka Jenis aspek

  2. Di tab Kustom, klik Buat.

  3. Masukkan detail berikut:

    • Nama tampilan: Data Asset Context
    • Lokasi: us-central1 (Iowa)
  4. Di bagian Template, klik Add field untuk membuat tiga kolom berikut:

    • Kolom 1:

      • Nama tampilan: Data Steward
      • Jenis: Text
      • Wajib Diisi: Centang kotak.
      • Jenis teks: Plain text
    • Kolom 2 (klik Tambahkan kolom):

      • Nama tampilan: Data Sensitivity
      • Jenis: Enum
      • Wajib Diisi: Biarkan opsional.
      • Nilai: Tambahkan Public, Internal, dan Confidential
    • Kolom 3 (klik Tambahkan kolom):

      • Nama tampilan: Last Review Date
      • Wajib Diisi: Biarkan opsional.
      • Jenis: Date and time
  5. Klik Simpan.

Sekarang Anda memiliki jenis aspek untuk kolom metadata terkait tata kelola data seperti pengelola data, tingkat sensitivitas, dan tanggal peninjauan. Di bagian berikutnya, Anda akan menerapkan skema ini ke entri tabel dengan melampirkan aspek dengan nilai tertentu untuk kolom ini.

Memperkaya entri dengan konteks bisnis dan teknis

Nama kolom sering disingkat atau ambigu. Menautkan kolom ke istilah dalam glosarium bisnis Anda akan memberikan definisi yang jelas dan konsisten. Pada langkah ini, Anda memperkaya entri untuk tabel retail_data.transactions dengan menautkan istilah Gross Merchandise Value ke kolom bernama gmv dan melampirkan aspek ke entri tabel menggunakan jenis aspek Anda.

Untuk mengklarifikasi apa itu kolom gmv di retail_data.transactions, tautkan ke istilah Gross Merchandise Value Anda.

  1. Di konsol Google Cloud , buka halaman Penelusuran Knowledge Catalog.

    Buka Penelusuran

  2. Klik Filter untuk membuka panel Filter.

  3. Untuk Cakupan, pilih Project Saat Ini.

  4. Telusuri retail_data.transactions dan klik tabel transaksi yang dikembalikan.

  5. Klik tab Schema.

  6. Centang kotak di samping kolom gmv, lalu klik Tambahkan istilah bisnis.

  7. Pilih Gross Merchandise Value.

Melampirkan aspek ke entri tabel

Selain menautkan istilah bisnis ke kolom, Anda dapat melampirkan aspek ke entri tabel untuk mengambil metadata tingkat tabel, seperti kepemilikan dan sensitivitas data.

Aspek adalah instance jenis aspek, dengan nilai tertentu untuk kolom metadata. Saat Anda melampirkan aspek ke entri, Knowledge Catalog akan memeriksa informasi yang Anda berikan berdasarkan skema yang ditentukan dalam jenis aspek untuk memastikan konsistensi.

Untuk menentukan kepemilikan dan sensitivitas tabel retail_data.transactions, lampirkan aspek Data Asset Context:

  1. Di tab Detail pada halaman entri retail_data.transactions, klik Tambahkan di samping Aspek opsional.
  2. Pilih Data Asset Context dari daftar.
  3. Masukkan nilai di kolom:

    • Pengelola Data: finance-team@example.com
    • Sensitivitas Data: Pilih Internal.
    • Tanggal Ulasan Terakhir: Pilih tanggal hari ini.
  4. Klik Simpan.

Dengan memperkaya data transaksi retail sampel, Anda telah menyiapkan fondasi konteks data yang kuat di Knowledge Catalog.

Menelusuri entri menggunakan metadata yang diperkaya

Sekarang Anda dapat menggunakan Penelusuran Knowledge Catalog untuk menemukan entri berdasarkan konteks bisnis yang Anda siapkan. Misalnya, Anda dapat menemukan semua aset dengan tingkat sensitivitas tertentu, atau menelusuri istilah glosarium untuk menemukan tabel pokok.

  1. Di konsol Google Cloud , buka halaman Penelusuran Knowledge Catalog.

    Buka Penelusuran

  2. Klik Filter untuk membuka panel Filter.

  3. Untuk Cakupan, pilih Project Saat Ini.

  4. Di kotak penelusuran, masukkan Find tables where the Data Asset Context aspect has Internal sensitivity.

  5. Anda akan melihat tabel retail_data.transactions di daftar hasil.

  6. Hapus teks di kotak penelusuran, lalu masukkan Find tables with the Gross Merchandise Value term attached.

  7. Anda akan melihat tabel retail_data.transactions lagi di hasil, karena kolom gmv-nya ditautkan langsung ke istilah bisnis ini.

Saat Anda menghubungkan agen AI ke Knowledge Catalog, agen tersebut akan otomatis mewarisi metadata yang telah di-enrich ini. Misalnya, saat Anda meminta agen untuk mengambil metrik penjualan internal, agen akan membaca aspek Sensitivitas Data (yang Anda tetapkan ke Internal) dan istilah glosarium Nilai Kotor Merchandise (GMV) yang ditautkan. Konteks bersama ini membantu agen memverifikasi sumber datanya, mematuhi kebijakan akses, dan menghindari halusinasi.

Pembersihan

Agar tidak menimbulkan biaya, hapus resource yang Anda buat dalam tutorial ini.

Menghapus set data sampel

Untuk menghapus set data BigQuery sampel dan semua tabelnya, gunakan perintah berikut. Tindakan ini tidak dapat diurungkan.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Menghapus artefak Knowledge Catalog

  1. Di konsol Google Cloud , buka tab Jenis aspek Knowledge Catalog di halaman Jenis metadata.

    Buka Jenis aspek

  2. Pilih jenis aspek Data Asset Context, lalu klik Hapus.

  3. Di konsol Google Cloud , buka halaman Glosarium Knowledge Catalog.

    Buka Glosarium

  4. Pilih istilah Gross Merchandise Value, lalu klik Hapus.

  5. Pilih kategori Sales Metrics, lalu klik Hapus.

  6. Pilih Retail Business Glossary, lalu klik Hapus.

Langkah berikutnya

Untuk mempelajari lebih lanjut kurasi katalog dan pembuatan agen dengan Knowledge Catalog, lihat referensi berikut: