Saat bekerja dengan data, Anda mungkin pernah mengajukan pertanyaan seperti "Apa arti nama kolom ini?", "Siapa pemilik set data yang rusak ini?", atau "Apakah tabel ini disetujui untuk digunakan?" Tag metadata mencoba menjawab pertanyaan ini, tetapi dengan cepat menjadi tidak berlaku atau tidak konsisten. Knowledge Catalog (sebelumnya Dataplex Universal Catalog) memecahkan masalah ini dengan memungkinkan Anda melampirkan metadata terstruktur dan definisi bisnis yang jelas langsung ke aset data. Menyediakan konteks data yang jelas mendasari agen AI dan membangun fondasi kepercayaan bagi setiap pengguna yang berinteraksi dengan data.
Tutorial ini menunjukkan cara membuat konteks data di Knowledge Catalog. Dirancang untuk pengguna seperti pengelola data dan analis bisnis, tutorial ini memandu Anda melalui langkah-langkah berbasis UI untuk membuat istilah dan konteks bisnis standar sebelum Anda mengotomatiskan alur kerja ini. Tutorial ini menjelaskan hubungan antara konsep utama Knowledge Catalog. Pada akhirnya, Anda akan mengetahui cara membuat data Anda dapat ditemukan dan tepercaya.
Tujuan
Dalam tutorial ini, Anda akan mempelajari cara:
- Buat satu sumber tepercaya untuk istilah bisnis dengan glosarium bisnis.
- Strukturkan dan atur metadata dengan jenis aspek.
- Lampirkan metadata ke aset data dengan aspek.
- Gunakan Penelusuran Knowledge Catalog untuk menemukan dengan tepat apa yang Anda butuhkan menggunakan metadata terstruktur baru ini.
Sebelum memulai
Sebelum memulai, lakukan hal berikut:
- Pilih Google Cloud project untuk tutorial ini.
- Konfirmasi bahwa penagihan diaktifkan untuk project Anda.
Menyiapkan lingkungan Anda
Tutorial ini menggunakan Cloud Shell, lingkungan command line yang berjalan di cloud.
Dari Google Cloud konsol, klik Activate Cloud Shell di toolbar kanan atas. Proses menyediakan dan menghubungkan ke lingkungan memerlukan waktu beberapa saat.
Di Cloud Shell, tetapkan variabel
PROJECT_IDdanLOCATIONagar semua perintah mendatang menargetkan project Google Cloud spesifik Anda.export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"Aktifkan layanan Google Cloud yang diperlukan.
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
Buat set data BigQuery dan siapkan data contoh
Gunakan kode berikut untuk membuat set data BigQuery dan memuat beberapa transaksi CSV sampel ke dalam tabel. Setelah Anda membuat tabel, Knowledge Catalog akan menemukannya dan membuat entri untuk tabel tersebut di katalog.
Anggap entri sebagai representasi aset data Knowledge Catalog. Ini seperti catatan dalam katalog yang dapat Anda lampirkan metadata. Daripada menambahkan konteks ke (atau memperkaya) tabel BigQuery secara langsung, Anda menambahkannya ke entri di Knowledge Catalog.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Sample retail data for foundational data context tutorial" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Jalankan kueri SELECT untuk memverifikasi penyiapan Anda:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
Contoh output:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
Menetapkan istilah umum dengan glosarium bisnis
Konteks data yang baik bergantung pada definisi yang jelas. Misalnya, developer tidak perlu menebak apakah kolom bernama gmv berarti Nilai Barang Kotor atau apakah kolom tersebut menyertakan pajak dan pengembalian barang. Glosarium bisnis menciptakan satu sumber tepercaya untuk definisi ini di seluruh organisasi Anda. Saat rekan tim atau agen AI menganalisis data Anda, mereka akan mewarisi konteks bisnis yang tepat ini. Definisi bersama menyelaraskan metrik di seluruh tim seperti Keuangan, Penjualan, dan Operasi, serta membantu agen AI menghindari halusinasi.
Ikuti langkah-langkah berikut untuk membuat glosarium dan menentukan istilah pertama Anda:
Di konsol Google Cloud , buka halaman Glosarium Knowledge Catalog.
Klik Buat Glosarium Bisnis.
Masukkan detail berikut:
- Nama tampilan:
Retail Business Glossary - Lokasi:
us-central1 (Iowa)
- Nama tampilan:
Klik Create.
Klik Buat Kategori.
Beri nama kategori
Sales Metrics, lalu klik Buat.Pilih kategori Metrik Penjualan, lalu klik Tambahkan istilah.
Beri nama istilah
Gross Merchandise Value, lalu klik Buat.Klik istilah Nilai Produk Kotor untuk membuka halaman detailnya.
Klik Tambahkan di samping Ringkasan. Masukkan detail berikut:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.Klik Simpan.
Anda kini telah membuat istilah glosarium yang dapat ditautkan ke entri data di seluruh organisasi Anda.
Menentukan metadata teknis dengan jenis aspek
Saat menggunakan tag metadata tidak terstruktur, Anda sering kali mendapatkan entri katalog yang tidak konsisten. Misalnya, satu tabel mungkin diberi tag owner:bob dan tabel lainnya steward:alice@example.com. Untuk menjaga metadata Anda tetap teratur dalam skala besar, Anda memerlukan skema yang konsisten.
Di sinilah jenis aspek berperan. Jenis aspek adalah cetak biru metadata yang memungkinkan Anda menetapkan aturan yang jelas dan kolom wajib diisi. Dengan mewajibkan kolom standar seperti alamat email yang valid untuk pengelola data, skrip hilir dapat memvalidasi dan melindungi metadata Anda secara otomatis.
Ikuti langkah-langkah berikut untuk membuat jenis aspek:
Di konsol Google Cloud , buka tab Jenis aspek Knowledge Catalog di halaman Jenis metadata.
Di tab Kustom, klik Buat.
Masukkan detail berikut:
- Nama tampilan:
Data Asset Context - Lokasi:
us-central1 (Iowa)
- Nama tampilan:
Di bagian Template, klik Add field untuk membuat tiga kolom berikut:
Kolom 1:
- Nama tampilan:
Data Steward - Jenis:
Text - Wajib Diisi: Centang kotak.
- Jenis teks:
Plain text
- Nama tampilan:
Kolom 2 (klik Tambahkan kolom):
- Nama tampilan:
Data Sensitivity - Jenis:
Enum - Wajib Diisi: Biarkan opsional.
- Nilai: Tambahkan
Public,Internal, danConfidential
- Nama tampilan:
Kolom 3 (klik Tambahkan kolom):
- Nama tampilan:
Last Review Date - Wajib Diisi: Biarkan opsional.
- Jenis:
Date and time
- Nama tampilan:
Klik Simpan.
Sekarang Anda memiliki jenis aspek untuk kolom metadata terkait tata kelola data seperti pengelola data, tingkat sensitivitas, dan tanggal peninjauan. Di bagian berikutnya, Anda akan menerapkan skema ini ke entri tabel dengan melampirkan aspek dengan nilai tertentu untuk kolom ini.
Memperkaya entri dengan konteks bisnis dan teknis
Nama kolom sering disingkat atau ambigu. Menautkan kolom ke istilah dalam glosarium bisnis Anda akan memberikan definisi yang jelas dan konsisten. Pada langkah ini, Anda memperkaya entri untuk tabel retail_data.transactions dengan menautkan istilah Gross Merchandise Value ke kolom bernama gmv dan melampirkan aspek ke entri tabel menggunakan jenis aspek Anda.
Menautkan kolom ke istilah bisnis
Untuk mengklarifikasi apa itu kolom gmv di retail_data.transactions, tautkan ke istilah Gross Merchandise Value Anda.
Di konsol Google Cloud , buka halaman Penelusuran Knowledge Catalog.
Klik Filter untuk membuka panel Filter.
Untuk Cakupan, pilih Project Saat Ini.
Telusuri
retail_data.transactionsdan klik tabel transaksi yang dikembalikan.Klik tab Schema.
Centang kotak di samping kolom
gmv, lalu klik Tambahkan istilah bisnis.Pilih
Gross Merchandise Value.
Melampirkan aspek ke entri tabel
Selain menautkan istilah bisnis ke kolom, Anda dapat melampirkan aspek ke entri tabel untuk mengambil metadata tingkat tabel, seperti kepemilikan dan sensitivitas data.
Aspek adalah instance jenis aspek, dengan nilai tertentu untuk kolom metadata. Saat Anda melampirkan aspek ke entri, Knowledge Catalog akan memeriksa informasi yang Anda berikan berdasarkan skema yang ditentukan dalam jenis aspek untuk memastikan konsistensi.
Untuk menentukan kepemilikan dan sensitivitas tabel retail_data.transactions, lampirkan aspek Data Asset Context:
- Di tab Detail pada halaman entri
retail_data.transactions, klik Tambahkan di samping Aspek opsional. - Pilih
Data Asset Contextdari daftar. Masukkan nilai di kolom:
- Pengelola Data:
finance-team@example.com - Sensitivitas Data: Pilih Internal.
- Tanggal Ulasan Terakhir: Pilih tanggal hari ini.
- Pengelola Data:
Klik Simpan.
Dengan memperkaya data transaksi retail sampel, Anda telah menyiapkan fondasi konteks data yang kuat di Knowledge Catalog.
Menelusuri entri menggunakan metadata yang diperkaya
Sekarang Anda dapat menggunakan Penelusuran Knowledge Catalog untuk menemukan entri berdasarkan konteks bisnis yang Anda siapkan. Misalnya, Anda dapat menemukan semua aset dengan tingkat sensitivitas tertentu, atau menelusuri istilah glosarium untuk menemukan tabel pokok.
Di konsol Google Cloud , buka halaman Penelusuran Knowledge Catalog.
Klik Filter untuk membuka panel Filter.
Untuk Cakupan, pilih Project Saat Ini.
Di kotak penelusuran, masukkan
Find tables where the Data Asset Context aspect has Internal sensitivity.Anda akan melihat tabel
retail_data.transactionsdi daftar hasil.Hapus teks di kotak penelusuran, lalu masukkan
Find tables with the Gross Merchandise Value term attached.Anda akan melihat tabel
retail_data.transactionslagi di hasil, karena kolomgmv-nya ditautkan langsung ke istilah bisnis ini.
Saat Anda menghubungkan agen AI ke Knowledge Catalog, agen tersebut akan otomatis mewarisi metadata yang telah di-enrich ini. Misalnya, saat Anda meminta agen untuk mengambil metrik penjualan internal, agen akan membaca aspek Sensitivitas Data (yang Anda tetapkan ke Internal) dan istilah glosarium Nilai Kotor Merchandise (GMV) yang ditautkan. Konteks bersama ini membantu agen memverifikasi sumber datanya, mematuhi kebijakan akses, dan menghindari halusinasi.
Pembersihan
Agar tidak menimbulkan biaya, hapus resource yang Anda buat dalam tutorial ini.
Menghapus set data sampel
Untuk menghapus set data BigQuery sampel dan semua tabelnya, gunakan perintah berikut. Tindakan ini tidak dapat diurungkan.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Menghapus artefak Knowledge Catalog
Di konsol Google Cloud , buka tab Jenis aspek Knowledge Catalog di halaman Jenis metadata.
Pilih jenis aspek
Data Asset Context, lalu klik Hapus.Di konsol Google Cloud , buka halaman Glosarium Knowledge Catalog.
Pilih istilah
Gross Merchandise Value, lalu klik Hapus.Pilih kategori
Sales Metrics, lalu klik Hapus.Pilih
Retail Business Glossary, lalu klik Hapus.
Langkah berikutnya
Untuk mempelajari lebih lanjut kurasi katalog dan pembuatan agen dengan Knowledge Catalog, lihat referensi berikut:
- Mengelola aspek dan memperkaya metadata: Pelajari cara menentukan skema kustom dan melampirkan metadata terstruktur di Mengelola aspek dan memperkaya metadata.
- Mengelola glosarium bisnis: Pelajari cara membuat kosakata standar untuk organisasi Anda di Mengelola glosarium bisnis.
- Tata Kelola dengan Terraform: Pelajari cara menyediakan jenis aspek dan glosarium kustom menggunakan Terraform.
- Bekerja dengan istilah glosarium dalam skala besar: Lakukan pengayaan metadata massal menggunakan file JSON di Tentang mengimpor dan mengekspor glosarium dan link entri.
- Memperkaya metadata dengan agen: Bangun agen AI untuk mengekstrak konteks dan memperkaya aset data Anda di Membangun agen untuk memperkaya metadata Anda.
- Pelajari kasus penggunaan lainnya: Temukan alur kerja dan skenario langsung tambahan di Kasus penggunaan.