Knowledge Catalog adalah katalog data yang didukung Gemini yang menyediakan konteks dan tata kelola bisnis universal untuk seluruh aset data Anda. Dengan mengekstrak semantik secara otomatis dari data terstruktur dan tidak terstruktur, katalog ini membangun grafik konteks dinamis yang mendasari agen AI dalam kebenaran perusahaan dan mengurangi halusinasi. Tim data dan developer AI menggunakan Knowledge Catalog untuk menemukan data, menerapkan kebijakan, dan mengambil konteks lengkap untuk aplikasi analisis dan otonom.
Dataplex Universal Catalog kini menjadi Knowledge Catalog
Untuk mencerminkan visi penyatuan tata kelola data dengan kemampuan AI generatif dengan lebih baik, Dataplex Universal Catalog kini menjadi Knowledge Catalog. Evolusi nama produk ini menunjukkan perubahan dari registry metadata pasif konvensional menjadi grafik konteks aktif yang didukung AI.
Mengapa Dataplex menjadi Knowledge Catalog
Saat organisasi mempercepat adopsi AI generatif, agen AI memerlukan konteks bisnis yang mendalam untuk memberikan respons yang akurat dan mendasar. Knowledge Catalog menjembatani kesenjangan antara tata kelola data perusahaan dan alur kerja agen AI.
Apa perbedaan antara Dataplex dan Knowledge Catalog
Update Knowledge Catalog mencerminkan kemampuan baru yang berpusat pada AI. Tidak seperti katalog pasif konvensional, Knowledge Catalog secara otomatis mengelola metadata, logika bisnis, dan hubungan data ke dalam grafik konteks terpadu. Grafik ini memberikan kebenaran perusahaan yang andal yang dibutuhkan agen AI untuk menjalankan tugas kompleks secara akurat. Grafik ini memanfaatkan fitur seperti pengelolaan konteks otomatis, kueri contoh terverifikasi, dan integrasi Model Context Protocol (MCP) lokal dan jarak jauh.
Apa yang tidak berubah
Deployment, API, dan konfigurasi Dataplex yang ada tetap beroperasi. Fitur inti seperti penemuan data, silsilah, kualitas data, dan glosarium bisnis tidak berubah dan didukung. Metadata, aspek, dan konfigurasi yang ada akan beralih ke pengalaman Knowledge Catalog baru tanpa migrasi manual, pergerakan data, atau waktu henti.
API dan library klien
Perubahan nama menjadi Knowledge Catalog tidak mengubah endpoint API, perintah gcloud dataplex, atau library klien yang ada. Anda dapat terus menggunakan API dan library klien Knowledge Catalog untuk berinteraksi dengan Knowledge Catalog:
REST API. Lihat dokumentasi REST API Knowledge Catalog.
RPC API. Lihat dokumentasi RPC API Knowledge Catalog.
Library klien. Mulai menggunakan Knowledge Catalog dalam bahasa pilihan Anda menggunakan the library klien Knowledge Catalog.
Perintah gcloud. Kelola resource Knowledge Catalog menggunakan grup perintah
gcloud dataplex. Lihat referensi perintah gcloud Dataplex.
Cara kerja Knowledge Catalog
Knowledge Catalog menyatukan tata kelola dan konteks melalui tiga pilar inti:
Dasar tata kelola. Knowledge Catalog secara otomatis mengumpulkan metadata teknis dari Google Cloud layanan seperti BigQuery, AlloyDB untuk PostgreSQL, dan Spanner, bersama dengan sistem pihak ketiga. Layanan ini menetapkan dasar data tepercaya melalui glosarium bisnis terpusat, pemeriksaan kualitas data, deteksi anomali, dan tata kelola berbasis kebijakan.
Pengelolaan konteks. Dengan menggunakan Gemini, layanan ini menyimpulkan tujuan bisnis dengan menganalisis skema, log kueri, dan model semantik di seluruh data Anda. Layanan ini menghasilkan deskripsi bahasa alami, menemukan hubungan, dan mengusulkan pola SQL terverifikasi dalam bentuk kueri contoh yang menangkap logika bisnis yang kompleks.
Pengambilan konteks. Agen dan aplikasi AI dapat langsung menemukan aset dan mengambil konteks yang diperkaya melalui penelusuran semantik dan alat yang mendukung Model Context Protocol (MCP). Hal ini memungkinkan agen mengakses kebenaran organisasi untuk pengambilan keputusan yang andal.
Diagram berikut mengilustrasikan arsitektur Knowledge Catalog dan cara menyatukan tata kelola data dengan alur kerja AI generatif:
Kasus penggunaan umum
Knowledge Catalog membantu engineer data, data scientist, dan developer AI memecahkan tantangan dalam pengelolaan data dan pengembangan AI:
Memperkaya data untuk AI. Gunakan insight data untuk data tidak terstruktur guna mengekstrak metadata dan entity secara otomatis dari file tidak terstruktur seperti PDF di Cloud Storage. Hal ini membuat data gelap dan pengetahuan organisasi dapat diakses oleh model AI.
Mengurangi halusinasi AI. Berikan agen AI dengan kueri contoh yang telah diverifikasi sebelumnya dan batasan semantik, sehingga memungkinkan mereka menjalankan pengambilan data yang kompleks dengan akurasi yang lebih deterministik.
Mempercepat penemuan data. Gunakan penelusuran semantik dan grafik konteks terpusat untuk menemukan aset data yang relevan di berbagai sumber untuk alur kerja analisis dan ilmu data.
Mengotomatiskan pembuatan produk data. Simpulkan hubungan di seluruh aset data Anda untuk mengemas aset ke dalam produk data mandiri dengan perjanjian tingkat layanan (SLA) dan batasan tata kelola bawaan.
Contoh alur kerja di Knowledge Catalog
Untuk melihat cara membangun grafik konteks dan mengelola aset data, pertimbangkan cara perusahaan retail online menggunakan fitur Knowledge Catalog berikut:
Menemukan dan membuat katalog data. Retailer secara otomatis menyerap data transaksi dan mengumpulkan metadata dari Google Cloud layanan seperti BigQuery, Pub/Sub, dan Cloud Storage. Layanan ini juga mengimpor metadata dari database inventaris kustom untuk membangun tampilan terpadu dari seluruh aset data retail. Untuk mengetahui informasi selengkapnya, lihat Menemukan data.
Menelusuri aset data. Data scientist menemukan aset data pelanggan yang tepat yang mereka butuhkan menggunakan mesin penelusuran Knowledge Catalog dengan pemfilteran berfaset, penelusuran semantik bahasa alami, dan operator logis. Untuk mengetahui informasi selengkapnya, lihat Menelusuri aset data.
Memperkaya data dengan konteks bisnis. Tim tata kelola data menentukan terminologi retail (seperti "Nilai Pelanggan Sepanjang Waktu" atau "SKU") menggunakan glosarium bisnis, dan menggunakan insight data yang didukung AI untuk otomatis membuat deskripsi untuk tabel produk baru. Mereka juga menerapkan metadata dan tag kustom terstruktur (aspek) secara manual dan seragam di seluruh aset. Untuk mengetahui informasi selengkapnya, lihat Mengelola aspek dan memperkaya metadata dan Mengelola glosarium bisnis.
Memahami hubungan data dengan silsilah. Tim teknik secara otomatis melacak silsilah data untuk melihat cara data pesanan berpindah, diubah, dan digunakan di seluruh sistem mereka. Mereka menggunakan grafik silsilah untuk memecahkan masalah pipeline pelaporan, melakukan analisis akar masalah pada error checkout, dan memastikan kepatuhan. Untuk mengetahui informasi selengkapnya, lihat Ringkasan silsilah data.
Membuat profil data dan mengukur kualitas. Retailer menggunakan pembuatan profil data otomatis untuk mengidentifikasi pola dan anomali dalam tabel harga BigQuery mereka. Mereka menentukan dan menjalankan pemeriksaan kualitas data untuk memastikan alamat pengiriman pelanggan akurat, lengkap, dan andal untuk beban kerja AI dan pemenuhan downstream. Untuk mengetahui informasi selengkapnya, lihat Ringkasan pembuatan profil data dan Ringkasan kualitas data otomatis.
Mengelola dan membagikan produk data. Tim platform data mengemas aset penjualan regional dan metadata, skor kualitas, serta silsilah terkait ke dalam produk data "Pelanggan 360" yang dikelola yang ditemukan dan digunakan oleh tim pemasaran dan inventaris. Untuk mengetahui informasi selengkapnya, lihat Produk data ringkasan.
Knowledge Catalog dalam Google Cloud ekosistem
Saat membangun dasar data, Anda harus memahami cara Knowledge Catalog terintegrasi dengan layanan terkait Google Cloud
| Layanan | Peran utama | Kapan digunakan |
|---|---|---|
| Knowledge Catalog | Konteks agentic dan tata kelola data | Gunakan untuk membuat katalog metadata, mengelola kualitas data, dan menyediakan dasar semantik untuk agen AI. |
| BigQuery | Data warehouse perusahaan | Gunakan untuk menyimpan, mengirim kueri, dan menganalisis set data besar. Knowledge Catalog memperkaya data BigQuery dengan konteks bisnis. |
| Agent Platform | Platform AI dan machine learning | Gunakan untuk membangun dan men-deploy model ML dan agen AI. Agen menggunakan Knowledge Catalog API untuk mengambil konteks perusahaan yang akurat. |
| Cloud Storage | Penyimpanan data tidak terstruktur | Gunakan untuk menyimpan file mentah. Knowledge Catalog memindai bucket Cloud Storage untuk mengekstrak metadata dan entity yang dapat ditelusuri. |
Konsep inti
Untuk menggunakan Knowledge Catalog secara efektif, pahami konsep utama berikut:
Grafik konteks. Peta dinamis dan terpadu tentang hubungan data dengan bisnis Anda. Grafik ini menghubungkan skema teknis dengan entity bisnis dan pengetahuan tidak terstruktur.
Kueri contoh. Pola SQL terverifikasi yang dibuat sebelumnya yang menangkap logika bisnis yang kompleks. Kueri ini memungkinkan manusia dan agen AI mengirim kueri data secara akurat tanpa membuat ulang gabungan tabel yang kompleks.
Model Context Protocol (MCP). Standar terbuka yang memungkinkan agen AI menemukan dan menggunakan alat yang tersedia secara adaptif. Knowledge Catalog menggunakan alat MCP untuk menyajikan kebenaran organisasi bersertifikat langsung ke agen, yang menawarkan server MCP jarak jauh dan lokal untuk mengakomodasi persyaratan aksesibilitas dan keamanan.
-- Example: An example query retrieved by an AI agent to ensure accurate revenue calculation
SELECT customer_id, SUM(transaction_amount) AS total_revenue
FROM `sales.processed_transactions`
WHERE transaction_status = 'COMPLETED'
GROUP BY customer_id;
Penyerapan
Knowledge Catalog secara otomatis menyerap metadata dari sumber berikut Google Cloud Untuk beberapa layanan, seperti AlloyDB untuk PostgreSQL dan Cloud SQL, Anda harus mengaktifkan integrasi Knowledge Catalog terlebih dahulu sebelum metadata dapat diserap:
Analisis dan lakehouse
- Set data, tabel, tampilan, model, rutinitas, koneksi, dan set data tertaut BigQuery
- Pertukaran dan listingan berbagi BigQuery (sebelumnya Analytics Hub)
- Repositori dan aset kode Dataform
- Layanan, database, dan tabel Dataproc Metastore
Tabel Katalog REST Iceberg (termasuk Google Cloud IRC katalog runtime Lakehouse, IRC Unity Databricks, IRC Katalog Data AWS Glue, dan IRC Horizon Snowflake )
AI dan Machine learning
- Model, set data, grup fitur, tampilan fitur, dan instance toko online Agent Platform
Business intelligence
- Instance, dasbor, elemen dasbor, Look, project LookML, model, Explore, dan tampilan Looker (Google Cloud core) (Pratinjau)
Database
- Instance, cluster, dan tabel Bigtable (termasuk detail grup kolom)
- Instance, database, tabel, dan tampilan Spanner
Streaming dan pesan
- Topik Pub/Sub
Data tidak terstruktur
Database operasional
- Cluster, instance, database, skema, tabel, dan tampilan AlloyDB untuk PostgreSQL (Pratinjau)—lihat Mengintegrasikan AlloyDB untuk PostgreSQL dengan Knowledge Catalog
- Instance, database, skema, tabel, tampilan Cloud SQL—lihat Mengaktifkan integrasi Cloud SQL
Untuk mengimpor metadata dari sumber pihak ketiga ke Knowledge Catalog, Anda dapat menggunakan pipeline konektivitas terkelola. Untuk mengetahui informasi selengkapnya, lihat Ringkasan konektivitas terkelola.
Batasan
Saat merencanakan deployment, pertimbangkan batasan berikut:
Integrasi yang didukung. Meskipun Knowledge Catalog mendukung sistem pihak ketiga utama, ekstraksi semantik otomatis tertentu mungkin terbatas pada layanan bawaan Google Cloud .
Batas kuota. Kuota API standar berlaku untuk operasi pengambilan konteks dan ekstraksi metadata. Google Cloud
Langkah berikutnya
Pelajari cara menelusuri aset data.
Pelajari tentang silsilah data.
Pelajari tentang pembuatan profil data.
Pelajari tentang kualitas data otomatis.