Knowledge Catalog untuk agen AI

Seiring pertumbuhan ekosistem data yang semakin kompleks, aplikasi AI memerlukan lebih dari sekadar akses data mentah. Mereka memerlukan konteks bisnis. Knowledge Catalog merupakan evolusi dari Dataplex, yang mengalihkan fokus untuk mendukung AI dan sistem agentic.

Di inti platform ini, peta terpadu menautkan aset data fisik Anda dengan semantik bisnis, aturan tata kelola, dan hubungan penggunaan. Dengan mengintegrasikan Knowledge Catalog ke dalam alur kerja AI, Anda dapat mencapai hal berikut:

  • Mendasarkan agen AI untuk memberikan metadata yang andal, terbaru, dan kontekstual untuk memandu penalaran agen.

  • Mengurangi halusinasi dan memastikan model generatif mendasarkan jawabannya pada informasi akurat dari perusahaan yang sudah ditetapkan.

  • Menyediakan konteks terpadu—tampilan tunggal dan teratur dari lanskap data Anda—untuk agen AI.

Kasus penggunaan

Knowledge Catalog memiliki peran yang berbeda di seluruh siklus proses data dan AI:

  • Developer AI dan pembuat agen. Developer yang membuat bot atau agen kustom (misalnya, menggunakan LangChain atau Agent Development Kit (ADK)) yang harus mengkueri dan memahami data perusahaan.

    • Kasus penggunaan: Penelusuran dan pengambilan konteks bahasa alami untuk memungkinkan agen bekerja dengan data perusahaan; penemuan data agentic.
  • Analis data. Pengguna yang menggunakan alat yang dibantu AI seperti Gemini di BigQuery atau Looker untuk menemukan data dan memahami makna bisnisnya.

    • Kasus penggunaan: Kueri bahasa alami dan eksplorasi data percakapan.
  • Pengelola data. Pakar domain yang mengawasi pengayaan metadata berbasis AI dan memastikan kualitas konteks katalog.

    • Kasus penggunaan: Meninjau, menyeleksi, dan mempromosikan metadata dan deskripsi buatan AI.

Mengakses konteks Knowledge Catalog dengan MCP

Model Context Protocol (MCP) adalah jembatan standar yang memungkinkan agen dan alat AI terhubung dengan lancar ke sumber data seperti Knowledge Catalog.

Untuk mengakomodasi berbagai alur kerja deployment, Knowledge Catalog menawarkan dua jenis penerapan MCP. Memahami kapan harus menggunakan setiap metode sangat penting untuk menyiapkan lingkungan Anda:

  • Server MCP Jarak Jauh: saat membangun aplikasi cloud-native, men-deploy agen ke lingkungan serverless (seperti Cloud Run), atau mengintegrasikan dengan layanan terkelola eksternal yang tidak ingin Anda kelola infrastruktur lokalnya.

  • MCP Toolbox Lokal: selama pengembangan agen lokal, pembuatan prototipe cepat, atau saat Anda memerlukan integrasi langsung dengan IDE desktop lokal seperti VS Code atau Cursor.

Server MCP Jarak Jauh

Endpoint yang dihosting Google yang memungkinkan akses langsung ke alat Knowledge Catalog untuk aplikasi dan layanan AI (misalnya, agen yang berjalan di Cloud Run atau layanan eksternal seperti Claude).

  • Endpoint: https://dataplex.googleapis.com/mcp
  • Manfaat: Tidak perlu menjalankan server MCP lokal; cocok untuk lingkungan serverless.
  • Referensi: Menggunakan server MCP jarak jauh

MCP Toolbox Lokal

Alat command line yang bertindak sebagai proxy lokal antara IDE Anda (misalnya, VS Code, Cursor) atau alat lokal dan Knowledge Catalog.

  • Penginstalan: Biner yang dapat didownload.
  • Konfigurasi: Biasanya melibatkan file .mcp.json atau setelan dalam konfigurasi project atau IDE Anda.
  • Manfaat: Ideal untuk lingkungan pengembangan yang aman secara lokal dan integrasi dengan berbagai IDE.
  • Referensi: Menggunakan server MCP lokal

Memperkaya konteks untuk Knowledge Catalog

Untuk memaksimalkan nilai Knowledge Catalog untuk AI, grafik yang mendasarinya harus kaya akan konteks bisnis. Anda dapat melakukannya melalui fitur siap pakai atau pengayaan agentik kustom.

Pengayaan siap pakai dengan insight data

Insight data (didukung oleh Gemini in BigQuery) secara otomatis memperkaya katalog Anda, sehingga mengurangi masalah "cold start" untuk platform data baru. Jika diaktifkan, fitur ini akan otomatis menghasilkan hal berikut:

  • Deskripsi tingkat set data dan kolom.
  • Grafik hubungan antartabel.
  • Contoh kueri berdasarkan pola penggunaan historis.

Hal ini memberikan pemahaman semantik langsung kepada agen hilir tanpa memerlukan pengelolaan data manual.

Misalnya, untuk tabel bernama telco_churn, insight data dapat secara otomatis membuat deskripsi untuk kolom seperti Tenure dan MonthlyCharges, menyimpulkan hubungan ke tabel pelanggan, dan memublikasikan contoh kueri seperti menemukan tingkat churn menurut segmen ke katalog.

Pengayaan konteks kustom dengan agen

Untuk organisasi dengan pusat informasi khusus, Anda dapat membuat agen pengayaan kustom untuk menyerap metadata dari sumber khusus seperti wiki internal, repositori kode, atau sistem eksklusif.

  • Knowledge Catalog API (operasi CRUD): digunakan untuk menambahkan atau memperbarui metadata dalam katalog.

    • Misalnya, panggil metode API UpdateEntry untuk melampirkan aspek ringkasan ke tabel secara terprogram menggunakan dokumentasi yang diekstrak dari sistem internal.
  • Alat seperti ADK: digunakan untuk membangun agen pengayaan Anda.

    • Misalnya, buat agen ADK berbasis Java yang menggunakan alat internal untuk mengekstrak halaman wiki teknis, menggunakan LLM untuk menguraikannya menjadi istilah glosarium, dan menyinkronkan istilah tersebut ke Knowledge Catalog.
  • Operasi ekspor dan impor: digunakan untuk pembaruan metadata massal dengan peninjauan.

    • Misalnya, ekspor glosarium bisnis buatan AI ke file, minta pengelola data meninjau dan menyempurnakan definisi secara kolaboratif, lalu impor file akhir kembali ke katalog.

Langkah berikutnya