面向 AI 代理的 Knowledge Catalog

随着数据生态系统日益复杂,AI 应用不仅需要原始数据访问权限, 还需要业务背景信息。 Knowledge Catalog 是 Dataplex 的升级版,其重点转向为 AI 和智能体系统赋能。

此平台的核心是一个统一的映射,可将您的物理数据资产与业务语义、治理规则和使用关系相关联。通过将 Knowledge Catalog 集成到 AI 工作流中,您可以实现以下目标:

  • 为 AI 智能体提供可靠、最新且具有上下文的元数据,以指导智能体推理。

  • 减少幻觉,并确保生成式模型基于已确立的企业真实数据回答问题。

  • 为 AI 智能体提供统一的上下文(即数据格局的单一受治理视图)。

使用场景

Knowledge Catalog 在数据和 AI 生命周期中扮演着不同的角色:

  • AI 开发者和智能体构建者。开发者构建自定义机器人或智能体(例如,使用 LangChain 或智能体开发套件 (ADK)),这些机器人或智能体必须查询和理解企业数据。

    • 使用场景: 自然语言搜索和检索上下文,使智能体能够处理企业数据;智能体数据发现。
  • 数据分析师。使用 Gemini in BigQuery 或 Looker 等 AI 辅助工具查找数据并了解其业务含义的用户。

    • 使用场景: 自然语言查询和对话式数据探索。
  • 数据监管员。领域专家,负责监督 AI 驱动的元数据丰富,并确保目录上下文的质量。

    • 使用场景: 审核、整理和推广 AI 生成的元数据和说明。

使用 MCP 访问 Knowledge Catalog 上下文

Model Context Protocol (MCP) 是一种标准化桥梁,可让 AI 智能体和工具无缝连接到 Knowledge Catalog 等数据源。

为了适应不同的部署工作流,Knowledge Catalog 提供了两种类型的 MCP 实现。了解何时使用每种实现是设置环境的关键:

  • 远程 MCP 服务器: 在构建云原生应用、将代理部署到无服务器环境(如 Cloud Run)或与外部托管服务集成时,如果您希望避免管理本地基础架构,则可以使用此服务器。

  • 本地 MCP 工具箱: 在本地智能体开发、快速原型设计期间,或者当您需要与本地桌面 IDE(如 VS Code 或 Cursor)直接集成时,可以使用此工具箱。

远程 MCP 服务器

Google 托管的端点,可让 AI 应用和服务(例如在 Cloud Run 上运行的智能体或 Claude 等外部服务)直接访问 Knowledge Catalog 工具。

  • 端点https://dataplex.googleapis.com/mcp
  • 优势: 无需运行本地 MCP 服务器;适用于无服务器环境。
  • 参考文档使用远程 MCP 服务器

本地 MCP 工具箱

一种命令行工具,充当 IDE(例如 VS Code、Cursor)或本地工具与 Knowledge Catalog 之间的本地代理。

  • 安装: 可下载的二进制文件。
  • 配置: 通常涉及项目或 IDE 配置中的 .mcp.json 或设置文件。
  • 优势: 非常适合本地安全开发环境以及与各种 IDE 集成。
  • 参考文档使用本地 MCP 服务器

丰富 Knowledge Catalog 的上下文

为了最大限度地发挥 Knowledge Catalog 对 AI 的价值,底层图必须包含丰富的业务背景信息。您可以通过开箱即用型功能或自定义智能体丰富来实现此目的。

使用数据分析洞见进行开箱即用型丰富

数据分析洞见(由 Gemini in BigQuery 提供支持)会自动丰富您的目录,从而减少新数据平台的“冷启动”问题。启用后,它会自动生成以下内容:

  • 数据集和列级说明。
  • 表之间的关系图。
  • 基于历史使用模式的示例查询。

这可为下游智能体提供即时语义理解,而无需手动进行数据监管。

例如,对于名为 telco_churn 的表,数据分析洞见可以自动为 TenureMonthlyCharges 等字段生成说明,推断与客户表的关系,并向目录发布示例查询,例如按细分查找流失率。

使用智能体进行自定义上下文丰富

对于拥有专用知识库的组织,您可以构建自定义丰富智能体,以从内部 Wiki、代码库或专有系统等定制来源注入元数据。

  • Knowledge Catalog API(CRUD 操作): 用于在目录中添加或更新元数据。

    • 例如,调用 UpdateEntry API 方法,以使用从内部系统提取的文档以编程方式将概览方面附加到表。
  • ADK 等工具: 用于构建丰富智能体。

    • 例如,构建一个基于 Java 的 ADK 智能体,该智能体使用内部工具提取技术 Wiki 页面,使用 LLM 将其解析为术语表术语,并将这些术语同步到 Knowledge Catalog。
  • 导出和导入操作: 用于批量元数据更新(需要审核)。

    • 例如,将 AI 生成的业务术语库导出到文件,让数据监管员协同审核和完善定义,然后将最终文件导入回目录。

后续步骤