随着数据生态系统日益复杂,AI 应用不仅需要原始数据访问权限, 还需要业务背景信息。 Knowledge Catalog 是 Dataplex 的升级版,其重点转向为 AI 和智能体系统赋能。
此平台的核心是一个统一的映射,可将您的物理数据资产与业务语义、治理规则和使用关系相关联。通过将 Knowledge Catalog 集成到 AI 工作流中,您可以实现以下目标:
为 AI 智能体提供可靠、最新且具有上下文的元数据,以指导智能体推理。
减少幻觉,并确保生成式模型基于已确立的企业真实数据回答问题。
为 AI 智能体提供统一的上下文(即数据格局的单一受治理视图)。
使用场景
Knowledge Catalog 在数据和 AI 生命周期中扮演着不同的角色:
AI 开发者和智能体构建者。开发者构建自定义机器人或智能体(例如,使用 LangChain 或智能体开发套件 (ADK)),这些机器人或智能体必须查询和理解企业数据。
- 使用场景: 自然语言搜索和检索上下文,使智能体能够处理企业数据;智能体数据发现。
数据分析师。使用 Gemini in BigQuery 或 Looker 等 AI 辅助工具查找数据并了解其业务含义的用户。
- 使用场景: 自然语言查询和对话式数据探索。
数据监管员。领域专家,负责监督 AI 驱动的元数据丰富,并确保目录上下文的质量。
- 使用场景: 审核、整理和推广 AI 生成的元数据和说明。
使用 MCP 访问 Knowledge Catalog 上下文
Model Context Protocol (MCP) 是一种标准化桥梁,可让 AI 智能体和工具无缝连接到 Knowledge Catalog 等数据源。
为了适应不同的部署工作流,Knowledge Catalog 提供了两种类型的 MCP 实现。了解何时使用每种实现是设置环境的关键:
远程 MCP 服务器: 在构建云原生应用、将代理部署到无服务器环境(如 Cloud Run)或与外部托管服务集成时,如果您希望避免管理本地基础架构,则可以使用此服务器。
本地 MCP 工具箱: 在本地智能体开发、快速原型设计期间,或者当您需要与本地桌面 IDE(如 VS Code 或 Cursor)直接集成时,可以使用此工具箱。
远程 MCP 服务器
Google 托管的端点,可让 AI 应用和服务(例如在 Cloud Run 上运行的智能体或 Claude 等外部服务)直接访问 Knowledge Catalog 工具。
- 端点:
https://dataplex.googleapis.com/mcp - 优势: 无需运行本地 MCP 服务器;适用于无服务器环境。
- 参考文档: 使用远程 MCP 服务器
本地 MCP 工具箱
一种命令行工具,充当 IDE(例如 VS Code、Cursor)或本地工具与 Knowledge Catalog 之间的本地代理。
- 安装: 可下载的二进制文件。
- 配置: 通常涉及项目或 IDE 配置中的
.mcp.json或设置文件。 - 优势: 非常适合本地安全开发环境以及与各种 IDE 集成。
- 参考文档: 使用本地 MCP 服务器
丰富 Knowledge Catalog 的上下文
为了最大限度地发挥 Knowledge Catalog 对 AI 的价值,底层图必须包含丰富的业务背景信息。您可以通过开箱即用型功能或自定义智能体丰富来实现此目的。
使用数据分析洞见进行开箱即用型丰富
数据分析洞见(由 Gemini in BigQuery 提供支持)会自动丰富您的目录,从而减少新数据平台的“冷启动”问题。启用后,它会自动生成以下内容:
- 数据集和列级说明。
- 表之间的关系图。
- 基于历史使用模式的示例查询。
这可为下游智能体提供即时语义理解,而无需手动进行数据监管。
例如,对于名为 telco_churn 的表,数据分析洞见可以自动为 Tenure 和 MonthlyCharges 等字段生成说明,推断与客户表的关系,并向目录发布示例查询,例如按细分查找流失率。
使用智能体进行自定义上下文丰富
对于拥有专用知识库的组织,您可以构建自定义丰富智能体,以从内部 Wiki、代码库或专有系统等定制来源注入元数据。
Knowledge Catalog API(CRUD 操作): 用于在目录中添加或更新元数据。
- 例如,调用
UpdateEntryAPI 方法,以使用从内部系统提取的文档以编程方式将概览方面附加到表。
- 例如,调用
ADK 等工具: 用于构建丰富智能体。
- 例如,构建一个基于 Java 的 ADK 智能体,该智能体使用内部工具提取技术 Wiki 页面,使用 LLM 将其解析为术语表术语,并将这些术语同步到 Knowledge Catalog。
导出和导入操作: 用于批量元数据更新(需要审核)。
- 例如,将 AI 生成的业务术语库导出到文件,让数据监管员协同审核和完善定义,然后将最终文件导入回目录。
后续步骤
访问 Knowledge Catalog 中的数据分析洞见。