将 Knowledge Catalog 与 BigQuery 配合使用

Knowledge Catalog(以前称为 Dataplex Universal Catalog)与 BigQuery 交互,作为 BigQuery 元数据的中央数据治理和代理访问层。如需了解详情,请参阅 Knowledge Catalog 概览

如何将 Knowledge Catalog 与 BigQuery 搭配使用?

Knowledge Catalog 通过以下方式与 BigQuery 交互:

自动元数据提取

Knowledge Catalog 会自动发现并为 BigQuery 资产中的技术元数据编入索引。这包括以下内容:

元数据表示和丰富

  • 条目:每个 BigQuery 表或资产都表示为目录中的条目,而不是整个表;例如 project.dataset.table
  • 列级元数据:各个列或字段表示为路径,可让您将特定元数据(例如个人身份信息标记或数据质量得分)附加到 BigQuery 表中的各个字段,而不仅仅是表本身。
  • 切面:通过切面丰富技术元数据,从而为数据添加业务情境,例如所有权、数据质量和文档。
  • 数据产品:您可以将相关的 BigQuery 资产打包成数据产品(例如电子商务商家数据),这些数据产品具有共享的访问权限和治理限制。
  • 语义搜索:用户可以使用自然语言搜索 BigQuery 数据,这对于数据科学家和 AI 智能体使用长查询或复杂查询查找可信的数据产品尤其有用。
  • 名称转换:为了更轻松地进行程序化查找,系统允许将 BigQuery SQL 名称或完全限定名称转换为 Knowledge Catalog 条目名称。

智能体访问和事实依据

  • 智能体访问:AI 智能体可以通过本地或远程 MCP 服务器发现并自适应地使用 Knowledge Catalog 工具。
  • AI 智能体的上下文:Knowledge Catalog 可整理将 BigQuery 数据集与业务语义相关联的上下文图,通过确保模型使用企业批准的数据来帮助减少 AI 幻觉。

治理与合规

  • 数据沿袭:Knowledge Catalog 会自动跟踪数据在 BigQuery 表中和表之间的流动和转换方式。此功能对于审核整个数据资产中的个人身份信息 (PII) 等敏感信息至关重要。
  • 访问权限控制:元数据管理与 Identity and Access Management (IAM)VPC Service Controls 集成,以确保发现和访问 BigQuery 元数据符合组织的安全政策。

迁移注意事项

从已弃用的 Data Catalog 迁移到 Knowledge Catalog 涉及多个步骤。BigQuery 中的标准元数据(例如数据集、表、视图)会自动在 Knowledge Catalog 中提供,因此迁移过程主要侧重于自定义元数据、API 使用情况和用户界面默认设置。

以下是迁移时需要考虑的主要事项:

了解变更

与 Data Catalog 相比,Knowledge Catalog 在元数据管理、治理和发现方面提供了增强功能。Knowledge Catalog 使用不同的 API(Knowledge Catalog API),并且数据模型略有不同;例如,Knowledge Catalog 使用切面和切面类型,而不是标记和标记模板。

评估当前数据目录使用情况

  • 无自定义元数据:如果您仅依赖 Knowledge Catalog 自动提取和发现标准 BigQuery 元数据,而未创建任何自定义标记、标记模板、自定义条目或条目组,则迁移过程非常简单。您可以立即开始使用 Knowledge Catalog 界面。
  • 自定义元数据或以程序化方式使用:如果您创建了自定义标记或模板、自定义条目,或者使用 Data Catalog API、客户端库、Google Cloud CLI 命令或 Terraform,则需要更结构化的过渡。

BigQuery 具体注意事项

  • 自动提取:BigQuery 资产(数据集、表、视图、模型和例程)中的技术元数据会继续自动提取到 Knowledge Catalog 中,就像之前使用 Dataplex Universal Catalog 时一样。
  • 政策标记:用于 BigQuery 列级访问权限控制的政策标记被弃用,其管理仍在 BigQuery 中进行。
  • 沿袭:BigQuery 操作的数据沿袭会在 Knowledge Catalog 中显示。如需详细了解数据沿袭,请参阅跟踪 BigQuery 表的数据沿袭

请按照过渡指南操作

如需迁移到 Knowledge Catalog,请按照从 Data Catalog 迁移到 Knowledge Catalog 中的步骤操作。

如需将程序化工作流更新为 Knowledge Catalog API,请参阅将 Data Catalog API 方法映射到 Knowledge Catalog

后续步骤

详细了解 Knowledge Catalog: