将 Knowledge Catalog 与 BigQuery 配合使用
Knowledge Catalog(以前称为 Dataplex Universal Catalog)与 BigQuery 交互,作为 BigQuery 元数据的中央数据治理和代理访问层。如需了解详情,请参阅 Knowledge Catalog 概览。
如何将 Knowledge Catalog 与 BigQuery 搭配使用?
Knowledge Catalog 通过以下方式与 BigQuery 交互:
自动元数据提取
Knowledge Catalog 会自动发现并为 BigQuery 资产中的技术元数据编入索引。这包括以下内容:
- 资源类型:数据集、表、视图、模型、例程、连接和关联的数据集。
- BigQuery Sharing:来自 BigQuery Sharing(以前称为 Analytics Hub)的交换和商品详情。
- 实时更新:该系统支持近乎实时的提取,并使用 Pub/Sub 提供元数据更改 Feed,以通知下游系统 BigQuery 中的架构更改或删除。
- 暗数据发现:Knowledge Catalog 可以扫描非结构化文件(例如 Cloud Storage 中的 PDF),提取实体,并将其转换为 BigQuery 中可查询的资产。借助此功能,之前无法访问的“暗数据”可用于基于 BigQuery 的分析和 AI 基础。
元数据表示和丰富
- 条目:每个 BigQuery 表或资产都表示为目录中的条目,而不是整个表;例如
project.dataset.table。 - 列级元数据:各个列或字段表示为路径,可让您将特定元数据(例如个人身份信息标记或数据质量得分)附加到 BigQuery 表中的各个字段,而不仅仅是表本身。
- 切面:通过切面丰富技术元数据,从而为数据添加业务情境,例如所有权、数据质量和文档。
- 数据产品:您可以将相关的 BigQuery 资产打包成数据产品(例如电子商务商家数据),这些数据产品具有共享的访问权限和治理限制。
数据发现和搜索
- 语义搜索:用户可以使用自然语言搜索 BigQuery 数据,这对于数据科学家和 AI 智能体使用长查询或复杂查询查找可信的数据产品尤其有用。
- 名称转换:为了更轻松地进行程序化查找,系统允许将 BigQuery SQL 名称或完全限定名称转换为 Knowledge Catalog 条目名称。
智能体访问和事实依据
- 智能体访问:AI 智能体可以通过本地或远程 MCP 服务器发现并自适应地使用 Knowledge Catalog 工具。
- AI 智能体的上下文:Knowledge Catalog 可整理将 BigQuery 数据集与业务语义相关联的上下文图,通过确保模型使用企业批准的数据来帮助减少 AI 幻觉。
治理与合规
- 数据沿袭:Knowledge Catalog 会自动跟踪数据在 BigQuery 表中和表之间的流动和转换方式。此功能对于审核整个数据资产中的个人身份信息 (PII) 等敏感信息至关重要。
- 访问权限控制:元数据管理与 Identity and Access Management (IAM) 和 VPC Service Controls 集成,以确保发现和访问 BigQuery 元数据符合组织的安全政策。
迁移注意事项
从已弃用的 Data Catalog 迁移到 Knowledge Catalog 涉及多个步骤。BigQuery 中的标准元数据(例如数据集、表、视图)会自动在 Knowledge Catalog 中提供,因此迁移过程主要侧重于自定义元数据、API 使用情况和用户界面默认设置。
以下是迁移时需要考虑的主要事项:
了解变更
与 Data Catalog 相比,Knowledge Catalog 在元数据管理、治理和发现方面提供了增强功能。Knowledge Catalog 使用不同的 API(Knowledge Catalog API),并且数据模型略有不同;例如,Knowledge Catalog 使用切面和切面类型,而不是标记和标记模板。
评估当前数据目录使用情况
- 无自定义元数据:如果您仅依赖 Knowledge Catalog 自动提取和发现标准 BigQuery 元数据,而未创建任何自定义标记、标记模板、自定义条目或条目组,则迁移过程非常简单。您可以立即开始使用 Knowledge Catalog 界面。
- 自定义元数据或以程序化方式使用:如果您创建了自定义标记或模板、自定义条目,或者使用 Data Catalog API、客户端库、Google Cloud CLI 命令或 Terraform,则需要更结构化的过渡。
BigQuery 具体注意事项
- 自动提取:BigQuery 资产(数据集、表、视图、模型和例程)中的技术元数据会继续自动提取到 Knowledge Catalog 中,就像之前使用 Dataplex Universal Catalog 时一样。
- 政策标记:用于 BigQuery 列级访问权限控制的政策标记未被弃用,其管理仍在 BigQuery 中进行。
- 沿袭:BigQuery 操作的数据沿袭会在 Knowledge Catalog 中显示。如需详细了解数据沿袭,请参阅跟踪 BigQuery 表的数据沿袭。
请按照过渡指南操作
如需迁移到 Knowledge Catalog,请按照从 Data Catalog 迁移到 Knowledge Catalog 中的步骤操作。
如需将程序化工作流更新为 Knowledge Catalog API,请参阅将 Data Catalog API 方法映射到 Knowledge Catalog。
后续步骤
详细了解 Knowledge Catalog: