本文档解答了与 Knowledge Catalog(以前称为 Dataplex Universal Catalog)相关的一些常见问题。
如需详细了解 Knowledge Catalog,请参阅 Knowledge Catalog 概览。
什么是 Knowledge Catalog?
Google Knowledge Catalog 是 Google Cloud中数据和 AI 资产的智能治理解决方案。它提供了一个集中式目录,您可以在其中发现、管理和监管 Google Cloud 数据源(如 BigQuery、Cloud Storage、Pub/Sub 和 Spanner)中的数据。它使用 AI 来自动执行数据发现、元数据扩充和数据质量评估。Knowledge Catalog 通过其受监管的数据目录,为 AI 代理生成高质量内容提供了必要的基础。
什么是 Data Catalog?
Data Catalog 是 Google Cloud元数据服务的原名称。随着时间的推移,它演变为 Dataplex Universal Catalog,现在已更名为 Knowledge Catalog。
虽然“Data Catalog”一词仍用于描述此类数据索引,但在 Google Cloud的上下文中,它指的是我们的旧版产品。我们建议所有新项目都使用 Knowledge Catalog,以便充分利用 AI 赋能的功能和增强的治理功能。
Knowledge Catalog 与 Data Catalog 有何不同?
是的,Knowledge Catalog 是一个 AI 赋能的数据治理平台,最终会取代现有的 Data Catalog。虽然它们的概念类似,但 Knowledge Catalog 提供了一些增强功能:
AI 赋能的上下文:与 Data Catalog 不同,Knowledge Catalog 使用 Gemini 自动提取业务上下文、生成自然语言说明,并提供 SQL“黄金查询”来为 AI 智能体提供接地数据。
丰富的元数据支持:Knowledge Catalog 支持更复杂的元数据类型,例如嵌套数组、映射和记录。
智能体访问:AI 智能体可以通过本地或远程 MCP 服务器发现并自适应地使用 Knowledge Catalog 工具。
数据发现:Knowledge Catalog 可以自动从更多 Google Cloud 服务和外部数据源中注入元数据。
大规模治理:它提供增强的数据分析、自动数据质量和集中式治理功能。
Knowledge Catalog 有什么用途?
Google Knowledge Catalog 解决了“数据冷启动”问题,即在实际使用数据之前,浪费时间来查找、理解和信任数据。其主要用途包括:
加快数据发现速度:您无需在复杂的组织孤岛中寻找数据,而是可以使用自然语言搜索(例如“显示最新的客户流失数据”)立即在Google Cloud 资源中查找资产,从而提高数据消费者的工作效率。
为 AI 代理提供接地功能:它充当生成式 AI 或 ADK 的“真实来源”。 通过将物理数据与业务定义相关联,它可确保 AI 代理(例如基于 Vertex AI 构建的代理)使用高质量的数据,从而显著减少 AI 幻觉并提高对 AI 生成的数据洞见的信任度。
自动化数据治理:自动扫描数据以识别敏感信息(例如个人身份信息),跟踪数据来源(沿袭),并监控数据准确性(自动数据质量)。这些功能有助于以更少的人工投入来提高数据信任度、安全性和合规性。
发现“暗数据”:它可以扫描非结构化文件(例如 Cloud Storage 中的 PDF 或图片),提取其中的信息,并使其可在 BigQuery 中搜索和查询,从而帮助您从之前无法访问的数据中发掘数据洞见。
如需了解实际用例,请参阅探索 Knowledge Catalog。
Knowledge Catalog 存储哪些类型的元数据?
Knowledge Catalog 存储三种类型的元数据:
技术元数据:自动收集的架构、表名称和系统属性。
业务元数据:用户定义的上下文,例如业务说明、术语库术语和所有权。
运行时元数据:有关数据沿袭、数据质量得分和数据分析统计信息的信息。
如何从 Data Catalog 迁移?
我们已将向 Knowledge Catalog 的转换设计为无缝转换,无需手动移动数据。根据您当前的用量,此流程包含两个主要阶段:
准备阶段:如果您有自定义元数据(标记、标记模板或自定义条目),系统会自动将此内容导入 Knowledge Catalog,并将其设为只读。在此阶段,您将执行配置任务,以使现有的 Data Catalog 内容同时在新界面中提供。
转移阶段:准备就绪后,您将转移元数据的有效状态,使其在 Knowledge Catalog 中处于读写状态。此步骤应与更新任何程序化工作负载(API、客户端库或 Terraform 模块)以指向新的 Knowledge Catalog 端点相协调。
如果您没有自定义元数据,或者您是平台的新用户,可以在 Google Cloud 控制台中将 Knowledge Catalog 设置为默认界面体验,从而完成转换。
如需了解详情,请参阅从 Data Catalog 转换到 Knowledge Catalog。