使用 Knowledge Catalog 管理 Datastream 资源

您可以使用 Knowledge Catalog 搜索和管理 Datastream 资源。Knowledge Catalog 是一个可用于存储、管理和访问元数据的平台。使用知识目录可帮助您完成以下任务:

  • 发现、分析和了解 Datastream 元数据。
  • 浏览 Datastream 资源,例如数据流、连接配置文件和连接配置。
  • 提高运营可见性,以便排查问题和管理数据流水线。
  • 建立近乎实时和定期机制,以通过实时和批量同步来保持元数据提取的一致性。如需了解详情,请参阅同步模式

知识目录建模

Datastream 资源在知识目录中以预留的、知识目录拥有的条目组和特定条目类型进行建模。

知识目录实体 资源标识符
条目组 @datastream
条目类型 datastream-stream
条目类型 datastream-connection-profile
条目类型 datastream-private-connection

元数据发现类型

知识目录元数据发现是一个自动化流程,用于扫描已连接的数据源(例如 Datastream),以识别数据资产并将其技术元数据提取到知识目录中。

此进程使用实时同步和定期同步,以使目录与源系统保持一致。对于 Datastream,默认情况下会发现所有数据流、连接配置文件和专用连接配置的元数据:

资源类型 已检索元数据
数据流
  • 名称
  • 位置
  • 状态(例如 RUNNINGPAUSEDFAILED
  • 回填策略
  • 来源和目标连接配置文件名称
  • 来源和目标配置
连接配置文件
  • 名称
  • 位置
  • 类型(例如 MYSQLORACLEBIGQUERY
  • 连接选项
  • 主机名、端口和数据库名称
专用连接配置
  • 名称
  • 连接方法(例如,Private Service Connect 或 VPC 对等互连)
  • VPC 网络和子网详细信息

同步模式

Datastream 使用以下同步模式来确保知识目录与源系统保持一致。

  • 实时同步:在此模式下,当发生任何元数据更改时,Datastream 都会将事件发布到 Pub/Sub 主题。这样一来,知识目录便可通过订阅这些主题来接收近乎实时的更新。
  • 批量同步:在此模式下,Datastream 会定期将完整的元数据导出内容(检查点)发布到指定的 Cloud Storage 存储分区,Knowledge Catalog 会从这些存储分区中提取数据。

知识目录支持关键字搜索和自然语言搜索。

  • 借助关键字搜索,您可以使用特定关键字、过滤条件和定义的语法来查找资源。例如,您可以输入 system=Datastream AND type=Stream 以查看所有 Datastream 流。
  • 自然语言搜索(预览版)使用 AI 来理解语义查询。借助它,您可以使用日常语言查找资源,无需使用复杂的语法。例如,您可以输入 List all Datastream streams with BigQuery destination 等查询内容。

如需了解详情,请参阅知识目录的搜索语法

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud新手,请 创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. 为项目启用 Dataplex API。

    启用 Dataplex API

  7. 验证您是否拥有必要的权限。

所需 IAM 角色

本部分介绍搜索资源和访问搜索结果所需的角色和权限。

访问搜索结果所需的角色

如需在知识目录中搜索和查看 Datastream 元数据,主账号必须拥有查看 Datastream 资源的权限,包括 dataplex.projects.search 权限。

如需向正文(例如用户、用户组或服务账号)授予这些权限,请向其分配包含 Datastream 资源的项目的 Datastream Viewer (roles/datastream.viewer) IAM 角色。

知识目录操作 Datastream 资源 所需的角色或权限
搜索 Datastream 资源 数据流 datastream.streams.get
连接配置文件 datastream.connectionProfiles.get
专用连接配置 datastream.privateConnections.get

如需详细了解如何授予角色,请参阅管理访问权限。如需详细了解 Datastream IAM 角色,请参阅 Datastream 的 IAM 角色和权限

搜索条目所需的角色

如需搜索条目,您需要在用于搜索的项目中至少拥有以下一个 IAM 角色

搜索结果的权限检查独立于所选项目。 如需了解详情,请参阅使用 Knowledge Catalog 搜索数据资产

搜索 Datastream 资源

使用 Google Cloud 控制台中的 Knowledge Catalog 搜索页面可搜索 Datastream 资产。

  1. 前往知识目录搜索页面。

    转到搜索

  2. 选择搜索平台中,选择 Knowledge Catalog

  3. 过滤条件面板中,点击系统,然后选择 Datastream

  4. 可选。在类型别名中,您可以通过选择以下一种或多种类型别名,将搜索结果过滤为特定类型的 Datastream 资产:

    • 数据流:用于搜索 Datastream 数据流。
    • 连接配置文件:用于搜索 Datastream 连接配置文件。
    • 连接:用于搜索 Datastream 专用连接配置。

您可以使用知识目录中的搜索字段执行关键字搜索查询。例如,您可以输入 system=Datastream AND type=Stream 以查看所有 Datastream 流。

如需了解详情,请参阅知识目录的搜索语法

如需查看所有 Datastream 资产,请输入 system=Datastream

然后,您可以输入特定关键字。例如,如需查看所有 Datastream 数据流,请执行以下操作:

system=Datastream AND type=Stream

如需查看所有连接配置文件,请输入以下查询:

system=Datastream AND type=ConnectionProfile

您还可以使用复杂的括号和逻辑运算符 ANDOR 来表示复杂表达式。如需详细了解可在搜索字段中使用的表达式,请参阅 Knowledge Catalog 的搜索语法

您可以直接在搜索字段中输入用于特定 Datastream 资产的搜索查询。查询字符串的格式如下:

type="projects/dataplex-types/locations/global/entryTypes/QUERY_STRING"

替换以下内容:

  • QUERY_STRING:请使用以下列表根据您要查询的 Datastream 资产类型来确定查询字符串:

    • datastream-stream
    • datastream-connection-profile
    • datastream-private-connection

示例查询可能如下所示:

type="projects/dataplex-types/locations/global/entryTypes/datastream-stream"

价格

在知识目录中存储 Datastream 技术元数据无需付费。对于 API 调用和额外的业务元数据丰富化,适用标准 Knowledge Catalog 价格。如需了解详情,请参阅 Knowledge Catalog 价格页面

后续步骤