Cloud Data Fusion 概览

Cloud Data Fusion 是一项全代管式云原生企业数据集成服务,用于快速构建和管理数据流水线。Cloud Data Fusion 网页界面可让您构建可伸缩的数据集成解决方案。它可让您连接到各种数据源,转换数据,然后将其传输到各种目标系统,而无需管理基础架构。

Cloud Data Fusion 在开源项目 CDAP的基础上构建而成。

开始使用 Cloud Data Fusion

您可以在几分钟内开始探索 Cloud Data Fusion。

探索 Cloud Data Fusion

以下部分介绍了 Cloud Data Fusion 的主要组件。

租户项目

构建和编排 Cloud Data Fusion 流水线以及存储流水线元数据所需的一组服务是在一个租户项目内部的一个租户单元中预配的。针对 Cloud Data Fusion 实例在其中预配的每个客户项目,系统会创建一个单独的租户项目。该租户项目继承相应客户项目的所有网络和防火墙配置。

Cloud Data Fusion:控制台

Cloud Data Fusion 控制台(也称为 控制平面)是一组 API 操作 和一个网页界面,用于处理 Cloud Data Fusion 实例本身,例如创建、删除、重启和更新实例。

Cloud Data Fusion:Studio

Cloud Data Fusion Studio(也称为“数据平面”)是一组 REST API和网页界面 操作,用于处理流水线和 相关工件的创建、执行和管理。

概念

本部分介绍 Cloud Data Fusion 的一些核心概念。

概念 说明
Cloud Data Fusion 实例
  • Cloud Data Fusion 实例是 Cloud Data Fusion 的唯一部署。如需开始使用 Cloud Data Fusion,请通过 控制台创建 Cloud Data Fusion 实例。 Google Cloud
  • 您可以在单个 Google Cloud 控制台 项目中创建多个实例,并且可以指定要在其中创建 Google Cloud Cloud Data Fusion 实例的 区域。
  • 根据您的要求和费用限制,您可以创建 开发者版、基本版或企业版 实例。
  • 每个 Cloud Data Fusion 实例都包含一个独一无二的独立 Cloud Data Fusion 部署,该部署中包含一组用于处理流水线生命周期管理、编排、 协调和元数据管理的服务。这些服务使用 长时间运行资源在 租户项目中运行。
命名空间 命名空间是 Cloud Data Fusion 实例中应用、数据和 相关元数据的逻辑分组。您可以将命名空间视为实例的分区。在单个实例中, 一个命名空间独立于另一个命名空间存储实体的相关数据和元数据。
流水线
  • 流水线是一种可视化数据设计和流控制方式,用于从各种本地数据源和云数据源提取、转换、融合、聚合和加载数据。
  • 通过构建流水线,您可以创建复杂的数据处理工作流,可帮助您解决数据注入、集成和迁移问题。您可以根据需要,使用 Cloud Data Fusion 构建 批处理流水线和实时流水线。
  • 借助流水线,您可以使用 逻辑数据流表达您的数据处理工作流,同时 Cloud Data Fusion 处理需要以物理方式在执行环境中运行的所有 功能。
流水线节点
  • 在 Cloud Data Fusion 网页界面的 Studio 页面中, 流水线由一系列节点表示,这些节点在有向无环图 (DAG) 中有序排列,形成单向流。
  • 节点代表您使用 流水线时可以执行的各种操作,例如从来源读取数据、执行数据 转换或将输出写入接收器。您可以通过将来源、转换、接收器和其他节点连接在一起,在 Cloud Data Fusion 网页界面中开发数据 流水线。
插件
  • 插件是可自定义的模块,可用于扩展 Cloud Data Fusion 的功能。
  • Cloud Data Fusion 为来源、转换、 聚合、接收器、错误收集器、提醒发布器、操作和 运行后操作提供插件。
  • 插件有时称为“节点”,通常位于 Cloud Data Fusion 网页界面的上下文中。
  • 如需发现和访问热门 Cloud Data Fusion 插件, 请参阅 Cloud Data Fusion 插件
Hub 在 Cloud Data Fusion 网页界面中,如需浏览插件、示例 流水线和其他集成,请点击 Hub 。当插件的新 版本发布后,它会在任何兼容的实例 的 Hub 中显示。即使实例是在 插件发布之前创建的,也是如此。
流水线预览
  • Cloud Data Fusion Studio 可让您使用数据子集上的 __预览来测试流水线设计的准确性。
  • 预览中的流水线在租户项目中运行。
流水线执行
  • Cloud Data Fusion 会创建临时执行环境来 执行流水线。
  • Cloud Data Fusion 支持将 Managed Service for Apache Spark 作为 执行环境
  • 当流水线开始运行时,Cloud Data Fusion 会在您的客户项目中预配一个临时 Managed Service for Apache Spark 集群,然后在该集群中使用 Spark 执行流水线,最后在流水线执行完以后删除该集群。
  • 或者,如果您通过 Terraform 等技术在受控环境中管理 Managed Service for Apache Spark 集群 ,还可以将 Cloud Data Fusion 配置为不预配集群。在 这些环境中,您可以针对现有的 Managed Service for Apache Spark 集群运行流水线。
计算配置文件
  • 计算配置文件指定执行流水线的方式和位置。配置文件包含设置和 删除流水线的物理执行环境所需的任何信息。
  • 例如,计算配置文件包括以下内容:
    • 执行预配工具
    • 资源(内存和 CPU)
    • 最小和最大节点数
    • 其他值
  • 配置文件由名称标识,并且必须拥有预配工具 及其相关配置。配置文件可位于 Cloud Data Fusion 实例级别或命名空间级别。
  • Cloud Data Fusion 默认计算配置文件为 自动扩缩。
可重复使用的流水线
  • Cloud Data Fusion 中的可重复使用的数据流水线允许创建单个流水线,该流水线可以将数据集成模式应用于各种应用场景和数据集。
  • 可重复使用的流水线通过在执行时设置流水线的大部分配置(而不是在设计时对其进行硬编码)来提高可管理性。
触发器
  • Cloud Data Fusion 支持在数据 流水线(称为 下游流水线)上创建触发器,使其在一个或多个不同流水线(称为 上游 流水线)完成后运行。您可以选择下游流水线的运行时间,例如上游流水线运行成功、失败、停止或它们的任意组合时。
  • 在以下情况下,触发器非常有用:
    • 清理一次数据,然后将其提供给 多个下游流水线。
    • 在流水线之间共享信息,例如运行时参数和插件 配置。这称为载荷 配置
    • 拥有一组使用每小时、每天、每周或每月的数据运行的动态流水线,而不是每次运行时都需要更新的静态流水线。

Cloud Data Fusion 资源

探索 Cloud Data Fusion 资源:

后续步骤