发送反馈
Cloud Data Fusion 概览
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
Cloud Data Fusion 是一项全代管式云原生企业数据集成服务,用于快速构建和管理数据流水线。Cloud Data Fusion
网页界面可让您构建可伸缩的数据集成解决方案。它可让您连接到各种数据源,转换数据,然后将其传输到各种目标系统,而无需管理基础架构。
Cloud Data Fusion 在开源项目
CDAP 的基础上构建而成。
开始使用 Cloud Data Fusion
您可以在几分钟内开始探索 Cloud Data Fusion。
探索 Cloud Data Fusion
以下部分介绍了 Cloud Data Fusion 的主要组件。
租户项目
构建和编排 Cloud Data Fusion 流水线以及存储流水线元数据所需的一组服务是在一个租户项目 内部的一个租户单元中预配的。针对
Cloud Data Fusion 实例在其中预配的每个客户项目,系统会创建一个单独的租户项目。该租户项目继承相应客户项目的所有网络和防火墙配置。
Cloud Data Fusion:控制台
Cloud Data Fusion 控制台(也称为 控制平面 )是一组 API 操作 和一个网页界面,用于处理 Cloud Data Fusion 实例本身,例如创建、删除、重启和更新实例。
注意 :控制平面不包括实例级别以下的 Cloud Data Fusion 操作,例如创建和执行流水线。 Cloud Data Fusion:Studio
Cloud Data Fusion Studio(也称为“数据平面 ”)是一组
REST API 和网页界面
操作,用于处理流水线和
相关工件的创建、执行和管理。
概念
本部分介绍 Cloud Data Fusion 的一些核心概念。
概念
说明
Cloud Data Fusion 实例 link
Cloud Data Fusion 实例 是
Cloud Data Fusion 的唯一部署。如需开始使用 Cloud Data Fusion,请通过
控制台创建 Cloud Data Fusion 实例。 Google Cloud
您可以在单个 Google Cloud 控制台
项目中创建多个实例,并且可以指定要在其中创建 Google Cloud Cloud Data Fusion 实例的
区域。
根据您的要求和费用限制,您可以创建
开发者版、基本版或企业版
实例。
每个 Cloud Data Fusion 实例都包含一个独一无二的独立
Cloud Data Fusion 部署,该部署中包含一组用于处理流水线生命周期管理、编排、
协调和元数据管理的服务。这些服务使用
长时间运行资源在
租户项目 中运行。
命名空间 link
命名空间是 Cloud Data Fusion 实例中应用、数据和
相关元数据的逻辑分组。您可以将命名空间视为实例的分区。在单个实例中,
一个命名空间独立于另一个命名空间存储实体的相关数据和元数据。
流水线 link
流水线是一种可视化数据设计和流控制方式,用于从各种本地数据源和云数据源提取、转换、融合、聚合和加载数据。
通过构建流水线,您可以创建复杂的数据处理工作流,可帮助您解决数据注入、集成和迁移问题。您可以根据需要,使用 Cloud Data Fusion 构建
批处理流水线和实时流水线。
借助流水线,您可以使用
逻辑数据流表达您的数据处理工作流,同时 Cloud Data Fusion 处理需要以物理方式在执行环境中运行的所有
功能。
流水线节点 link
在 Cloud Data Fusion 网页界面的 Studio 页面中,
流水线由一系列节点表示,这些节点在有向无环图 (DAG) 中有序排列,形成单向流。
节点代表您使用
流水线时可以执行的各种操作,例如从来源读取数据、执行数据
转换或将输出写入接收器。您可以通过将来源、转换、接收器和其他节点连接在一起,在 Cloud Data Fusion 网页界面中开发数据
流水线。
插件 link
插件是可自定义的模块,可用于扩展
Cloud Data Fusion 的功能。
Cloud Data Fusion 为来源、转换、
聚合、接收器、错误收集器、提醒发布器、操作和
运行后操作提供插件。
插件有时称为“节点”,通常位于
Cloud Data Fusion 网页界面的上下文中。
如需发现和访问热门 Cloud Data Fusion 插件,
请参阅
Cloud Data Fusion 插件 。
Hub link
在 Cloud Data Fusion 网页界面中,如需浏览插件、示例
流水线和其他集成,请点击 Hub 。当插件的新
版本发布后,它会在任何兼容的实例
的 Hub 中显示。即使实例是在
插件发布之前创建的,也是如此。
流水线预览link
Cloud Data Fusion Studio 可让您使用数据子集上的
__预览来测试流水线设计的准确性。
预览中的流水线在租户项目中运行。
流水线执行 link
Cloud Data Fusion 会创建临时执行环境来
执行流水线。
Cloud Data Fusion 支持将 Managed Service for Apache Spark 作为
执行环境
当流水线开始运行时,Cloud Data Fusion 会在您的客户项目中预配一个临时
Managed Service for Apache Spark 集群,然后在该集群中使用 Spark 执行流水线,最后在流水线执行完以后删除该集群。
或者,如果您通过 Terraform 等技术在受控环境中管理 Managed Service for Apache Spark 集群
,还可以将 Cloud Data Fusion 配置为不预配集群。在
这些环境中,您可以针对现有的
Managed Service for Apache Spark 集群运行流水线。
计算配置文件 link
计算配置文件指定执行流水线的方式和位置。 配置文件包含设置和
删除流水线的物理执行环境所需的任何信息。
例如,计算配置文件包括以下内容:
执行预配工具
资源(内存和 CPU)
最小和最大节点数
其他值
配置文件由名称标识,并且必须拥有预配工具
及其相关配置。配置文件可位于
Cloud Data Fusion 实例级别或命名空间级别。
Cloud Data Fusion 默认计算配置文件为
自动扩缩。
可重复使用的流水线 link
Cloud Data Fusion 中的可重复使用的数据流水线允许创建单个流水线,该流水线可以将数据集成模式应用于各种应用场景和数据集。
可重复使用的流水线通过在执行时设置流水线的大部分配置(而不是在设计时对其进行硬编码)来提高可管理性。
触发器 link
Cloud Data Fusion 支持在数据
流水线(称为 下游流水线 )上创建触发器,使其在一个或多个不同流水线(称为 上游
流水线 )完成后运行。您可以选择下游流水线的运行时间,例如上游流水线运行成功、失败、停止或它们的任意组合时。
在以下情况下,触发器非常有用:
清理一次数据,然后将其提供给
多个下游流水线。
在流水线之间共享信息,例如运行时参数和插件
配置。这称为载荷
配置 。
拥有一组使用每小时、每天、每周或每月的数据运行的动态流水线,而不是每次运行时都需要更新的静态流水线。
Cloud Data Fusion 资源
探索 Cloud Data Fusion 资源:
后续步骤
发送反馈
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可 获得了许可,并且代码示例已根据 Apache 2.0 许可 获得了许可。有关详情,请参阅 Google 开发者网站政策 。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2026-04-11。
需要向我们提供更多信息?
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2026-04-11。"],[],[]]