本页面介绍了如何管理已部署流水线的配置。
准备工作
本页面需要您具备有关计算配置文件和流水线性能的一些背景知识。
计算配置文件配置
您可以更改计算配置文件,也可以自定义运行流水线的默认计算配置文件的参数。如需了解详情,请参阅管理计算配置文件和 Managed Service for Apache Spark 预配工具属性。
流水线配置
您可以为每个流水线启用或停用插桩,例如时间指标。默认情况下,插桩处于开启状态。如果启用了插桩,当您运行流水线时,Cloud Data Fusion 会为每个流水线节点生成指标。每个节点的指标标签页上会显示以下指标。来源、转换和接收器指标略有不同。
- 唱片
- 记录
- 错误总数
- 每秒发送的记录数
- 最短处理时间(一条记录)
- 最长处理时间(一条记录)
- 标准差
- 平均处理时间
我们建议您始终开启插桩,除非环境资源不足。
对于流处理流水线,您还可以为流处理数据设置批处理间隔(以秒/分钟为单位)。
引擎配置
Apache Spark 是默认的执行引擎。您可以传递 Spark 的自定义参数。如需了解详情,请参阅并行处理。
资源
您可以为 Spark 驱动程序和执行程序指定内存和 CPU 数量。驱动程序负责编排 Spark 作业。执行程序负责处理 Spark 中的数据。如需了解详情,请参阅资源管理。
流水线提醒
您可以将流水线配置为在流水线运行结束后发送提醒并启动后处理任务。您可以在设计流水线时创建流水线提醒。部署流水线后,您可以查看提醒。您可以修改流水线以更改提醒设置。如需了解详情,请参阅创建提醒。
转换推送
如果您希望流水线在 BigQuery 中执行某些转换,可以启用转换下推。如需了解详情,请参阅转换下推概览。
后续步骤
- 详细了解如何在 Cloud Data Fusion 中查看和下载流水线日志。