与 Campaign Manager 360 集成
本页介绍了将 Campaign Manager 360 中的数据作为 Cortex Framework Data Foundation 的营销工作负载的数据源所需的配置。
Campaign Manager 360 (CM360) 是 Google 专门为广告客户和代理机构提供的网页版广告管理平台。它可作为中心枢纽,用于管理和优化您在各种渠道中投放的所有数字广告系列。Cortex Framework 提供相关工具和平台,可用于分析 CM360 数据、将其与其他营销渠道的数据相结合,并利用 AI 获得更深入的数据洞见,从而优化整体营销策略。
下图描述了如何通过 Cortex Framework Data Foundation 的营销工作负载获取 CM360 数据:

配置文件
config.json 文件用于配置连接到数据源所需的设置,以便从各种工作负载转移数据。此文件包含以下 CM360 参数:
"marketing": {
"deployCM360": true,
}
"CM360": {
"deployCDC": true,
"dataTransferBucket": "",
"datasets": {
"cdc": "",
"raw": "",
"reporting": "REPORTING_CM360"
}
}
下表介绍了每个营销参数的值:
| 参数 | 含义 | 默认值 | 说明 |
marketing.deployCM360
|
部署 CM360 | true
|
执行 CM360 数据源的部署。 |
marketing.CM360.deployCDC
|
为 CM360 部署 CDC 脚本 | true
|
生成 CM360 CDC 处理脚本,以在 Managed Service for Apache Airflow 中作为 DAG 运行。 |
marketing.CM360.dataTransferBucket
|
包含 Data Transfer Service 结果的存储分区 | - | 存储 DTv2 文件的存储分区。 |
marketing.CM360.datasets.cdc
|
适用于 CM360 的 CDC 数据集 | 适用于 CM360 的 CDC 数据集。 | |
marketing.CM360.datasets.raw
|
CM360 的原始数据集 | CM360 的原始数据集。 | |
marketing.CM360.datasets.reporting
|
CM360 的报告数据集 | "REPORTING_CM360"
|
CM360 的报告数据集。 |
数据模型
本部分使用实体关系图 (ERD) 介绍了 CM360 数据模型。
基本视图
这些是 ERD 中的蓝色对象,是 CDC 表的视图,除了某些列名别名之外,没有其他转换。请参阅 src/marketing/src/CM360/src/reporting/ddls 中的脚本。
报告数据视图
这些是 ERD 中的绿色对象,属于包含汇总指标的报告视图。请参阅 src/marketing/src/CM360/src/reporting/ddls 中的脚本。
DTv2 文件存储
DTv2(数据传输版本 2)文件是 CM360 用于提供广告系列效果数据的特定格式。按照数据传输 V2.0 文档设置数据传输流程,以便将 CM360 与 Cortex Framework 搭配使用。
创建或添加 Cloud Storage 存储桶,用于存储来自 CM360 的 DTv2 文件。 确保运行 Managed Airflow 中 DAG 的服务账号可以读取相应存储桶下的文件。如需了解详情,请参阅创建存储分区。
数据新鲜度和延迟
一般来说,Cortex Framework 数据源的数据新鲜度受上游连接允许的范围以及 DAG 执行频率的限制。调整 DAG 执行频率,使其与上游频率、资源限制和业务需求保持一致。
借助 CM360 数据传输 v2,展示次数和点击次数数据每天会传送 24 次(每小时一次)。处理时间可能因文件而异,因此文件可能会无序显示。每天交付活动文件。
Managed Airflow 连接
在 Managed Airflow 中创建以下连接。如需了解详情,请参阅管理 Airflow 连接文档。
| 连接名称 | 目的 |
cm360_raw_dataflow
|
对于 CM360 DTv2 文件 > BigQuery 原始数据集 |
cm360_cdc_bq
|
对于原始数据集 > CDC 数据集转移 |
cm360_reporting_bq
|
对于 CDC 数据集 > 报告数据集 转移 |
Managed Service for Apache Airflow 服务账号权限
向 Managed Airflow 中使用的服务账号(如 cm360_raw_dataflow 连接中所配置)授予 Dataflow 权限。请参阅 Dataflow 文档中的说明。
内容提取设置
通过文件 src/CM360/config/ingestion_settings.yaml 中的设置控制 Source to Raw 和 Raw to CDC 数据流水线。本部分介绍了每个数据流水线的参数。
从来源到原始表的转换
本部分介绍了用于控制处理哪些 DTv2 文件的条目。每个条目都与一个实体的关联文件相对应。 根据此配置,Cortex Framework 会创建 Airflow DAG,这些 DAG 会运行 Dataflow 流水线来处理来自 DTv2 文件的数据。
以下参数可控制每个条目的 Source to Raw 的设置:
| 参数 | 说明 |
base_table
|
原始数据集中的表,用于存储实体的数据(例如“点击”数据)。 |
load_frequency
|
相应实体的 DAG 运行以填充 CDC 表的频率。如需详细了解可能的值,请参阅 Airflow 文档。 |
file_pattern
|
与实体对应的基于文件名的模式。 |
schema_file
|
src/table_schema 目录中的架构文件,用于将 DTv2 字段映射到目标表的列名称和数据类型。
|
partition_details
|
可选:如果您希望出于性能考虑对该表进行分区,请选择此选项。如需了解详情,请参阅表分区。 |
cluster_details
|
可选:如果您希望出于性能考虑而对该表进行聚类。如需了解详情,请参阅集群设置。 |
从原始表到 CDC 表
此部分包含用于控制如何将数据从原始表移至 CDC 表的条目。每个条目都对应一个原始表(而原始表又对应于上述 DTv2 实体)。
以下参数可控制每个条目的 Raw to CDC 的设置:
| 参数 | 说明 |
base_table
|
CDC 数据集中存储 CDC 转换后的原始数据的表(例如 customer)。
|
load_frequency
|
相应实体的 DAG 运行以填充 CDC 表的频率。如需详细了解可能的值,请参阅 Airflow 文档。 |
row_identifiers
|
构成相应表的唯一记录的列的列表(以英文逗号分隔)。 |
partition_details
|
可选:如果您希望出于性能考虑对该表进行分区,请选择此选项。如需了解详情,请参阅表分区。 |
cluster_details
|
可选:如果您希望出于性能考虑而对该表进行聚类。如需了解详情,请参阅集群设置。 |
报告设置
您可以使用报告设置文件 (src/CM360/config/reporting_settings.yaml) 配置和控制 Cortex Framework 如何为 CM360 最终报告层生成数据。此文件控制着报告层 BigQuery 对象(表、视图、函数或存储过程)的生成方式。
如需了解详情,请参阅自定义报告设置文件。
接下来怎么做?
- 如需详细了解其他数据源和工作负载,请参阅数据源和工作负载。
- 如需详细了解生产环境中的部署步骤,请参阅 Cortex Framework Data Foundation 部署前提条件。
