与 Google Analytics(分析)4 集成
本页介绍了将 Google Analytics(分析)4 (GA4) 中的数据作为 Cortex Framework Data Foundation 的营销工作负载的数据源所需的配置。
GA4 是最新版本的 Google Analytics(分析)。它提供用户行为的整体视图,侧重于基于事件的跟踪和机器学习,以提供更深入的洞见。借助 Cortex Framework,您可以从 GA4 中提取数据并将其集成到 BigQuery 中,以便进行进一步的分析和报告。您可以获得宝贵的洞见,并推动更好的业务成果。
下图介绍了如何通过 Cortex Framework Data Foundation 的营销工作负载获取 GA4 数据:

配置文件
config.json
文件用于配置连接到数据源所需的设置,以便从各种工作负载转移
数据。此文件包含以下 GA4 参数:
"marketing": {
"deployGA4": true,
"GA4": {
"datasets": {
"cdc": [
{"property_id": 0, "name": ""}
],
"reporting": "REPORTING_GA4"
}
}
}
下表介绍了每个营销参数的值:
| 参数 | 含义 | 默认值 | 说明 |
marketing.deployGA4
|
部署 GA4 | true
|
执行 GA4 数据源的部署。 |
marketing.GA4.datasets.cdc
|
GA4 的 BigQuery Export 数据集 | [{"property_id": 0, "name": ""}]
|
Google Analytics(分析)4 BigQuery
Export 数据集数组。每个元素都将 Property ID 指定为
INT,并指定其对应的 BigQuery Export 数据集名称。
|
marketing.GA4.datasets.reporting
|
GA4 的报告数据集 | REPORTING_GA4
|
GA4 的报告数据集。 |
数据模型
本部分使用实体关系图 (ERD) 介绍了 GA4 数据模型。
基本视图
这些是 ERD 中的蓝色对象,是对 CDC 表的视图,只需进行最少的转换即可解压缩复杂的数据结构。请参阅
src/marketing/src/GA4/src/reporting/ddls中的脚本。
报告视图
这些是 ERD 中的绿色对象,是包含汇总指标的报告视图。请参阅
src/marketing/src/GA4/src/reporting/ddls中的脚本。
为 GA4 配置集成
GA4这是通过在 CDC 表之上创建运行时视图或运行 Managed Service for Apache Airflow DAG 来实现的,具体取决于报告设置配置,以便在 BigQuery 表中实现物化数据。
设置 GA4 BigQuery Export
Cortex Framework 使用 GA4 的 BigQuery Export 功能将数据从源系统加载到 BigQuery 中。请按照此 GA4 帮助文章中的说明为每个 GA4 媒体资源设置 BigQuery Export:GA4 - 设置 BigQuery Export。
已知问题、限制和其他注意事项
设置 GA4 BigQuery Export 时,请考虑以下事项:
- 回填:GA4 BigQuery Export 从设置当天开始,不进行回填。
- GA4 界面与 Cortex Framework 报告的数字之间的差异: 多种因素(包括但不限于抽样、数据收集延迟 和高基数报告)可能会导致 Google Analytics 界面与 Cortex Framework 之间存在细微差异。这是 Google Analytics 的已知固有限制。如需了解详情,请参阅 缩小 Google Analytics 界面与 BigQuery Export 之间的差距 。
- 事件导出量限制:根据您的 Google Analytics 版本,您每天可能会面临不同程度的 BigQuery Export 量限制。如需了解详情, 请参阅 GA4 - 设置 BigQuery Export。
- 时区:在 BigQuery Export 中,
event_date在媒体资源的报告时区中 设置,而event_timestamp是采用世界协调时间 (UTC) 的时间戳(以微秒为单位)。因此,如果使用event_timestamp,请务必在与界面数据进行比较时,针对正确的报告时区进行调整。 - 每日事件导出与流式(实时)事件导出:对于事件导出,
Cortex Framework 仅支持通过
完整每日导出创建的
events_YYYYMMDD表。如需了解详情,请参阅 GA4 - BigQuery Export。 - BigQuery Export 的 GA4 360 服务等级协议 (SLA):
虽然 Cortex Framework 不支持将通过“每天更新”导出创建的
events_fresh_表 作为单独的源表,但您可以按照Events报告数据视图中的##CORTEX-CUSTOMER自定义注释将源表替换为这些表,以利用此功能提供的 SLA。替换后,所有报告视图都将继续正常运行。
数据新鲜度和延迟
一般来说,Cortex Framework 数据源的数据新鲜度受上游连接允许的新鲜度以及 DAG 执行频率的限制。请调整 DAG 执行频率,使其与上游频率、资源限制和业务需求保持一致。
对于 Google Analytics(分析)4, BigQuery Export 数据可能会延迟最多一天,具体取决于您的时区,除非您 使用的是 “每天更新”导出。
配置
本部分介绍了数据处理的配置。
Managed Service for Apache Airflow 连接
在 Managed Airflow 中创建以下连接。如需了解详情,请参阅 管理 Airflow 连接文档。
| 连接名称 | 目的 |
dv360_cdc_bq
|
用于原始数据集 > CDC 数据集转移。 |
dv360_reporting_bq
|
用于 CDC 数据集 > 报告数据集 转移。 |
报告设置
您可以使用报告设置文件 src/GA4/config/reporting_settings.yaml 配置和控制 Cortex Framework
如何为 GA4 最终报告层生成数据。此文件控制如何生成报告层 BigQuery 对象(表、视图、函数或存储过程)。
如需了解详情,请参阅自定义报告设置文件。
接下来怎么做?
- 如需详细了解其他数据源和工作负载,请参阅 数据源和工作负载。
- 如需详细了解在生产环境中进行部署的步骤, 请参阅 Cortex Framework Data Foundation 部署前提条件。
