与 Google Analytics(分析)4 集成

本页介绍了将 Google Analytics(分析)4 (GA4) 中的数据作为 Cortex Framework Data Foundation 的营销工作负载的数据源所需的配置。

GA4 是最新版本的 Google Analytics(分析)。它提供用户行为的整体视图,侧重于基于事件的跟踪和机器学习,以提供更深入的洞见。借助 Cortex Framework,您可以从 GA4 中提取数据并将其集成到 BigQuery 中,以便进行进一步的分析和报告。您可以获得宝贵的洞见,并推动更好的业务成果。

下图介绍了如何通过 Cortex Framework Data Foundation 的营销工作负载获取 GA4 数据:

GA4 数据源

图 1. GA4 数据源。

配置文件

config.json 文件用于配置连接到数据源所需的设置,以便从各种工作负载转移 数据。此文件包含以下 GA4 参数:

   "marketing": {
        "deployGA4": true,
        "GA4": {
            "datasets": {
                "cdc": [
                    {"property_id": 0, "name": ""}
                ],
                "reporting": "REPORTING_GA4"
            }
        }
    }

下表介绍了每个营销参数的值:

参数 含义 默认值 说明
marketing.deployGA4 部署 GA4 true 执行 GA4 数据源的部署。
marketing.GA4.datasets.cdc GA4 的 BigQuery Export 数据集 [{"property_id": 0, "name": ""}] Google Analytics(分析)4 BigQuery Export 数据集数组。每个元素都将 Property ID 指定为 INT,并指定其对应的 BigQuery Export 数据集名称。
marketing.GA4.datasets.reporting GA4 的报告数据集 REPORTING_GA4 GA4 的报告数据集。

数据模型

本部分使用实体关系图 (ERD) 介绍了 GA4 数据模型。

GA4 的实体关系图

图 2. GA4:实体关系图。

基本视图

这些是 ERD 中的蓝色对象,是对 CDC 表的视图,只需进行最少的转换即可解压缩复杂的数据结构。请参阅 src/marketing/src/GA4/src/reporting/ddls中的脚本。

报告视图

这些是 ERD 中的绿色对象,是包含汇总指标的报告视图。请参阅 src/marketing/src/GA4/src/reporting/ddls中的脚本。

为 GA4 配置集成

GA4这是通过在 CDC 表之上创建运行时视图或运行 Managed Service for Apache Airflow DAG 来实现的,具体取决于报告设置配置,以便在 BigQuery 表中实现物化数据。

设置 GA4 BigQuery Export

Cortex Framework 使用 GA4 的 BigQuery Export 功能将数据从源系统加载到 BigQuery 中。请按照此 GA4 帮助文章中的说明为每个 GA4 媒体资源设置 BigQuery Export:GA4 - 设置 BigQuery Export

已知问题、限制和其他注意事项

设置 GA4 BigQuery Export 时,请考虑以下事项:

  • 回填:GA4 BigQuery Export 从设置当天开始,不进行回填。
  • GA4 界面与 Cortex Framework 报告的数字之间的差异: 多种因素(包括但不限于抽样、数据收集延迟 和高基数报告)可能会导致 Google Analytics 界面与 Cortex Framework 之间存在细微差异。这是 Google Analytics 的已知固有限制。如需了解详情,请参阅 缩小 Google Analytics 界面与 BigQuery Export 之间的差距
  • 事件导出量限制:根据您的 Google Analytics 版本,您每天可能会面临不同程度的 BigQuery Export 量限制。如需了解详情, 请参阅 GA4 - 设置 BigQuery Export
  • 时区:在 BigQuery Export 中, event_date 在媒体资源的报告时区中 设置,而 event_timestamp 是采用世界协调时间 (UTC) 的时间戳(以微秒为单位)。因此,如果使用 event_timestamp,请务必在与界面数据进行比较时,针对正确的报告时区进行调整。
  • 每日事件导出与流式(实时)事件导出:对于事件导出, Cortex Framework 仅支持通过 完整每日导出创建的events_YYYYMMDD表。如需了解详情,请参阅 GA4 - BigQuery Export
  • BigQuery Export 的 GA4 360 服务等级协议 (SLA): 虽然 Cortex Framework 不支持将通过“每天更新”导出创建的events_fresh_表 作为单独的源表,但您可以按照Events报告数据视图中的##CORTEX-CUSTOMER 自定义注释将源表替换为这些表,以利用此功能提供的 SLA。替换后,所有报告视图都将继续正常运行。

数据新鲜度和延迟

一般来说,Cortex Framework 数据源的数据新鲜度受上游连接允许的新鲜度以及 DAG 执行频率的限制。请调整 DAG 执行频率,使其与上游频率、资源限制和业务需求保持一致。

对于 Google Analytics(分析)4, BigQuery Export 数据可能会延迟最多一天,具体取决于您的时区,除非您 使用的是 “每天更新”导出

配置

本部分介绍了数据处理的配置。

Managed Service for Apache Airflow 连接

在 Managed Airflow 中创建以下连接。如需了解详情,请参阅 管理 Airflow 连接文档

连接名称 目的
dv360_cdc_bq 用于原始数据集 > CDC 数据集转移。
dv360_reporting_bq 用于 CDC 数据集 > 报告数据集 转移。

报告设置

您可以使用报告设置文件 src/GA4/config/reporting_settings.yaml 配置和控制 Cortex Framework 如何为 GA4 最终报告层生成数据。此文件控制如何生成报告层 BigQuery 对象(表、视图、函数或存储过程)。

如需了解详情,请参阅自定义报告设置文件

接下来怎么做?