收集 Managed Service for Apache Airflow 设置

本页介绍了如何收集 Managed Service for Apache Airflow 设置,以自动处理 Cortex Framework 框架内的数据。

如果 Managed Service for Apache Airflow 可用,您需要在 Managed Service for Apache Airflow 中创建指向源项目的连接(您的数据位于该源项目中),并根据工作负载到部署情况使用以下名称。如需详细了解工作负载,请参阅数据源和工作负载。 如果您要在报告层中创建表,请务必为报告 DAG 创建单独的连接。

部署工作负载 为原始照片创建 为 CDC 创建 创建报告
SAP sap_cdc_bq sap_reporting_bq
SFDC sfdc_cdc_bq sfdc_cdc_bq sfdc_reporting_bq
Google Ads googleads_raw_dataflow googleads_cdc_bq googleads_reporting_bq
CM360 cm360_raw_dataflow cm360_cdc_bq cm360_reporting_bq
Meta meta_raw_dataflow meta_cdc_bq meta_reporting_bq
TikTok tiktok_raw_dataflow tiktok_cdc_bq tiktok_reporting_bq
LiveRamp liveramp_cdc_bq
SFMC sfmc_raw_dataflow sfmc_cdc_bq sfmc_reporting_bq
DV360 dv360_cdc_bq dv360_reporting_bq
GA4 ga4_reporting_bq
Oracle EBS oracleebs_reporting_bq
可持续性 k9_reporting_bq
常见维度 k9_reporting

连接命名惯例

请考虑以下有关连接命名惯例的规范:

  • 连接后缀:连接名称包含指示其预期用途的后缀:
    • _bq:用于访问 BigQuery 数据。
    • _dataflow:用于运行 Dataflow 作业。
  • 原始数据连接:如果您使用的是 Cortex 提供的数据注入模块,则只需为原始数据创建连接。
  • 多个数据源:如果您要部署多个数据源(例如 SAP 和 Salesforce),建议为每个数据源创建单独的连接,前提是安全限制适用于各个服务账号。或者,您也可以在部署之前修改模板中的连接名称,以便使用同一连接将数据写入 BigQuery。

安全最佳实践

  • 避免使用默认连接:不建议使用 Airflow 提供的默认连接和服务账号,尤其是在生产环境中。这符合最小权限原则,该原则强调仅授予必要的最低访问权限。
  • Secret Manager 集成:如果您已为 Airflow 启用 Secret Manager,则可以在 Secret Manager 中使用相同的名称创建这些连接。存储在 Secret Manager 中的连接优先于直接在 Airflow 中定义的连接。