配置外部数据集
本页面介绍了为 Cortex Framework Data Foundation 部署配置外部数据集的可选步骤。某些高级用例可能需要外部数据集来补充企业记录系统。除了从 BigQuery Sharing(以前称为 Analytics Hub)使用的外部交换之外, 某些数据集可能还需要自定义或量身定制的方法来注入数据 并将其与报告模型联接。
如需启用以下外部数据集,请将 k9.deployDataset 设置为 True(如果您希望部署数据集)。
按照以下步骤为受支持的外部数据集配置有向无环图 (DAG):
节假日日历:此 DAG 从 PyPi 节假日检索特殊日期。
- 调整国家/地区列表、年份列表以及其他 DAG 参数
以在
holiday_calendar.ini中检索节假日。
- 调整国家/地区列表、年份列表以及其他 DAG 参数
以在
趋势:此 DAG 从 Google 搜索趋势检索一组特定术语的“随时间推移的热度”。这些术语可在
trends.ini中配置。- 在初始运行后,将
start_date调整为'today 7-d'在trends.ini。 - 熟悉不同术语的结果,以便调整参数。
- 我们建议将大型列表分区为多个 DAG 副本,这些副本在不同时间运行。
- 如需详细了解所使用的底层库,请参阅 Pytrends。
- 在初始运行后,将
天气:默认情况下,此 DAG 使用公开提供的 测试数据集
BigQuery-public-data.geo_openstreetmap.planet_layers。 该查询还依赖于仅通过 Sharing 提供的 NOAA 数据集:noaa_global_forecast_system。此数据集需要在执行部署之前在与其他数据集相同的区域中创建 。如果您的区域中没有这些数据集,您可以按照以下说明将数据转移到所选区域:
- 前往共享 (Analytics Hub) 页面。
- 点击搜索商品详情 。
- 搜索 NOAA Global Forecast System 。
- 点击订阅 。
- 系统提示时,将
noaa_global_forecast_system保留为数据集的名称。如果需要,请在weather_daily.sql的 FROM 子句中调整数据集和表的名称。 - 重复执行商品详情搜索,以查找数据集
OpenStreetMap Public Dataset。 - 调整
postcode.sql中包含BigQuery-public-data.geo_openstreetmap.planet_layers的FROM子句。
可持续性和 ESG 洞见:Cortex Framework 将 SAP 供应商绩效数据与高级 ESG 洞见相结合,以便更全面地比较全球运营的交付绩效、可持续性和风险。如需了解详情, 请参阅 Dun & Bradstreet 数据源。
一般注意事项
共享 仅在欧盟和美国位置受支持, 并且某些数据集(例如 NOAA Global Forecast)仅在单个多位置提供。
如果您要定位的位置与所需数据集可用的位置不同,我们建议您创建一个定期查询,以从 Sharing 关联的数据集中复制新记录,然后使用转移服务将这些新记录复制到与部署的其他部分位于相同位置或区域的数据集中。然后,您需要调整 SQL 文件。
在将这些 DAG 复制到 Managed Airflow 之前,请将所需的 Python 模块 添加为依赖项:
Required modules: pytrends~=4.9.2 holidays