数据基础

Cortex Framework 数据基础层是源数据最新记录的标准化、干净表示形式,可为数据产品层提供数据。 对于启用 CDC 的来源,此层以增量方式更新;对于未启用 CDC 的来源以及外部实现的 CDC 来源,此层使用视图。该实现会根据源系统的功能进行调整:

  • 对于启用 CDC 的来源(Cortex Framework 管理的 CDC):专用 Dataform 流水线会将原始层日志增量处理为持续更新的持久“当前状态”表,该表位于源系统数据集内,可为数据产品、下游分析和 AI 代理提供支持。

    除了 CDC 处理之外,灵活的架构还允许绕过内置的 CDC 处理,并将其他已建立的 CDC 流水线直接连接到基础层。

  • 对于未启用 CDC 的来源(外部 CDC):对于由复制工具或源系统执行 CDC 的来源,Cortex Framework 将跳过 CDC 的流水线,并使用着陆区数据集作为数据产品的来源。它充当基于视图的语义抽象层,并应用实时清理,从而使下游数据产品免受架构更改的影响。

Cortex Framework 数据基础层还支持动态表架构,可自动提取原始层中存在的自定义字段,而无需手动更改底层 SQL 模型中的代码。

此外,为了弥合技术数据与业务用户之间的差距,Cortex Framework 数据基础层使用广泛的注释库 (src/data_foundation/{foundation_name}/annotations/) 通过向表架构添加人类可读的说明来增强可用性。例如,在构建流程中,Cortex Framework 会为神秘的 SAP 表列(例如 bukrs)添加具有可读业务语义的说明(例如 Company Code)。

支持的源系统

Cortex Framework 数据基础层支持以下源系统:

来自 SAP ERP 的原始复制数据:

  • SAP ECC
  • SAP S/4HANA

如需了解详情,请参阅有关准备 SAP ERP 源数据的文档。