数据基础
Cortex Framework 数据基础层 是源 数据的最新记录的标准化、干净表示形式,并为 数据产品层提供数据。 对于启用 CDC 的来源,此层以增量方式更新;对于未启用 CDC 的来源以及外部实现的 CDC 来源,此层使用视图。实现会适应源系统的功能:
对于启用 CDC 的来源(Cortex Framework 管理的 CDC):专用 Dataform 流水线会以增量方式将原始层日志处理为持续更新的持久性“当前状态”表。数据基础层会将这些增量更改转换为表示源系统数据集当前状态的行,从而为数据产品、下游分析和 AI 智能体提供支持。
除了 CDC 处理之外,灵活的架构还允许绕过内置 CDC 处理,并将其他已建立的 CDC 流水线直接连接到基础层。
对于未启用 CDC 的来源(外部 CDC):对于复制工具或源系统执行 CDC 的来源,Cortex Framework 将跳过 CDC 的流水线,并使用着陆区数据集作为数据产品的来源。它充当基于视图的语义抽象层,并应用即时清理,从而屏蔽下游数据产品中的架构更改。
Cortex Framework 数据基础层还支持动态表架构,允许自动提取原始层中存在的自定义字段,而无需手动更改底层 SQL 模型。
此外,为了弥合技术数据与业务用户之间的差距,Cortex Framework 数据基础层使用广泛的注释库 (src/data_foundation/{foundation_name}/annotations/),通过向表架构添加人类可读的说明来提高可用性。例如,在构建流程中,对于像
bukrs 这样的神秘 SAP 表列,Cortex Framework 会添加具有可读业务语义的说明,例如 Company Code。
支持的源系统
Cortex Framework 数据基础层支持以下源系统:
来自 SAP ERP 的原始复制数据:
- SAP ECC
- SAP S/4HANA
如需了解详情,请参阅 SAP ERP的准备源数据文档。