概览
Google Cloud Cortex Framework 提供数据产品加速器,旨在将战略性企业系统中的原始数据转化为可信的高质量数据资产,以便进行高级分析和 AI 处理。
Google Cloud Cortex Framework 以可自定义的开源代码形式提供,可在您自己的Google Cloud 环境中安全部署,并提供由Google Cloud Dataform 提供支持的无服务器 BigQuery 原生执行模型。
通过简化团队构建、编排和部署数据流水线的方式,Cortex Framework 可缩短价值实现时间,并为下一代企业 AI 智能体提供高保真基础。
数据架构
Cortex Framework 使用“提取、加载和转换”(ELT) 方法将 BigQuery 内的数据处理标准化为三个不同的架构层。这种标准化的数据分层策略与企业数据网格概念相符。
源系统
源系统是所提取数据的来源。源系统可以包括从中提取数据的各种企业应用、数据库或平台。如需查看所有受支持的源系统,请参阅受支持的源系统。
原始层
原始层表示 BigQuery 中用于存储源数据(无论是变更数据捕获 (CDC) 日志还是批量提取)的不可变着陆区数据集。虽然它经常存储 CDC 日志(例如,使用 BigQuery Connector for SAP 或 BigQuery Toolkit for SAP 等复制工具从 SAP ECC 或 S/4HANA 存储),但它旨在表示任何原始格式。对于不提供 CDC 日志的来源(例如 Salesforce 或外部 API Feed),此层表示完整的批量提取或原始事件载荷(完全按照到达时的状态),几乎没有或完全没有结构性更改。此层为数据基础层提供数据。
数据基础层
数据基础层是源数据的最新记录的标准化、干净表示形式,可为数据产品层提供数据。对于启用 CDC 的来源,此层以增量方式更新;对于未启用 CDC 的来源以及外部实现的 CDC 来源,此层使用视图。实现会根据源系统的功能进行调整。如需了解详情,请参阅数据基础。
数据产品层
数据产品层提供汇总、KPI 计算、业务逻辑和跨应用连接逻辑。数据产品层公开的视图和表旨在供 BigQuery 对话式分析代理、Gemini Enterprise、机器学习模型、BI 信息中心和报告以及应用集成直接使用。如需了解详情,请参阅数据产品。
数据管理
Cortex Framework 使用 Dataform 来管理数据的生命周期。借助 Dataform,您可以管理数据集成的数据转换。它提供了一项服务,供数据分析师在 BigQuery 中开发、测试、控制版本和安排复杂的工作流以进行数据转换。为了动态适应自定义和扩展,Cortex Framework 在构建阶段创建 Dataform 代码,并将其暂存到 Google Cloud中的 Dataform 代码库。
通过在 Dataform 界面中触发流水线的执行,系统会创建数据基础层和数据产品层的 BigQuery 表和视图,并填充数据。
后续步骤
准备好构建和部署了吗?请参阅以下指南,让您的环境正常运行: