第 6 步:执行部署

本页介绍了部署 Cortex Framework 数据基础(Cortex Framework 的核心)的第六步。在此步骤中,您将执行 Cortex Framework 数据基础的部署。

构建流程

按照第 5 步:配置部署中的说明配置 config.json 文件后, 请按照以下说明构建流程。

  1. 运行以下命令,将自己定位在克隆的代码库中:

    cd cortex-data-foundation
    
  2. 运行带有目标日志存储桶的 build 命令:

     gcloud builds submit \
     --substitutions=_GCS_BUCKET=LOGS_BUCKET_NAME,_BUILD_ACCOUNT='projects/SOURCE_PROJECT/serviceAccounts/CLOUD_BUILD_SA@SOURCE_PROJECT.iam.gserviceaccount.com'
    

    替换以下内容:

    • LOGS_BUCKET_NAME ,替换为用于存储日志的存储桶名称。 Cloud Build 服务账号需要具有在此处写入日志的权限。
    • SOURCE_PROJECT,替换为源项目。
    • CLOUD_BUILD_SA,替换为在部署步骤 4 中创建的 Cloud Build 服务帐号 ID。
  3. 按照主要构建流程操作,在终端 或在 Cloud Build 控制台中查看日志( 如果您具有足够的权限)。如需更多参考信息,请参阅以下图片。

    日志进度

    图 1. 在终端中查看日志进度的示例。

    日志进度

    图 2. 在控制台中查看日志进度的示例。
  4. 跟踪从 Cloud Build 控制台触发的子 build 步骤,或跟踪从这些步骤创建的日志中的子 build 步骤。如需更多参考信息,请参阅以下图片。

    儿童构建步骤跟踪

    图 3. 在控制台中跟踪子 build 步骤的示例。

    儿童构建步骤跟踪

    图 4. 在日志中跟踪子 build 步骤的示例。
  5. 确定各个 build 是否存在任何问题。更正错误(如果有)。建议将生成的 SQL 粘贴到 BigQuery 中,以识别和更正错误。大多数错误都与所选字段有关,但这些字段在复制的来源中不存在。BigQuery 界面有助于识别这些字段并将其注释掉。

    发现问题

    图 5. 通过 Cloud Build 日志识别问题的示例。

将文件移至 Managed Service for Apache Airflow (Airflow) DAG 存储桶

如果您选择生成集成或 CDC 文件,并且拥有 Managed Airflow (Airflow) 实例,则可以使用以下命令将这些文件移至最终存储桶:

  gcloud storage -m cp -r  gs://OUTPUT_BUCKET/dags/ gs://COMPOSER_DAG_BUCKET/
  gcloud storage -m cp -r  gs://OUTPUT_BUCKET/data/ gs://COMPOSER_DAG_BUCKET/

替换以下内容:

  • OUTPUT_BUCKET,替换为输出存储桶。
  • COMPOSER_DAG_BUCKET ,替换为 Managed Airflow (Airflow) DAG 存储桶。

自定义并为升级做准备

许多企业客户对其系统进行了特定自定义,例如 在流程中添加文档或特定类型的记录。这些自定义是每个客户特有的,由功能分析师根据业务需求进行配置。

Cortex 在代码中使用 ## CORTEX-CUSTOMER 标记来表示可能需要进行此类自定义的位置。使用命令 grep -R CORTEX-CUSTOMER 检查您应自定义的所有 ## CORTEX-CUSTOMER 注释。

除了 CORTEX-CUSTOMER 标记之外,您可能还需要通过以下方式进一步自定义,方法是将所有这些更改连同代码中的清晰标记提交到您自己的派生或克隆代码库:

  • 添加业务规则。
  • 添加其他数据集并将其与现有视图或表联接
  • 重复使用提供的模板来调用其他 API。
  • 修改部署脚本。
  • 调整一些表或着陆 API,以包含标准中未包含的其他字段。

采用适合您组织的 CI/CD 流水线,以确保对这些增强功能进行测试,并使您的整体解决方案保持可靠且稳健的状态。流水线可以重复使用 cloudbuild.yaml 脚本,以定期或根据 Git 操作触发端到端部署(具体取决于您选择的代码库),从而 自动执行 build

使用 config.json 文件为开发、预演和生产环境定义不同的项目和数据集。使用您自己的示例数据进行自动化测试,以确保模型始终生成您期望的结果。

在代码库的派生或克隆版本中以可见方式标记您自己的更改,并结合一些部署和测试自动化,有助于执行升级。

支持

如果您遇到任何问题或有与这些模型 或部署程序相关的功能请求,请在 Cortex Framework 数据基础 代码库中创建问题。为了帮助收集必要的信息,请从克隆的目录执行 support.sh。此脚本会引导您完成一系列步骤,以帮助您排查问题。

如需提出任何 Cortex Framework 请求或报告问题,请前往概览页面的 支持部分。

Looker 块和信息中心

充分利用可用的 Looker 块和信息中心。这些 本质上是可重复使用的数据模型,用于 Cortex Framework 的常见分析模式和数据 源。如需了解详情,请参阅 Looker 块和信息中心概览