针对高弹性环境执行故障切换测试

Managed Airflow(第 3 代) | Managed Airflow(第 2 代) | Managed Airflow(旧版第 1 代)

本页介绍了如何对 高弹性(高可用性)环境执行数据库故障切换测试。

环境的故障切换测试会模拟数据中心内可用区的完全中断。在这种情况下,数据库可能会发生可用区级服务中断。通过执行故障切换测试,您可以监控高弹性环境如何执行故障切换,并检查这会对 DAG 和任务产生什么影响。

准备工作

  • 如需执行故障切换测试,您的 Google 账号必须拥有以下角色和权限:

  • 在 Managed Airflow(第 3 代)中,环境的集群位于环境的租户项目中,无法模拟可用区级服务中断。

检查环境是否正常运行

请务必仅对正常运行的环境执行故障切换测试。如需检查环境是否正常运行,请执行以下操作:

  1. 在 Google Cloud 控制台中,前往 环境 页面。

    转到“环境”

  2. 在环境列表中,点击您的环境名称。环境详情 页面会打开。

  3. 转到监控 标签页。

  4. 确保所有健康指标均为绿色。

执行数据库故障切换测试

您可以通过使用 Google Cloud CLI 命令触发数据库故障切换测试来模拟可用区级服务中断。例如,您可能需要执行此测试来衡量环境的数据库切换到另一个可用区所需的时间。

如需对环境执行数据库故障切换测试,请执行以下操作:

  1. 确保环境正常运行

  2. 获取环境数据库的主可用区:

    gcloud composer environments fetch-database-properties \
        ENVIRONMENT_NAME \
        --location LOCATION
    

    替换以下内容:

    • ENVIRONMENT_NAME:Cloud Composer 环境的名称。
    • LOCATION:环境所在的区域。

    示例:

    gcloud composer environments fetch-database-properties \
        example-environment \
        --location us-central1
    
  3. 启动数据库故障切换测试:

    gcloud composer environments database-failover \
        ENVIRONMENT_NAME \
        --location LOCATION
    

    替换以下内容:

    • ENVIRONMENT_NAME:Cloud Composer 环境的名称。
    • LOCATION:环境所在的区域。

    示例:

    gcloud composer environments database-failover \
        example-environment \
        --location us-central1
    
  4. 等待数据库故障切换测试完成。此过程最多可能需要 3 分钟。

  5. 检查环境数据库的主可用区是否已更改:

    gcloud composer environments fetch-database-properties \
        ENVIRONMENT_NAME \
        --location LOCATION
    
  6. 检查环境的健康指标,确保 环境正常运行

  7. 数据库可用于故障切换 (composer.googleapis.com/environment/database/available_for_failover) 环境指标变为 True 时,环境的数据库即可用于另一次故障切换。如需详细了解如何在 Cloud Monitoring 中查看您的 环境的指标,请参阅 监控环境

后续步骤