可用性最佳实践

本页面介绍了确保 Google Distributed Cloud connected 安装高可用性的最佳实践。 Distributed Cloud connected 不提供服务等级协议 (SLA),仅提供本页面中所述的服务等级目标 (SLO)。

选择和实现可用性级别

您必须为 Distributed Cloud connected 工作负载选择最符合您业务要求的可用性级别。例如,零售店的自助结账应用与移动网络运营商的边缘 RAN 部署相比,可用性风险要低得多。

目标可用性与您为紧急情况预留的 Distributed Cloud 备用资源容量成正比。下表介绍了这种关系。这些 估算值不包括使用 维护窗口安排的停机时间。

Distributed Cloud connected 软件会消耗每台物理机上的一些资源。消耗量因 Distributed Cloud connected 部署的具体配置而异。Google 建议您对 Distributed Cloud connected 部署进行基准评测,以衡量此消耗量,并在规划工作负载分配时将其考虑在内。

互联 GDC 外形规格 使用中的容量 预留容量 目标可用性
互联 GDC 机架
(单个 6 台机器的集群)
83.33% 16.67% 99.9%
互联 GDC 机架
(单个 6 台机器的集群)
100% 0% 93.5%
互联 GDC 服务器
(单个 3 台机器的集群)
66.6% 33.3% 99.9%

您可能会因硬件故障或需要重启的节点而突然失去容量。为应对这种情况,您必须在设计工作负载时考虑到资源配额,以便在每个 Distributed Cloud connected 节点上始终有可用容量来满足您选择的可用性级别。

例如,若要在 Distributed Cloud connected 机架部署中实现 99.9% 的目标可用性,您必须配置工作负载,以便每个 Distributed Cloud connected 集群中的六台物理机中的一台可用作备份。

在地理位置上分散 Distributed Cloud 可用区

为了尽可能降低潜在的 管理平面故障 的影响, 我们强烈建议您将 Distributed Cloud 可用区分布在多个相邻 区域中。

使用生存模式

Distributed Cloud 集群使用在 Distributed Cloud connected 硬件上运行的本地控制平面。与 Google Cloud 的连接断开后,您的工作负载仍会继续运行 。如需了解详情,请参阅 Distributed Cloud connected 生存 模式

了解软件更新和维护窗口

Google 会定期更新 Distributed Cloud connected 软件。 这些软件更新是强制性的,您无法选择停用。 Distributed Cloud connected 允许您为每个 Distributed Cloud connected 集群指定单独的维护窗口。

为了缓解工作负载可能暂时中断的情况,借助维护窗口,您能够控制可以进行控制平面和节点自动升级的时间。维护窗口适用于以下类型的场景和其他类似的场景:

  • 非高峰时段:您想要在流量减少的非高峰时段内安排自动升级以最大限度地减小停机的可能性。
  • 随时待命:您想要确保在工作时间内进行升级,以便有人可以监控升级并管理任何意外问题。
  • 多集群升级 :您想要以指定的时间间隔在不同区域的多个集群中发布升级(一次一个区域)。

Distributed Cloud connected 支持以下类型的维护窗口:

  • 维护窗口 。指定 Google 可以在 Distributed Cloud connected 集群上执行维护和软件升级的时间窗口。
  • 维护排除窗口 。指定 Google 无法在 Distributed Cloud connected 集群上执行维护或软件升级的时间窗口。 如需配置维护排除窗口,您必须先配置维护窗口。 维护排除窗口优先于集群的维护窗口。

除了自动升级之外,Google 偶尔还需要执行其他维护任务。在这种情况下,Google 会尽可能遵循集群的维护窗口。

如果软件升级或维护任务在维护窗口结束之前未完成,Distributed Cloud connected 会暂停升级或任务,并在下一个预定的维护窗口期间恢复。如果软件升级失败, Distributed Cloud connected 会停止升级;在这种情况下,您必须 与 Google 支持团队 联系以修复软件安装。

Distributed Cloud connected 保留在维护窗口之外发布计划外紧急升级的权利。此外,对弃用或过时软件的强制升级可能会在维护窗口之外自动进行。

您也可以随时手动升级 集群 。手动启动的升级可以立即开始,而无需考虑任何维护窗口。

如需了解如何为新集群或现有集群设置维护窗口, 请参阅配置维护窗口

软件更新交错

为了减少工作负载停机时间,Distributed Cloud connected 软件更新是交错的。换句话说,Google 会分阶段升级每个 Distributed Cloud connected 集群中的工作器节点。软件升级阶段中的所有工作器节点都会同时关闭。

软件升级阶段中的节点数按如下方式确定:

  • 最多 3 个机架的部署 :每个阶段是所有机架中的机器总数除以 6,然后向上舍入到下一个整数。
  • 4 个或更多机架的部署 :每个阶段是部署中所有机架中的机器总数除以部署中的机架数。

您还可以选择设置自己的软件升级阶段大小。换句话说,您可以指定在 Distributed Cloud connected 集群中可以同时关闭以进行软件升级的节点数。如需相关说明,请参阅 在软件升级期间管理节点停机时间

限制

维护窗口具有以下限制:

  • 每个集群有一个维护窗口 。每个集群只能配置一个维护窗口。如果配置新的维护窗口,则新维护窗口会覆盖它的上一个维护窗口。

  • 维护窗口的时区 。在配置和查看维护窗口时,时间的显示方式会因您使用的工具而有所不同,如以下部分所述。

配置维护窗口时

使用更通用的 --maintenance-window 标志配置维护窗口时,您无法指定时区。使用 Google Cloud CLI 或 API 时,系统会使用世界协调时间 (UTC) 显示时间。控制台会使用本地时区显示时间。Google Cloud

如果使用更精细的标志(例如 --maintenance-window-start),您可以将时区指定为值的一部分。如果省略时区,则系统会使用本地时区。时间始终以世界协调时间 (UTC) 格式存储。

查看维护窗口时

查看集群的相关信息时,维护窗口的时间戳可能会以世界协调时间 (UTC) 格式或本地时区显示,具体取决于您查看信息的方式:

  • 使用 Google Cloud 控制台查看 集群的相关信息时,时间始终以本地时区显示。
  • 使用 gcloud CLI 查看集群的相关信息时,时间始终以世界协调时间 (UTC) 格式显示。

在这两种情况下,RRULE 始终采用世界协调时间 (UTC)。也就是说,如果指定一周中的某天,则这些时间采用世界协调时间 (UTC)。

配置集群维护窗口

Distributed Cloud connected 允许您为每个 Distributed Cloud connected 集群指定维护窗口。此窗口会告知 Google 仅在您指定的时间和频率更新 Distributed Cloud 软件。

以下规则适用于 Distributed Cloud connected 集群维护窗口:

  • 如果您为 Distributed Cloud connected 集群指定了维护窗口,Google 会在通过 Distributed Cloud connected 版本说明宣布更新后的 48 小时更新您的 Distributed Cloud connected 软件。 在版本说明页面上,您可以订阅 Distributed Cloud connected 版本说明 RSS Feed,以便及时了解软件更新的发布情况。
  • 维护窗口的最短时长为 5 小时。您可以根据 Distributed Cloud connected 安装的复杂性和业务要求指定更长的窗口。
  • 软件更新的最低频率为每周一次。您可以指定每周或每日维护窗口。您可以包含和排除特定日期。
  • 您可以随时更改集群的维护窗口时间表,但已安排维护窗口或正在进行维护窗口时除外。
  • 如果软件更新未在指定的时间窗口内完成,则会暂停,然后在下一个预定的维护窗口期间恢复。

如需了解详细说明,请参阅 为集群配置维护窗口

修复失败的硬件

当 Google 检测到 Distributed Cloud connected 硬件发生故障时,我们会执行以下操作之一:

  • 对于 Google 拥有的 Distributed Cloud 硬件,Google 会尝试在三个工作日内安排现场访问。为了让 Google 授权的技术人员执行必要的诊断和维修,您必须授予他们对 Distributed Cloud connected 硬件的访问权限。

  • 对于客户拥有的 Distributed Cloud 硬件,Google 会通知您和 Google 认证的系统集成商 (SI) 该问题。您必须与提供 Distributed Cloud connected 硬件的 SI 合作,安排技术人员访问并执行必要的诊断和维修。

如果 Distributed Cloud connected 硬件发生故障,则适用以下场景之一,具体取决于您的 Distributed Cloud connected 硬件是否使用自加密磁盘 (SED) 存储:

  • Distributed Cloud connected 机架 将数据存储在非 SED 驱动器上。当 Google 或 Google 认证的 SI 执行现场维修时,所有磁盘驱动器都会在维修开始之前从受影响的 Distributed Cloud connected 机器中移除,并在维修期间由您保管。

  • Distributed Cloud 连接的服务器 将数据存储在 SED 驱动器上。当机器发生故障时,Google 或 Google 认证的 SI 会更换整台机器。在机器从您的场所移除之前,Google 会确保您的数据已从其所有驱动器中安全擦除。

其他故障点

您有责任维护 Distributed Cloud 安装的以下方面,这些方面不受 Google 控制,可能会影响 Distributed Cloud connected 的可用性:

  • 您选择存储在 Distributed Cloud connected 硬件上的任何和所有数据。这包括冗余备份,以及在将 Distributed Cloud connected 硬件退回给 Google 之前导出数据。
  • 电源
  • 环境温度、湿度和冷却
  • 物理硬件安全
  • 本地网络安全
  • 本地网络和互联网连接。Distributed Cloud connected 必须 每 7 天重新连接到 Google Cloud ,以刷新安全令牌、加密密钥 并同步日志记录和管理数据。

后续步骤