可用性最佳实践

本页面介绍了确保 Google Distributed Cloud 安装实现高可用性的最佳实践。 Distributed Cloud 不提供服务等级协议 (SLA),仅提供本页面中所述的服务等级目标 (SLO)。

选择并实现可用性级别

您必须选择最符合业务要求的 Distributed Cloud 工作负载可用性级别。例如,零售店的自助结账应用与移动网络运营商的边缘 RAN 部署相比,可用性风险要低得多。

目标可用性与您为紧急情况预留的分布式云备用资源容量成正比。下表介绍了这种关系。这些估计值不包括通过维护窗口安排的停机时间。

Distributed Cloud Connected 软件会占用每台物理机上的一些资源。具体金额因 Distributed Cloud connected 部署的具体配置而异。Google 建议您对 Distributed Cloud Connected 部署进行基准测试,以衡量此数量,并在规划工作负载分布时考虑此数量。

GDC Edge 设备规格 使用中的容量 预留容量 目标可用性
GDC Edge 机架
(单个 6 台机器的集群)
83.33% 16.67% 99.9%
GDC Edge 机架
(单个 6 台机器的集群)
100% 0% 93.5%
GDC Edge 服务器
(单个 3 部机器的集群)
66.6% 33.3% 99.9%

您可能会因硬件故障或需要重启的节点而突然遇到容量不足的情况。为应对这种情况,您必须在设计工作负载时考虑到资源配额,以便每个分布式云节点始终具有满足所选可用性级别的可用容量。

例如,若要在 Distributed Cloud Rack 部署中实现 99.9% 的目标可用性,您必须配置工作负载,以便每个 Distributed Cloud 集群中的六台物理机器中有一台可用作备份。

使用可存活模式

借助 Distributed Cloud,您可以创建使用在 Distributed Cloud 硬件上运行的本地控制平面的集群。此类集群可在与 Google Cloud 的连接断开时继续运行工作负载。如需了解详情,请参阅分布式云可维护性模式

了解软件更新和维护窗口

Google 会定期更新 Distributed Cloud 软件。这些软件更新是强制性的,您无法选择不接收。 借助 Distributed Cloud,您可以为每个 Distributed Cloud 集群指定单独的维护时段。

为了缓解工作负载可能暂时中断的情况,您可以通过维护期来控制可以进行控制层面和节点自动升级的时间。维护期适用于以下类型的场景和其他类似的场景:

  • 非高峰时段:您想要在流量减少的非高峰时段内安排自动升级以最大限度地减小停机的可能性。
  • 随时待命:您想要确保在工作时间内进行升级,以便有人可以监控升级并管理任何意外问题。
  • 多集群升级:您想要以指定的时间间隔在不同区域的多个集群中发布升级(一次一个区域)。

除了自动升级之外,Google 偶尔还需要执行其他维护任务。在这种情况下,它会尽可能遵守集群的维护窗口。

如果任务运行超出了维护窗口,Distributed Cloud 会尝试暂停任务。然后,它会尝试在下一个维护窗口期间恢复这些任务。

Distributed Cloud 保留在维护期之外发布计划外紧急升级的权利。此外,对弃用或过时软件的强制升级可能会在维护期之外自动进行。

您也可以随时手动升级集群。手动启动的升级可以立即开始,而无需考虑任何维护期。

如需了解如何为新集群或现有集群设置维护窗口,请参阅配置维护窗口

限制

维护窗口具有以下限制:

  • 每个集群有一个维护窗口。每个集群只能配置一个维护窗口。如果配置新的维护窗口,则新维护窗口会覆盖它的上一个维护窗口。

  • 维护窗口的时区。在配置和查看维护期时,时间的显示方式会因您使用的工具而有所不同,详情请参阅以下部分。

配置维护期时

使用更通用的 --maintenance-window 标志配置维护窗口时,您无法指定时区。使用 Google Cloud CLI 或 API 时,系统会使用世界协调时间 (UTC) 显示时间。Google Cloud 控制台使用本地时区来显示时间。

如果使用更精细的标志(例如 --maintenance-window-start),您可以将时区指定为值的一部分。如果省略时区,则系统会使用本地时区。时间始终以世界协调时间 (UTC) 格式存储。

查看维护期时

查看集群的相关信息时,维护期的时间戳可能会以世界协调时间 (UTC) 格式或本地时区显示,具体取决于您查看信息的方式:

  • 使用 Google Cloud 控制台查看集群的相关信息时,时间始终以本地时区显示。
  • 使用 gcloud CLI 查看集群的相关信息时,时间始终以世界协调时间 (UTC) 格式显示。

在这两种情况下,RRULE 始终采用世界协调时间 (UTC)。也就是说,如果指定一周中的某天,则这些时间采用世界协调时间 (UTC)。

配置集群维护窗口

借助分布式 Cloud,您可以为每个分布式 Cloud 集群指定维护窗口。此窗口会告知 Google 仅在您指定的时间和频率更新 Distributed Cloud 软件。

以下规则适用于 Distributed Cloud 集群维护时段:

  • 如果您为 Distributed Cloud 集群指定了维护窗口,Google 会在通过 Distributed Cloud 版本说明宣布更新后的 48 小时内更新 Distributed Cloud 软件。在版本说明页面上,您可以订阅 Distributed Cloud 版本说明 RSS Feed,以便及时了解软件更新。
  • 维护窗口的最短时长为 6 小时。您可以根据 Distributed Cloud 安装的复杂程度和业务需求指定更长的时间范围。
  • 软件更新的最低频率为每周一次。您可以指定每周或每天的维护窗口。您可以包含和排除特定日期。
  • 您可以随时更改集群的维护窗口安排,但前提是尚未安排维护窗口或维护窗口未在进行中。
  • 如果软件更新未在指定的时间窗口内完成,系统会暂停更新,然后在下一个预定的维护窗口期间恢复更新。

如需了解详细说明,请参阅为集群配置维护窗口

维修故障硬件

当 Google 检测到 Distributed Cloud 硬件出现故障时,会尝试在三个工作日内安排现场访问。 为了让 Google 授权的技术人员执行必要的诊断和维修,您必须授予他们对 Distributed Cloud 硬件的访问权限。

如果 Distributed Cloud 硬件发生故障,则会发生以下情况之一,具体取决于您的 Distributed Cloud 硬件是否使用自加密磁盘 (SED) 存储:

  • 分布式云机架将数据存储在非 SED 驱动器上。当 Google 执行现场维修时,在开始维修之前,所有磁盘驱动器都会从受影响的分布式云机器中移除,并在维修期间由您保管。

  • Distributed Cloud Servers 将数据存储在 SED 驱动器上。当机器发生故障时,Google 会更换整台机器。在将机器从您的场所移走之前,Google 会确保您的数据已从其所有硬盘中安全清除。

其他故障点

您需要负责维护 Distributed Cloud 安装的以下方面,这些方面不受 Google 控制,但可能会影响 Distributed Cloud 的可用性:

  • 您选择存储在分布式云硬件上的所有数据。这包括在将 Distributed Cloud 硬件退回给 Google 之前,创建可正常运行的冗余备份并导出数据。
  • 电源
  • 环境温度、湿度和降温
  • 实体硬件安全
  • 本地网络安全
  • 本地网络和互联网连接:
    • 对于云控制平面集群,Distributed Cloud 需要与 Google Cloud 保持持续连接,否则无法正常运行。
    • 对于本地控制平面集群,Distributed Cloud 必须每 7 天重新连接到 Google Cloud ,以刷新安全令牌、加密密钥,并同步日志记录和管理数据。

后续步骤