本页面介绍了确保 Google Distributed Cloud 已连接安装实现高可用性的最佳实践。 Distributed Cloud Connected 不提供服务等级协议 (SLA),仅提供本页面中所述的服务等级目标 (SLO)。
选择并实现可用性级别
您必须为 Distributed Cloud connected 工作负载选择最符合业务要求的可用性级别。例如,零售店的自助结账应用与移动网络运营商的边缘 RAN 部署相比,可用性风险要低得多。
目标可用性与您为紧急情况预留的分布式云备用资源容量成正比。下表介绍了这种关系。这些估计值不包括通过维护窗口安排的停机时间。
Distributed Cloud Connected 软件会占用每台物理机上的一些资源。具体金额因 Distributed Cloud connected 部署的具体配置而异。Google 建议您对 Distributed Cloud Connected 部署进行基准测试,以衡量此数量,并在规划工作负载分布时考虑此数量。
| 互联 GDC 设备类型 | 使用中的容量 | 预留容量 | 目标可用性 |
|---|---|---|---|
| 互联 GDC 机架 (单个 6 机器集群) |
83.33% | 16.67% | 99.9% |
| 互联 GDC 机架 (单个 6 机器集群) |
100% | 0% | 93.5% |
| 互联 GDC 服务器 (单个 3 部机器的集群) |
66.6% | 33.3% | 99.9% |
您可能会因硬件故障或需要重启的节点而突然遇到容量不足的情况。为应对这种情况,您必须在设计工作负载时考虑到资源配额,以便每个分布式云连接节点始终具有满足所选可用性级别的可用容量。
例如,若要在 Distributed Cloud Connected 机架部署中实现 99.9% 的目标可用性,您必须配置工作负载,以便每个 Distributed Cloud Connected 集群中的六台物理机之一可用作备份。
在地理位置上实现 Distributed Cloud 区域的多样化
为尽可能减少潜在的管理平面故障的影响,我们强烈建议您将分布式云可用区分布在多个相邻区域。
使用可存活模式
Distributed Cloud 集群使用在 Distributed Cloud connected 硬件上运行的本地控制平面。当与 Google Cloud 的连接断开时,工作负载会继续运行。如需了解详情,请参阅分布式云互连的生存模式。
了解软件更新和维护窗口
Google 会定期更新 Distributed Cloud connected 软件。这些软件更新是强制性的,您无法选择不接收。 借助 Distributed Cloud connected,您可以为每个 Distributed Cloud connected 集群指定单独的维护时段。
为了缓解工作负载可能暂时中断的情况,您可以通过维护期来控制可以进行控制层面和节点自动升级的时间。维护期适用于以下类型的场景和其他类似的场景:
- 非高峰时段:您想要在流量减少的非高峰时段内安排自动升级以最大限度地减小停机的可能性。
- 随时待命:您想要确保在工作时间内进行升级,以便有人可以监控升级并管理任何意外问题。
- 多集群升级:您想要以指定的时间间隔在不同区域的多个集群中发布升级(一次一个区域)。
Distributed Cloud Connected 支持以下类型的维护窗口:
- 维护时段。指定 Google 可在 Distributed Cloud 连接的集群上执行维护和软件升级的时间范围。
- 维护排除时段。指定一个时间窗口,在此期间,Google 无法对您的 Distributed Cloud connected 集群执行维护或软件升级。 如需配置维护排除期,您必须先配置维护窗口。 维护排除窗口优先于集群的维护窗口。
除了自动升级之外,Google 偶尔还需要执行其他维护任务。在这种情况下,它会尽可能遵守集群的维护窗口。
如果任务运行超出了维护窗口,则 Distributed Cloud Connected 会尝试暂停任务。然后,它会尝试在下一个维护窗口期间恢复这些任务。
Distributed Cloud connected 保留在维护期之外发布计划外紧急升级的权利。此外,对弃用或过时软件的强制升级可能会在维护期之外自动进行。
您也可以随时手动升级集群。手动启动的升级可以立即开始,而无需考虑任何维护期。
如需了解如何为新集群或现有集群设置维护窗口,请参阅配置维护窗口。
软件更新分批推送
为了减少工作负载停机时间,Distributed Cloud Connected 软件更新会错开进行。换句话说,Google 会分阶段升级每个 Distributed Cloud 连接集群中的工作器节点。软件升级阶段的所有工作器节点同时停机。
软件升级阶段中的节点数量按以下方式确定:
- 部署最多 3 个机架:每个阶段是所有机架中的机器总数除以 6,然后向上舍入到下一个整数。
- 部署了 4 个或更多机架:每个阶段都是部署中所有机架的机器总数除以部署中的机架数。
您还可以选择自行设置软件升级阶段的大小。换句话说,您可以指定在 Distributed Cloud Connected 集群中,有多少个节点可以同时因软件升级而停机。如需查看相关说明,请参阅管理软件升级期间的节点停机时间。
限制
维护窗口具有以下限制:
每个集群有一个维护窗口。每个集群只能配置一个维护窗口。如果配置新的维护窗口,则新维护窗口会覆盖它的上一个维护窗口。
维护窗口的时区。在配置和查看维护期时,时间的显示方式会因您使用的工具而有所不同,详情请参阅以下部分。
配置维护期时
使用更通用的 --maintenance-window 标志配置维护窗口时,您无法指定时区。使用 Google Cloud CLI 或 API 时,系统会使用世界协调时间 (UTC) 显示时间。Google Cloud 控制台使用本地时区来显示时间。
如果使用更精细的标志(例如 --maintenance-window-start),您可以将时区指定为值的一部分。如果省略时区,则系统会使用本地时区。时间始终以世界协调时间 (UTC) 格式存储。
查看维护期时
查看集群的相关信息时,维护期的时间戳可能会以世界协调时间 (UTC) 格式或本地时区显示,具体取决于您查看信息的方式:
- 使用 Google Cloud 控制台查看集群的相关信息时,时间始终以本地时区显示。
- 使用 gcloud CLI 查看集群的相关信息时,时间始终以世界协调时间 (UTC) 格式显示。
在这两种情况下,RRULE 始终采用世界协调时间 (UTC)。也就是说,如果指定一周中的某天,则这些时间采用世界协调时间 (UTC)。
配置集群维护窗口
借助 Distributed Cloud connected,您可以为每个 Distributed Cloud connected 集群指定维护窗口。此窗口会告知 Google 仅在您指定的时间和频率更新 Distributed Cloud 软件。
以下规则适用于 Distributed Cloud 连接集群维护窗口:
- 如果您为 Distributed Cloud Connected 集群指定了维护窗口,Google 会在通过 Distributed Cloud Connected 版本说明宣布更新后的 48 小时内更新您的 Distributed Cloud Connected 软件。在版本说明页面上,您可以订阅 Distributed Cloud Connected 版本说明 RSS Feed,以便及时了解软件更新。
- 维护窗口的最短时长为 5 小时。您可以根据 Distributed Cloud Connected 安装的复杂程度和业务需求,指定更长的时间范围。
- 软件更新的最低频率为每周一次。您可以指定每周或每天的维护窗口。您可以包含和排除特定日期。
- 您可以随时更改集群的维护窗口安排,但前提是尚未安排维护窗口或维护窗口未在进行中。
- 如果软件更新未在指定的时间窗口内完成,系统会暂停更新,然后在下一个预定的维护窗口期间恢复更新。
如需了解详细说明,请参阅为集群配置维护窗口。
维修故障硬件
当 Google 检测到 Distributed Cloud 连接的硬件出现故障时,我们会执行以下操作之一:
对于 Google 自有的 Distributed Cloud 硬件,Google 会尝试在三个工作日内安排现场访问。为了让 Google 授权的技术人员执行必要的诊断和维修,您必须授予他们对 Distributed Cloud 连接的硬件的访问权限。
对于客户自有的 Distributed Cloud 硬件,Google 会通知您和经过 Google 认证的 SI 出现的问题。您必须与提供 Distributed Cloud 连接硬件的 SI 合作,安排技术人员上门服务,并执行必要的诊断和维修。
如果 Distributed Cloud connected 硬件发生故障,则会发生以下情况之一,具体取决于您的 Distributed Cloud connected 硬件是否使用自加密磁盘 (SED) 存储:
Distributed Cloud connected 机架将数据存储在非 SED 驱动器上。当 Google 或经过 Google 认证的 SI 执行现场维修时,在开始维修之前,所有磁盘驱动器都会从受影响的 Distributed Cloud 连接机器中移除,并在维修期间由您保管。
Distributed Cloud 连接的服务器将数据存储在 SED 驱动器上。 当机器出现故障时,Google 或 Google 认证的 SI 会更换整个机器。在将机器从您的场所移走之前,Google 会确保已从其所有硬盘中安全地清除您的数据。
其他故障点
您需要负责维护 Distributed Cloud 安装的以下方面,这些方面不受 Google 控制,但可能会影响 Distributed Cloud Connected 的可用性:
- 您选择存储在 Distributed Cloud connected 硬件上的任何数据。这包括在将 Distributed Cloud Connected 硬件退回给 Google 之前,创建可正常运行的冗余备份并导出您的数据。
- 电源。
- 环境温度、湿度和降温。
- 实体硬件安全。
- 本地网络安全。
- 本地网络和互联网连接。分布式云连接必须每 7 天重新连接一次 Google Cloud ,以刷新安全令牌、加密密钥,并同步日志记录和管理数据。