私有云维护和更新
私有云环境通过以下方式来消除单点故障:
- ESXi 集群已配置为具备 vSphere 高可用性 (HA)。集群的规模已进行调整,至少有一个备用节点以实现弹性。
- vSAN 提供冗余主存储空间,至少需要三个节点来防范单点故障。对于较大的集群,您可以配置 vSAN 以提供更高的弹性。
- vCenter、PSC 和 NSX Manager 虚拟机 (VM) 配置有 RAID-10 存储空间来防范存储故障。此外,虚拟机还可以通过 vSphere 高可用性防范节点和网络故障。
- ESXi 主机具有冗余风扇和 NIC。
- TOR 和主交换机以高可用性方式成对配置,以提供弹性。
VMware Engine 会持续监控正常运行时间、监控可用性,并提供以下类型虚拟机的可用性服务等级协议 (SLA):
- ESXi 主机
- vCenter
- PSC
- NSX Manager
VMware Engine 会持续监控以下各项是否出现故障:
- 硬盘
- 物理 NIC 端口
- 服务器
- 风扇
- 电源
- 交换机
- 交换机端口
如果磁盘或节点出现故障,则 VMware Engine 会立即自动向受影响的 VMware 集群添加新节点,以恢复服务可操作性。您的私有云上会发生以下流程:
- 自动监控和提醒:我们的监控系统会持续跟踪节点的健康状况。当检测到表明可能存在硬件故障的问题时,系统会触发提醒。
- 诊断时有人工参与:虽然该系统旨在实现自动更换,但我们的工程师会审核这些提醒,以快速确定根本原因。这样可确保我们解决的是正确的问题,并防止在建议使用更简单的解决方案(例如重新启动)时不必要地更换节点。例如,临时网络问题或软件故障可能会触发与硬件故障类似的提醒,而我们希望避免在可能并非建议的操作时,因节点更换而影响您的集群。不必要的节点更换会触发完整的 vSAN 重新同步,这是一项占用大量存储 I/O 的操作。
- 针对硬件故障的自动化节点替换:如果我们的工程师确认存在硬件故障,系统会立即开始自动化节点替换流程。系统会向集群添加一个新节点,然后 vSAN 会在该节点上启动数据重新同步。
系统会备份、维护和更新私有云中的以下 VMware 元素:
- ESXi
- vCenter Platform Services Controller
- vSAN
- NSX
备份和恢复
备份包括以下内容:
- vCenter、PSC 和 DVS 规则的夜间增量备份。
- 用于备份应用层组件的 vCenter 内置 API。
- 在更新或升级 VMware 管理软件之前自动备份。
维护
包含以下类型的计划维护。
后端和内部维护
后端和内部维护通常涉及重新配置物理资源或安装软件补丁程序。它不会影响所服务的资源的正常消耗。由于冗余 NIC 会进入每个物理机架,因此正常网络流量和私有云操作不受影响。只有当您的组织预计在维护间隔期间使用全部冗余带宽时,您才可能注意到性能影响。
门户维护
更新控制层面或基础架构时,需要一些有限的服务停机时间。维护间隔的频率可以为每月一次,并且该频率预计会随着时间推移而下降。VMware Engine 会通知您即将进行门户维护,并尽力缩短维护间隔。在门户维护间隔期间,以下服务将继续正常运行,没有任何影响:
- VMware 管理层面和应用
- vCenter 访问权限
- 所有网络和存储空间
VMware 基础架构维护
偶尔会需要更改 VMware 基础架构的配置。这些间隔可能每 1-2 个月发生一次,但频率预计会随时间推移而下降。Google 通常可以执行此类维护(包括证书更新),而不会中断正常的私有云消耗。在 VMware 维护间隔期间,以下服务将继续运行,没有任何影响:
- VMware 管理层面和应用
- vCenter 访问权限
- 所有网络和存储空间
更新和升级
VMware Engine 负责对私有云中的 VMware 软件(ESXi、vCenter、PSC 和 NSX)进行生命周期管理。
软件更新包括以下内容:
- 补丁程序:VMware 发布的安全补丁程序或 Bug 修复
- 更新:VMware 堆栈组件的次要版本变更
- 升级:VMware 堆栈组件的主要版本变更
在 VMware 提供重要安全补丁程序后,VMware Engine 会立即对其进行测试。Google 会争取在相关严重补丁发布后的一周内开始向私有云环境推出这些补丁。实际补丁完成时间表会因调度可用性以及需要安排补丁时间以避免客户工作负载出现任何停机时间而异。
当有新的主要版本的 VMware 软件可用时,VMware Engine 会与客户合作,协调应用升级的适当维护期。在主要版本发布后的至少六个月内,VMware Engine 会应用主要版本升级,并在应用主要版本升级前一个月通知客户。
VMware Engine 还与主要行业供应商合作,以确保在发布主要版本升级之前支持最新的 VMware 软件版本。如需了解有关特定供应商支持的信息,请与 Cloud Customer Care 联系。
证书更新责任
证书更新是 Google 的责任。如果您收到证书更新错误,则无需采取任何行动,系统会在证书过期之前续订证书。不过,如果您的私有云中配置了 LDAPS,您需要自行负责与该错误关联的特定证书。证书更新可能会在 VMware 基础架构维护期间进行。
准备工作
Google 建议您在开始更新或升级之前做好以下准备工作:
- 检查存储空间容量:确保 vSphere 集群的存储空间利用率低于 80% 以维持服务等级协议 (SLA)。如果利用率高于 80%,则升级过程可能需要比正常情况更长的时间,也可能完全失败。如果存储空间利用率高于 70%,请添加一个节点来扩展集群,并避免升级期间出现任何可能的停机。
- 更改 FTT 为 0 的 vSAN 存储政策:将使用故障容忍度 (FTT) 为 0 的 vSAN 存储政策进行配置的虚拟机更改为使用 FTT 为 1 的 vSAN 存储政策以保留 SLA。
- 移除虚拟机 CD 装载:移除在工作负载虚拟机上装载的任何与 vMotion 不兼容的 CD。
- 完成 VMware 工具安装:在计划升级开始之前,完成 VMware 工具安装或升级。
- 移除虚拟机上的 SCSI 总线共享:如果您不希望关闭虚拟机的电源,请移除虚拟机上的 SCSI 总线共享。
- 移除无法访问的虚拟机和数据存储区:从 vCenter 库存中移除未使用和无法访问的虚拟机。移除所有无法访问的外部数据存储区。
- 停用分布式资源调度器 (DRS) 规则:将虚拟机固定到主机的 DRS 规则会阻止节点进入维护模式。您可以在升级之前停用 DRS 规则,并在升级完成后启用这些规则。
- 更新 VMware 插件和第三方解决方案:验证您的私有云 vCenter 上部署的 VMware 插件和第三方解决方案与之前提及的升级后版本兼容。工具示例包括用于备份、监控、灾难恢复编排和其他类似功能的工具。请咨询解决方案供应商,并根据需要提前更新,以确保升级后兼容性。
升级时长和后台进程
以下因素可能会影响升级时长:
- vSAN 重新同步:升级过程(尤其是移除临时节点)的持续时间因 vSAN 数据重新同步要求而异。vSAN 重新同步和集群再平衡任务可能会超出指定的维护窗口。这些是预期的后台进程,不会影响工作负载的可用性。
- 底层硬件问题:在极少数情况下,升级期间的主机重启可能会暴露底层硬件故障。为了维持 SLA 和集群健康状况,系统会优先更换故障硬件,然后再继续执行其他操作。这种必要的干预可能会延长总体升级时长。
可能会影响维护流程的配置
VMware Engine 利用 VMware 的维护模式来执行升级、更新和节点维护。这有助于确保您的私有云工作负载持续运行。不过,在节点进入维护模式之前,以下配置可能需要执行额外的步骤:
- DRS 规则:强制虚拟机留在特定节点上的“必须”规则。
- SCSI 总线共享:配置为共享 SCSI 总线的虚拟机。
- CD-ROM 装载:附加了 CD-ROM 的虚拟机,尤其是无法使用 vMotion 将这些 CD-ROM 移至其他节点的虚拟机。
- 串行端口连接:使用串行端口连接的虚拟机,这些连接会阻止使用 vMotion 将虚拟机移至其他节点。
- 裸设备映射 (RDM):虚拟机直接访问物理存储设备。
如果需要采取行动
如果节点上存在任何上述配置,Cloud Customer Care 会在采取必要的补救措施来维持私有云的可用性之前至少 24 小时通知您。在某些情况下,关闭虚拟机并使用 vMotion 迁移虚拟机,然后开启虚拟机,或者移除 CD-ROM 等步骤可能会暂时中断您的工作负载。