可生存性模式

Distributed Cloud connected 集群使用部署在 Distributed Cloud connected 硬件上的本地控制平面。当与 Google Cloud的连接断开时,集群会进入生存模式,工作负载会继续运行,最长可达 7 天。 如果工作负载在集群处于可恢复模式时出现故障,本地映像缓存可确保在连接 Google Cloud 恢复后工作负载重新启动。

由于 Google 无法控制的硬件或软件故障,或者由于分布式云连接的硬件或软件故障,集群可能会进入可维护模式。

Google 无法控制的故障示例:

  • 部署地点的互联网连接失败。
  • 部署网站上的防火墙或网络配置错误,或者硬件故障。
  • 为集群提供服务的边界代理实例已关闭或配置错误。

如果您的 Distributed Cloud connected 集群因 Google 无法控制的硬件或软件故障而在生存模式下运行 7 天或更短时间,Google 支持团队会与您合作,在 7 天内将其恢复为正常运行状态。超过 7 天后,我们无法保证提供进一步的支持。

Distributed Cloud connected 硬件或软件中的故障示例:

  • 有缺陷的 Distributed Cloud Connected 软件更新。
  • Distributed Cloud connected 机器或网络硬件出现故障。
  • Distributed Cloud connected 软件中存在未诊断出的故障。

如果您的 Distributed Cloud 连接集群因 Distributed Cloud 连接软件或硬件出现故障而进入可维护性模式,Google 支持团队会与您合作,直到集群恢复正常运行。

集群进入可维护性模式后会发生什么情况

当连接的分布式云集群进入可维护性模式时,会发生以下情况:

  • Google 会通过电子邮件通知您,受影响的集群已进入可维护模式。电子邮件会发送给相应 Google Cloud 项目中指定的技术类别的基本联系人。
  • 如果您需要有关将集群恢复到正常运行状态的帮助,请与 Google 支持团队联系。

在生存模式下运行集群

在可续航模式下,Distributed Cloud Connected 集群的运行方式如下:

  • 当与 Google Cloud 的连接中断时,Distributed Cloud Connected 会持续尝试重新连接到 Google Cloud ,直到连接重新建立。
  • 通过 Google Cloud CLI、kubectl CLI 和 Distributed Cloud Edge Container API 对工作负载的控制已被停用。不过,您可以生成离线凭据,以便通过其他互联网连接访问集群,如获取集群的凭据中所述。
  • Distributed Cloud 软件更新、SLO 和硬件维修不可用。
  • 与 Google Cloud 重新建立连接后,系统会与 Google Cloud 同步有限的日志和指标:
    • 系统指标的上限为 6 GB 或 22 小时,以先达到者为准。
    • 工作负载日志的时长上限为 4 小时。
    • 工作负载指标的上限为 1 GB。
    • 审核日志的大小上限为 10 GB。
  • 默认情况下,如果节点在集群与 Google Cloud断开连接时重新启动,则在重新建立与 Google Cloud 的连接之前,该节点无法重新加入其集群,因为其身份验证密钥无法刷新。您可以选择指定离线重启窗口,在此期间,节点可以在集群以可恢复模式运行时在重启后重新加入集群。如需了解详情,请参阅创建集群

集群退出可存活模式后该怎么做

当 Distributed Cloud Connected 集群退出可维护性模式时,请检查以下各项:

  • Distributed Cloud connected 软件版本。除非您有意将受影响的集群固定到特定版本的 Distributed Cloud Connected 软件,否则可能需要将该集群更新到最新版本的 Distributed Cloud Connected 软件。如需了解详情,请参阅升级集群的软件版本
  • 舰队管理证书。您可能需要刷新已过期的 LOAS 证书。 如需解决此问题,请与 Google 支持团队联系。

检查集群的连接状态

您可以按照获取有关集群的信息中的步骤检查 Distributed Cloud 集群的状态,以确定是否需要执行 Google Cloud。该命令会返回 connectionState 字段的值。此字段可使用以下值之一:

  • CONNECTED:集群已连接到 Google Cloud并与之完全同步。
  • DISCONNECTED:集群未连接到 Google Cloud。
  • CONNECTED_AND_SYNCING:集群已重新连接到 Google Cloud ,并且正在与 Google Cloud同步离线数据。在同步完成之前,请勿断开此集群与 Google Cloud 的连接。

后续步骤