Google Distributed Cloud Connected 共同责任

监控和维护 Google Distributed Cloud Connected 是 Google 与客户共同承担的责任。您可以根据本文档中的信息,确定如何以最佳方式部署和管理本地工作负载。

Google 责任

作为一种受管理的硬件和软件服务,Google 负责管理和监控您用于部署业务应用的基础设施。

Google 负责 Distributed Cloud Connected 系统的以下方面:

  • Google Cloud 控制平面
  • Kubernetes 控制平面、工作器节点和内置系统服务
  • Google 提供的软件插件和产品
  • 提供的硬件,包括服务器

Google 会监控我们负责的功能,并在发现问题时提醒 Google 工程师,以便他们进行调查。

客户责任

您需要负责 Distributed Cloud 连接系统的以下方面:

  • 本地网络,包括任何客户提供的交换机
  • 互联网连接
  • 功率
  • 环境,例如冷却
  • 客户应用和任何客户安装的 Google Distributed Cloud 或 Kubernetes 插件
  • 客户自有堡垒主机实例和边界代理部署(如果使用这些功能)

Google 不会直接监控您负责的问题。 例如,Google 不会监控客户虚拟机是否无法正确启动,也不会监控客户的应用是否无法运行。如果您认为此类行为是由平台问题引起的,则必须开立 Google Cloud 支持服务工单,以便 Google 进行调查。

共担责任

在某些情况下,Google 会检测到网站故障,但认为原因是您负责的特定于网站的问题。例如,我们可能会看到某个网站上所有节点的温度随时间推移而升高,然后断开连接,这表明可能是本地冷却系统出现故障。在这些情况下,Google 会与您一起进行协作式问题排查,以确认问题是否是由特定于网站的客户责任造成的,并验证是否存在任何硬件故障。

为成功解决问题并确定根本原因,Google 可能需要向您索取并接收相关信息。例如,Google 可能需要知道断电时间以及电源或网络何时恢复。 如果您无法提供此信息,Google 可能无法进行详细的根本原因分析。

连接失败

如果出现互联网连接故障,本产品支持生存模式,最长可达 7 天。在此期间,您可以在本地访问该服务。 不过,在网络连接恢复之前,Google 无法监控、缓解或诊断现场系统问题。

虽然 Google 会监控 Google 遥测系统中的网站断开连接情况,但我们无法远程确定根本原因是电源、ISP 连接还是灾难性网站故障(例如火灾或洪水)。

如果某个网站的所有硬件同时停止报告数据,则很可能是本地电源或网络问题。为避免误报,Google 可能会在确认问题无法自行解决(例如,由于 ISP 维护)且无法通过虚拟方式解决后,才通知您。在这种情况下,您需要进一步排查问题。

如果配置为堡垒主机和边界代理 (BH/BP),Google 会使用您的 BH/BP 和通过 BH/BP 连接的分布式云设备,通过定期测试请求来监控连接。Google 希望您监控 BH/BP 实例的整体健康状况,例如通过跟踪资源使用情况。如果我们检测到 BH/BP 或分布式云连接设备存在连接问题,并怀疑该问题可能源自客户自有组件,我们可能会要求您诊断和调试该问题。

调试

为了帮助您进行调试,Google 可能会要求您提供以下数据:

  • 应用于非 Google 管理的网络设备(例如交换机、路由器或防火墙)的任何配置更改,包括精确到秒的时间戳
  • 防火墙拒绝日志,包括时间戳和详细信息
  • 任何设备重启的时间和原因。原因可能包括软件升级、电源故障或软件错误。
  • 任何可能已知的电源故障时间,例如从建筑物或数据中心管理处获知的时间,或从其他设备的最后一条日志消息中推断出的时间
  • 任何网络中断的时间,具体取决于网络提供商或路由器/防火墙上的日志消息

对于互操作性问题,Google 可能还会要求与供应商进行联合调试,包括共享设备日志文件和启用调试选项。我们会尽可能在客户实验室环境中重现问题。

在某些情况下,Google 可以从我们管理的设备中获取信息,但这些信息可能不完整。例如,在停电后,ISP 连接的启动时间可能比分布式云连接的服务器长。

责任划分

请使用下表确定谁负责执行常见任务。

任务 客户 Google
确定部署断开连接问题并提供客户通知以供调查 X
解决电源问题 X
解决网络问题,包括任何客户提供的交换机。 X X
解决环境问题,例如散热 X
解决客户自有堡垒主机实例和边界代理部署问题(如果已部署) X
监控 API 管理平面 X
监控 Kubernetes 控制平面、工作器节点和内置系统服务 X
监控 Google 提供的软件插件和产品,例如 Symcloud Storage X
监控所提供的硬件,例如服务器和(对于某些部署)网络设备 X
监控客户提供的网络设备 X
监控上游网络连接 X
针对网络或环境问题提供联合调试支持 X
平台可观测性,包括指标和日志 X
应用可观测性,包括指标和日志 X
回应有关调查客户责任范围内的问题的请求 X