本文档概述了 Google Cloud在传达突发事件时所采取的方法,包括以下主要通信渠道的角色:Personalized Service Health (PSH) 和公共 Google Cloud Service Health (CSH) 信息中心。
在哪里查找突发事件通知
Google Cloud 提供了两种突发事件沟通渠道,每种渠道都有不同的用途:
Personalized Service Health (PSH):这是您获取与您相关的服务中断信息的主要来源。它会根据您使用的特定 Google Cloud 产品提供个性化视图。我们建议您将 Personalized Service Health 集成到突发事件响应流程中,作为重要的佐证信号。
为避免每次发生 Personalized Service Health 事件时都需通知值班工程师,请将 Personalized Service Health 突发事件可见性集成到团队的信息中心和工具中。这种做法有助于运营人员快速确定疑似问题是否与 Google Cloud 服务中断有关。详细了解 PSH。
Google Cloud 服务健康状况 (CSH):这是 Google Cloud面向公众的状态页面,网址为 status.cloud.google.com。 Google Cloud Service Health 无需登录,可用于快速检查整个平台的健康状况,并用于通报影响范围较广的严重事件或 PSH 本身不可用的情况。
我们的披露策略和建议
决定分享哪些内容以及在何处分享并非随意而为。它是一门正式的系统性学科,主要基于事件的范围。这些渠道旨在最大限度地提高广泛严重突发事件的可见性,同时减少无关突发事件的干扰。
对于影响范围广的严重突发事件:影响大量项目或广泛分布在多个区域的广范围突发事件会通过 Google Cloud 服务健康状况 (CSH) 进行通报。我们还会使用 Personalized Service Health 将这些突发事件告知受影响的客户。这有助于确保消息能够触达尽可能多的受众群体,从而覆盖最重要的活动。
对于其他已确认的突发事件:对于影响范围更有限的问题(例如,仅影响单个位置、可用区或一小部分项目),我们将使用 Personalized Service Health 向客户通报相关突发事件。我们的目标是实现全面的透明度,这意味着 Service Health 会提供您服务的所有潜在相关事件。如果您需要更精细的事件 Feed,Service Health 提供了相关工具,可用于过滤和微调通过提醒和自动化工作流传递的事件。
- 建议:配置提醒,使其仅关注最关键的Google Cloud 服务和位置,或仅在相关性为“相关”或“受影响”的事件发生时触发。请参阅如何过滤和微调提醒的示例。
在 Personalized Service Health 不可用时采取的后备策略
个性化服务健康状况依赖于核心服务,例如用于身份验证的 Identity and Access Management。如果出现严重的大范围中断,您登录所需的各项服务可能会受到影响。
我们建议采用以下回退策略:
对于手动流程:如果运维人员无法访问 Personalized Service Health 信息中心,您的 Runbook 应引导他们前往 status.cloud.google.com 上的Google Cloud Service Health 信息中心。
对于自动化系统:使用 Service Health Status API 以编程方式检测 Personalized Service Health 是否存在问题。 如果是,您的系统可以回退到提取公开的 CSH RSS Feed,以便继续进行程序化更新。