本文將說明 Google Cloud的事件通報方式,包括以下主要通訊管道的角色:Personalized Service Health (PSH) 和公開的 Google Cloud Service Health (CSH) 資訊主頁。
如何查看事件通訊內容
Google Cloud 提供兩種事件通訊管道,各有不同用途:
Personalized Service Health (PSH):這是您瞭解服務中斷問題的主要來源。提供專為您使用的特定 Google Cloud 產品量身打造的個人化檢視畫面。建議您將 Personalized Service Health 整合至事件應變程序,做為重要的佐證信號。
為避免每次發生 Personalized Service Health 事件時都通知待命工程師,請將 Personalized Service Health 事件可見度整合到團隊的資訊主頁和工具中。這項做法可協助作業人員快速判斷疑似問題是否與服務中斷有關。 Google Cloud 進一步瞭解 PSH。
Google Cloud 服務健康狀態 (CSH): 這是 Google Cloud的公開狀態頁面,網址為 status.cloud.google.com。 Google Cloud 服務健康狀態頁面不需要登入,可做為整個平台的健康狀態一覽表,並用於通報重大事件,或在 PSH 無法使用時發揮作用。
我們的揭露策略和建議
決定要分享的內容和分享位置並非隨機過程,這是一門正式的系統性學科,主要根據事件範圍而定。這些管道的目的是盡可能顯示重大嚴重事件,同時減少無關事件的干擾。
影響範圍廣大的重大事件:影響範圍廣大的事件 (影響的專案比例很高,或影響多個區域) 會透過 Google Cloud 服務健康狀態 (CSH) 進行通報。我們也會透過 Personalized Service Health,將這些事件通知受影響的客戶。這有助於確保訊息能觸及最多觀眾,讓他們掌握最重要事件的最新動態。
其他已確認事件:如果問題範圍較小,例如只影響單一位置、區域或一小部分專案,我們會透過 Personalized Service Health 向客戶通報相關事件。我們致力於提供全面透明的資訊,因此服務健康狀態會提供您服務的所有潛在相關事件。如要取得更精確的事件動態消息,Service Health 提供相關工具,可篩選及微調透過快訊和自動化工作流程傳送的事件。
- 建議:設定快訊時,請只關注最重要的服務和位置,或只在相關性為「相關」或「受影響」的事件觸發快訊。Google Cloud 請參閱如何篩選及微調快訊的範例。
Personalized Service Health 無法使用時的備援策略
Personalized Service Health 仰賴核心服務,例如用於驗證的 Identity and Access Management。如果發生大規模嚴重中斷,您可能無法登入所需服務。
建議的備援策略如下:
手動程序:如果無法存取 Personalized Service Health 資訊主頁,執行手冊應引導作業人員前往 status.cloud.google.com 的Google Cloud 服務健康狀態資訊主頁。
自動化系統:使用 Service Health Status API,以程式輔助方式偵測 Personalized Service Health 是否發生問題。如果是,系統就會改為擷取公開的 CSH RSS 動態消息,持續提供程式輔助更新。