Google Cloud インシデントのコミュニケーション

このドキュメントでは、インシデントの通知に関する Google Cloudのアプローチについて説明します。これには、主な通知チャネルである Personalized Service Health(PSH)と公開の Google Cloud Service Health(CSH)ダッシュボードの役割が含まれます。

インシデントの通知を確認する場所

Google Cloud には、インシデントの通知用に 2 つのチャネルが用意されています。それぞれ目的が異なります。

  • Personalized Service Health(PSH): ユーザーに関連するサービスの中断に関する主な情報源です。使用している特定の Google Cloud プロダクトに合わせてカスタマイズされたパーソナライズされたビューが表示されます。Personalized Service Health をインシデント対応プロセスに重要な裏付けシグナルとして統合することをおすすめします。

    Personalized Service Health のイベントごとにオンコール エンジニアにページングしないようにするには、Personalized Service Health のインシデントの可視性をチームのダッシュボードとツールに統合します。このプラクティスにより、オペレーターは、疑わしい問題が Google Cloud サービスの中断に関連しているかどうかを迅速に判断できます。詳しくは、PSH の詳細をご覧ください。

  • Google Cloud Service Health(CSH): これは Google Cloudの一般公開されているステータス ページで、status.cloud.google.com で確認できます。 Google Cloud Service Health はログインを必要とせず、プラットフォーム全体の健全性を一目で確認できるため、広範囲にわたる重大なインシデントや、PSH 自体が利用できない場合に、その情報を伝えるために使用されます。

PSH と CSH のコミュニケーション チャネルを比較した図。この図は、Personalized Service Health に送信される、出現インシデント、確認済みインシデント、広範囲に影響を及ぼす深刻なインシデントを示しています。この図は、広範囲にわたる重大なインシデントが Cloud Service Health に送信されることを示しています。[Personalized Service Health] には、[Dashboard]、[API]、[Cloud Logging] が表示されます。[Cloud Service Health] に [Dashboard] と [RSS Feed] が表示されます。

開示戦略と推奨事項

何をどこで共有するかを決めるのは、恣意的なプロセスではありません。これは、主にインシデントの範囲に基づいて体系的に行われる正式な対応です。これらのチャネルの目的は、広範囲に及ぶ重大なインシデントの可視性を最大限に高め、関連性のないインシデントのノイズを減らすことです。

  • 広範囲にわたる重大インシデントの場合: 広範囲のインシデント(プロジェクトの大部分に影響を与えている、または複数のリージョンに広範囲にわたって影響を与えているインシデント)は、 Google Cloud Service Health(CSH)を使用して通知されます。これらのインシデントは、Personalized Service Health を使用して影響を受けるお客様にも通知されます。これにより、最も重要なイベントについて、メッセージをできるだけ多くのユーザーに確実に届けることができます。

  • その他の確認済みのインシデントの場合: 影響範囲が限定的な問題(単一のロケーション、ゾーン、またはプロジェクトの小規模なサブセットに影響する問題など)については、Personalized Service Health を使用して、関連するインシデントをお客様にお知らせします。Google は包括的な透明性を目指しています。つまり、Service Health は、サービスに関連する可能性のあるすべてのイベントを利用できるようにします。より絞り込んだイベント フィードが必要な場合は、Service Health にアラートと自動化されたワークフローを通過するイベントをフィルタして微調整するツールが用意されています。

    • 推奨事項: 最も重要なGoogle Cloud サービスとロケーションのみに焦点を当てるようにアラートを構成するか、関連性「関連」または「影響あり」のイベントでのみトリガーするようにアラートを構成します。アラートをフィルタして調整する方法の例をご覧ください。

Personalized Service Health が利用できない場合のフォールバック戦略

Personalized Service Health は、認証に Identity and Access Management などのコアサービスを使用します。大規模な障害が発生すると、ログインに必要なサービスが影響を受ける可能性があります。

次のフォールバック戦略をおすすめします。

  • 手動プロセスの場合: Personalized Service Health ダッシュボードにアクセスできない場合は、ランブックでオペレーターに status.cloud.google.com のGoogle Cloud Service Health ダッシュボードを参照するように指示する必要があります。

  • 自動システムの場合: Service Health Status API を使用して、Personalized Service Health で問題が発生しているかどうかをプログラムで検出します。その場合は、システムがパブリック CSH RSS フィードの取り込みにフォールバックして、プログラムによる更新を継続できます。