Kommunikation bei Vorfällen in Google Cloud

In diesem Dokument wird der Ansatz von Google Cloudfür die Kommunikation von Vorfällen beschrieben, einschließlich der Rollen der folgenden primären Kommunikationskanäle: Personalized Service Health (PSH) und das öffentliche Google Cloud Service Health-Dashboard (CSH).

Wo finde ich Mitteilungen zu Vorfällen?

Google Cloud bietet zwei Kanäle für die Kommunikation bei Vorfällen, die jeweils einen anderen Zweck haben:

  • Personalized Service Health (PSH): Dies ist Ihre primäre Quelle für Dienstunterbrechungen, die für Sie relevant sind. Sie bietet eine personalisierte Ansicht, die auf die spezifischen Google Cloud Produkte zugeschnitten ist, die Sie verwenden. Wir empfehlen, Personalized Service Health als wichtiges Bestätigungssignal in Ihren Prozess zur Reaktion auf Vorfälle zu integrieren.

    Damit nicht für jedes Personalized Service Health-Ereignis ein Bereitschaftsingenieur benachrichtigt wird, sollten Sie die Sichtbarkeit von Personalized Service Health-Vorfällen in die Dashboards und Tools Ihres Teams einbinden. So können Bediener schnell feststellen, ob ein vermutetes Problem mit einer Google Cloud -Dienstunterbrechung zusammenhängt. Weitere Informationen zu PSH

  • Google Cloud Service Health (CSH): Google Cloud Dies ist die öffentliche Statusseite von Google Cloud, die unter status.cloud.google.com verfügbar ist. Google Cloud Für Service Health ist keine Anmeldung erforderlich. Sie dient als Übersicht über den Zustand der gesamten Plattform und wird verwendet, um über schwerwiegende Vorfälle zu informieren oder wenn PSH selbst nicht verfügbar ist.

Diagramm, in dem die Kommunikationskanäle von PSH und CSH verglichen werden Das Diagramm zeigt aufkommende Vorfälle, bestätigte Vorfälle und allgemeine schwerwiegende Vorfälle, die an Personalized Service Health gesendet werden.
Das Diagramm zeigt, dass schwerwiegende Vorfälle mit breitem Umfang an Cloud Service Health gemeldet werden. Unter „Personalized Service Health“ sind Dashboard, API und Cloud Logging aufgeführt. Unter „Cloud Service Health“ (Cloud-Dienststatus) werden „Dashboard“ und „RSS Feed“ (RSS-Feed) aufgeführt.

Unsere Offenlegungsstrategie und Empfehlungen

Die Entscheidung, was und wo geteilt wird, ist kein willkürlicher Prozess. Es handelt sich um eine formale, systematische Disziplin, die sich in erster Linie am Umfang eines Vorfalls orientiert. Ziel dieser Kanäle ist es, eine maximale Sichtbarkeit für schwerwiegende Vorfälle zu erreichen und gleichzeitig die Anzahl irrelevanter Vorfälle zu reduzieren.

  • Bei schwerwiegenden Vorfällen mit großem Auswirkungsbereich:Vorfälle mit großem Auswirkungsbereich, die einen großen Prozentsatz von Projekten oder mehrere Regionen betreffen, werden über Google Cloud Service Health (CSH) kommuniziert. Diese Vorfälle werden betroffenen Kunden auch über Personalized Service Health mitgeteilt. So wird sichergestellt, dass die Nachricht bei den wichtigsten Ereignissen ein möglichst breites Publikum erreicht.

  • Andere bestätigte Vorfälle:Bei Problemen mit einem begrenzteren Umfang, z. B. solchen, die sich auf einen einzelnen Standort, eine einzelne Zone oder eine kleinere Teilmenge von Projekten auswirken, informieren wir Kunden über Personalized Service Health über relevante Vorfälle. Wir möchten umfassend transparent sein. Das bedeutet, dass in Service Health alle potenziell relevanten Ereignisse für Ihre Dienste verfügbar sind. Wenn Sie einen fokussierteren Ereignisfeed benötigen, bietet Service Health Tools zum Filtern und Optimieren der Ereignisse, die über Ihre Benachrichtigungen und automatisierten Workflows weitergeleitet werden.

    • Empfehlung:Konfigurieren Sie Benachrichtigungen so, dass sie sich nur auf die wichtigstenGoogle Cloud -Dienste und ‑Standorte konzentrieren oder nur bei Ereignissen mit der Relevanz „Related“ (Zugehörig) oder „Impacted“ (Betroffen) ausgelöst werden. Beispiele zum Filtern und Optimieren von Benachrichtigungen

Fallback-Strategien für den Fall, dass Personalized Service Health nicht verfügbar ist

Personalized Service Health ist von wichtigen Diensten wie Identity and Access Management für die Authentifizierung abhängig. Bei einer schwerwiegenden, weitverbreiteten Störung sind möglicherweise genau die Dienste betroffen, die Sie für die Anmeldung benötigen.

Wir empfehlen die folgende Fallback-Strategie:

  • Für manuelle Prozesse:Ihre Runbooks sollten Bediener im Falle eines Zugriffs auf das Dashboard „Personalized Service Health“ zumGoogle Cloud Service Health-Dashboard unter status.cloud.google.com weiterleiten.

  • Für automatisierte Systeme:Verwenden Sie die Service Health Status API, um programmatisch zu erkennen, ob Personalized Service Health ein Problem hat. Wenn das der Fall ist, können Ihre Systeme auf den öffentlichen CSH-RSS-Feed zurückgreifen, um weiterhin programmatische Updates zu erhalten.