Comunicazione degli incidenti di Google Cloud

Questo documento descrive l'approccio di Google Cloudalla comunicazione degli incidenti, inclusi i ruoli dei seguenti canali di comunicazione principali: Personalized Service Health (PSH) e la dashboard pubblica Google Cloud Service Health (CSH).

Dove cercare le comunicazioni relative agli incidenti

Google Cloud fornisce due canali per la comunicazione degli incident, ognuno con uno scopo diverso:

  • Personalized Service Health (PSH): questa è la tua fonte principale per le interruzioni del servizio pertinenti. Fornisce una visualizzazione personalizzata in base ai prodotti Google Cloud specifici che utilizzi. Ti consigliamo di integrare Personalized Service Health nel processo di risposta agli incidenti come segnale di conferma critico.

    Per evitare di chiamare un tecnico di turno per ogni evento di Personalized Service Health, integra la visibilità degli incidenti di Personalized Service Health nelle dashboard e negli strumenti del tuo team. Questa pratica aiuta gli operatori a determinare rapidamente se un problema sospetto è correlato a un'interruzione del servizio. Google Cloud Scopri di più su PSH.

  • Google Cloud Service Health (CSH): questa è la pagina di stato pubblica di Google Cloud, disponibile all'indirizzo status.cloud.google.com. Google Cloud Service Health non richiede l'accesso e funge da controllo di integrità a colpo d'occhio per l'intera piattaforma. Viene utilizzato per comunicare incidenti gravi di ampia portata o quando PSH stesso non è disponibile.

Un diagramma che confronta i canali di comunicazione PSH e CSH. Il diagramma mostra gli incidenti emergenti,
gli incidenti confermati e gli incidenti gravi di ampia portata che vengono inviati a Personalized Service Health.
Il diagramma mostra gli incidenti gravi di ampia portata che vengono inviati a Cloud Service Health. Elencati in
Personalized Service Health, sono Dashboard, API e Cloud Logging. Elencati
in Service Health di Google Cloud sono Dashboard e Feed RSS.

La nostra strategia di divulgazione e i nostri consigli

Decidere cosa condividere e dove non è un processo arbitrario. Si tratta di una disciplina formale e sistematica basata principalmente sull'ambito di un incidente. L'intento di questi canali è fornire la massima visibilità per gli incidenti gravi di ampia portata, riducendo il rumore degli incidenti irrilevanti.

  • Per incidenti gravi di ampia portata:gli incidenti di ampia portata, ovvero quelli che interessano una grande percentuale di progetti o sono diffusi in più regioni, vengono comunicati tramite Google Cloud Service Health (CSH). Questi incidenti vengono comunicati anche ai clienti interessati tramite Personalized Service Health. Ciò consente di garantire che il messaggio raggiunga il pubblico più ampio possibile per gli eventi più critici.

  • Per altri incidenti confermati:per problemi con un ambito più limitato, come quelli che interessano una singola località, zona o un sottoinsieme più piccolo di progetti, comunicheremo gli incidenti pertinenti ai clienti utilizzando Personalized Service Health. Il nostro obiettivo è la massima trasparenza, il che significa che Service Health rende disponibili tutti gli eventi potenzialmente pertinenti per i tuoi servizi. Se hai bisogno di un feed di eventi più mirato, Service Health offre strumenti per filtrare e perfezionare gli eventi che vengono trasmessi tramite avvisi e flussi di lavoro automatizzati.

    • Consiglio:configura gli avvisi in modo che si concentrino solo sui servizi e sulle località più critici o che vengano attivati solo per gli eventi con una pertinenza "Correlato" o "Interessato".Google Cloud Consulta esempi di come filtrare e perfezionare gli avvisi.

Strategie di fallback per l'indisponibilità di Personalized Service Health

Personalized Service Health dipende da servizi di base, come Identity and Access Management per l'autenticazione. In caso di interruzione grave e diffusa, potrebbero essere interessati i servizi di cui hai bisogno per accedere.

Ti consigliamo la seguente strategia di fallback:

  • Per i processi manuali:i runbook devono indirizzare gli operatori alla dashboardGoogle Cloud Service Health all'indirizzo status.cloud.google.com nel caso in cui non riescano ad accedere alla dashboard Personalized Service Health.

  • Per i sistemi automatizzati:utilizza l'API Service Health Status per rilevare in modo programmatico se Personalized Service Health ha un problema. In questo caso, i tuoi sistemi possono ripiegare sull'importazione del feed RSS CSH pubblico per continuare a ricevere aggiornamenti programmatici.