Questo documento descrive l'approccio di Google Cloudalla comunicazione degli incidenti, inclusi i ruoli dei seguenti canali di comunicazione principali: Personalized Service Health (PSH) e la dashboard pubblica Google Cloud Service Health (CSH).
Dove cercare le comunicazioni relative agli incidenti
Google Cloud fornisce due canali per la comunicazione degli incident, ognuno con uno scopo diverso:
Personalized Service Health (PSH): questa è la tua fonte principale per le interruzioni del servizio pertinenti. Fornisce una visualizzazione personalizzata in base ai prodotti Google Cloud specifici che utilizzi. Ti consigliamo di integrare Personalized Service Health nel processo di risposta agli incidenti come segnale di conferma critico.
Per evitare di chiamare un tecnico di turno per ogni evento di Personalized Service Health, integra la visibilità degli incidenti di Personalized Service Health nelle dashboard e negli strumenti del tuo team. Questa pratica aiuta gli operatori a determinare rapidamente se un problema sospetto è correlato a un'interruzione del servizio. Google Cloud Scopri di più su PSH.
Google Cloud Service Health (CSH): questa è la pagina di stato pubblica di Google Cloud, disponibile all'indirizzo status.cloud.google.com. Google Cloud Service Health non richiede l'accesso e funge da controllo di integrità a colpo d'occhio per l'intera piattaforma. Viene utilizzato per comunicare incidenti gravi di ampia portata o quando PSH stesso non è disponibile.
La nostra strategia di divulgazione e i nostri consigli
Decidere cosa condividere e dove non è un processo arbitrario. Si tratta di una disciplina formale e sistematica basata principalmente sull'ambito di un incidente. L'intento di questi canali è fornire la massima visibilità per gli incidenti gravi di ampia portata, riducendo il rumore degli incidenti irrilevanti.
Per incidenti gravi di ampia portata:gli incidenti di ampia portata, ovvero quelli che interessano una grande percentuale di progetti o sono diffusi in più regioni, vengono comunicati tramite Google Cloud Service Health (CSH). Questi incidenti vengono comunicati anche ai clienti interessati tramite Personalized Service Health. Ciò consente di garantire che il messaggio raggiunga il pubblico più ampio possibile per gli eventi più critici.
Per altri incidenti confermati:per problemi con un ambito più limitato, come quelli che interessano una singola località, zona o un sottoinsieme più piccolo di progetti, comunicheremo gli incidenti pertinenti ai clienti utilizzando Personalized Service Health. Il nostro obiettivo è la massima trasparenza, il che significa che Service Health rende disponibili tutti gli eventi potenzialmente pertinenti per i tuoi servizi. Se hai bisogno di un feed di eventi più mirato, Service Health offre strumenti per filtrare e perfezionare gli eventi che vengono trasmessi tramite avvisi e flussi di lavoro automatizzati.
- Consiglio:configura gli avvisi in modo che si concentrino solo sui servizi e sulle località più critici o che vengano attivati solo per gli eventi con una pertinenza "Correlato" o "Interessato".Google Cloud Consulta esempi di come filtrare e perfezionare gli avvisi.
Strategie di fallback per l'indisponibilità di Personalized Service Health
Personalized Service Health dipende da servizi di base, come Identity and Access Management per l'autenticazione. In caso di interruzione grave e diffusa, potrebbero essere interessati i servizi di cui hai bisogno per accedere.
Ti consigliamo la seguente strategia di fallback:
Per i processi manuali:i runbook devono indirizzare gli operatori alla dashboardGoogle Cloud Service Health all'indirizzo status.cloud.google.com nel caso in cui non riescano ad accedere alla dashboard Personalized Service Health.
Per i sistemi automatizzati:utilizza l'API Service Health Status per rilevare in modo programmatico se Personalized Service Health ha un problema. In questo caso, i tuoi sistemi possono ripiegare sull'importazione del feed RSS CSH pubblico per continuare a ricevere aggiornamenti programmatici.