Ce document décrit l'approche de Google Cloudpour communiquer sur les incidents, y compris les rôles des principaux canaux de communication suivants : Personalized Service Health (PSH) et le tableau de bord public Google Cloud Service Health (CSH).
Où trouver les communications sur les incidents
Google Cloud propose deux canaux de communication pour les incidents, chacun ayant un objectif différent :
Personalized Service Health (PSH) : il s'agit de votre principale source d'informations sur les interruptions de service qui vous concernent. Elle offre une vue personnalisée adaptée aux produits Google Cloud spécifiques que vous utilisez. Nous vous recommandons d'intégrer Personalized Service Health à votre processus de gestion des incidents en tant que signal de corroboration essentiel.
Pour éviter d'appeler un ingénieur de garde pour chaque événement Personalized Service Health, intégrez la visibilité des incidents Personalized Service Health dans les tableaux de bord et outils de votre équipe. Cette pratique aide les opérateurs à déterminer rapidement si un problème suspecté est lié à une interruption de service Google Cloud . En savoir plus sur PSH
Google Cloud Service Health (CSH) : il s'agit de la page d'état publique de Google Cloud, disponible sur status.cloud.google.com. Google Cloud Service Health ne nécessite aucune connexion et sert de vérification de l'état'état en un coup d'œil pour l'ensemble de la plate-forme. Il est utilisé pour communiquer des incidents graves généraux ou lorsque PSH lui-même n'est pas disponible.
Notre stratégie et nos recommandations de divulgation
Le choix des éléments à partager et de l'endroit où les partager n'est pas arbitraire. Il s'agit d'une discipline formelle et systématique basée principalement sur la portée d'un incident. L'objectif de ces canaux est de fournir une visibilité maximale pour les incidents graves à grande échelle tout en réduisant le bruit des incidents non pertinents.
Pour les incidents graves à grande échelle : les incidents à grande échelle (ceux qui ont un impact sur un grand pourcentage de projets ou qui sont répandus dans plusieurs régions) sont communiqués à l'aide de l'outil Google Cloud État du service (CSH). Ces incidents sont également communiqués aux clients concernés à l'aide de Personalized Service Health. Cela permet de s'assurer que le message touche la plus large audience possible pour les événements les plus critiques.
Pour les autres incidents confirmés : pour les problèmes de portée plus limitée, tels que ceux qui affectent un seul emplacement, une seule zone ou un sous-ensemble de projets plus petit, nous communiquerons les incidents concernés aux clients à l'aide de Personalized Service Health. Notre objectif est d'être totalement transparents. Cela signifie que Service Health met à disposition tous les événements potentiellement pertinents pour vos services. Si vous avez besoin d'un flux d'événements plus ciblé, Service Health propose des outils pour filtrer et affiner les événements qui sont transmis à vos alertes et workflows automatisés.
- Recommandation : Configurez les alertes pour qu'elles ne se concentrent que sur les services et les emplacementsGoogle Cloud les plus critiques, ou pour qu'elles ne se déclenchent que pour les événements dont la pertinence est "Associé" ou "Impacté". Consultez des exemples de filtrage et d'ajustement des alertes.
Stratégies de secours en cas d'indisponibilité de Personalized Service Health
Personalized Service Health dépend de services de base, tels qu'Identity and Access Management pour l'authentification. En cas de perturbation grave et généralisée, les services dont vous avez besoin pour vous connecter peuvent être affectés.
Nous vous recommandons la stratégie de secours suivante :
Pour les processus manuels : vos runbooks doivent rediriger les opérateurs vers le tableau de bordGoogle Cloud Service Health sur status.cloud.google.com s'ils ne peuvent pas accéder au tableau de bord Personalized Service Health.
Pour les systèmes automatisés : utilisez l'API Service Health Status pour détecter par programmation si Personalized Service Health rencontre un problème. Si c'est le cas, vos systèmes peuvent alors revenir à l'ingestion du flux RSS CSH public pour continuer à recevoir des mises à jour programmatiques.