En este documento, se describe el enfoque de Google Cloudpara comunicar incidentes, incluidos los roles de los siguientes canales de comunicación principales: Personalized Service Health (PSH) y el panel público Google Cloud Service Health (CSH).
Dónde buscar comunicaciones sobre incidentes
Google Cloud proporciona dos canales para la comunicación de incidentes, cada uno con un propósito diferente:
Personalized Service Health (PSH): Esta es tu fuente principal de interrupciones del servicio relevantes para ti. Proporciona una vista personalizada adaptada a los Google Cloud productos específicos que usas. Te recomendamos que integres Personalized Service Health en tu proceso de respuesta ante incidentes como un indicador de corroboración fundamental.
Para evitar llamar a un ingeniero de guardia por cada evento de Personalized Service Health, integra la visibilidad de los incidentes de Personalized Service Health en los paneles y las herramientas de tu equipo. Esta práctica ayuda a los operadores a determinar rápidamente si un problema sospechoso está relacionado con una interrupción del servicio de Google Cloud . Obtén más información sobre la PSH.
Google Cloud Estado del servicio (CSH): Esta es la página de estado pública de Google Cloud, disponible en status.cloud.google.com. Google Cloud El Service Health no requiere acceso y sirve como una verificación de estado rápida para toda la plataforma. Se usa para comunicar incidentes graves generales o cuando el propio PSH no está disponible.
Nuestra estrategia y recomendaciones de divulgación
Decidir qué compartir y dónde no es un proceso arbitrario. Es una disciplina formal y sistemática que se basa principalmente en el alcance de un incidente. El objetivo de estos canales es proporcionar la máxima visibilidad para los incidentes graves amplios y reducir el ruido de los incidentes irrelevantes.
Para incidentes graves generales: Los incidentes de alcance amplio, es decir, aquellos que afectan a un gran porcentaje de proyectos o que se extienden por varias regiones, se comunican a través de Google Cloud Service Health (CSH). Estos incidentes también se comunican a los clientes afectados a través de Personalized Service Health. Esto ayuda a garantizar que el mensaje llegue a la mayor cantidad posible de usuarios para los eventos más importantes.
Para otros incidentes confirmados: En el caso de los problemas con un alcance más limitado, como los que afectan a una sola ubicación, zona o un subconjunto más pequeño de proyectos, comunicaremos los incidentes pertinentes a los clientes a través de Personalized Service Health. Nuestro objetivo es ser completamente transparentes, lo que significa que Service Health pone a disposición todos los eventos potencialmente relevantes para tus servicios. Si necesitas un feed de eventos más específico, el Service Health ofrece herramientas para filtrar y ajustar los eventos que se pasan a través de tus alertas y flujos de trabajo automatizados.
- Recomendación: Configura las alertas para que se enfoquen solo en los servicios y las ubicaciones más críticos, o bien para que se activen solo en eventos con una relevancia de "Relacionado" o "Afectado".Google Cloud Consulta ejemplos de cómo filtrar y ajustar las alertas.
Estrategias de respaldo para la no disponibilidad de Personalized Service Health
El estado del servicio personalizado depende de los servicios principales, como Identity and Access Management para la autenticación. En caso de una interrupción grave y generalizada, es posible que se vean afectados los servicios a los que necesitas acceder.
Te recomendamos la siguiente estrategia de resguardo:
Para los procesos manuales: Tus manuales de operaciones deben dirigir a los operadores al panel deGoogle Cloud Estado del servicio en status.cloud.google.com en caso de que no puedan acceder al panel de Estado del servicio personalizado.
Para sistemas automatizados: Usa la API de Service Health Status para detectar de forma programática si Personalized Service Health tiene algún problema. Si es así, tus sistemas pueden recurrir a la transferencia del feed RSS público de CSH para continuar con las actualizaciones programáticas.