En este documento se describe el enfoque de Google Cloudpara comunicar los incidentes, incluidos los roles de los siguientes canales de comunicación principales: Personalized Service Health (PSH) y el panel de control público Google Cloud Service Health (CSH).
Dónde buscar comunicaciones sobre incidentes
Google Cloud proporciona dos canales para la comunicación de incidentes, cada uno con un propósito diferente:
Personalized Service Health (PSH): es tu fuente principal de información sobre las interrupciones de los servicios que te afectan. Ofrece una vista personalizada adaptada a los productos Google Cloud específicos que usas. Te recomendamos que integres Personalized Service Health en tu proceso de respuesta a incidentes como señal de corroboración crítica.
Para evitar que se avise a un ingeniero de guardia por cada evento de Personalized Service Health, integra la visibilidad de los incidentes de Personalized Service Health en los paneles de control y las herramientas de tu equipo. Esta práctica ayuda a los operadores a determinar rápidamente si un problema sospechoso está relacionado con una interrupción del servicio. Google Cloud Más información sobre PSH
Google Cloud Estado del servicio (CSH): Esta es la página de estado pública de Google Cloud, disponible en status.cloud.google.com. Google Cloud Para acceder a Estado del servicio, no es necesario iniciar sesión. Esta página ofrece una comprobación rápida del estado de toda la plataforma y se usa para comunicar incidentes graves generales o cuando la propia página de estado de los servicios de Google Cloud no está disponible.
Nuestra estrategia de publicación y recomendaciones
Decidir qué compartir y dónde no es un proceso arbitrario. Es una disciplina formal y sistemática que se basa principalmente en el alcance de un incidente. El objetivo de estos canales es ofrecer la máxima visibilidad a los incidentes graves generales y, al mismo tiempo, reducir el ruido de los incidentes que no son relevantes.
En el caso de los incidentes graves de gran alcance: los incidentes de gran alcance, es decir, aquellos que afectan a un gran porcentaje de proyectos o que se extienden por varias regiones, se comunican a través de Google Cloud Estado del servicio (CSH). También se comunican a los clientes afectados mediante Personalized Service Health. De esta forma, el mensaje llega a la audiencia más amplia posible en los eventos más importantes.
Otros incidentes confirmados: en el caso de problemas con un alcance más limitado, como los que afectan a una sola ubicación, zona o un subconjunto más pequeño de proyectos, comunicaremos los incidentes pertinentes a los clientes mediante Personalized Service Health. Nuestro objetivo es ofrecer una transparencia total, lo que significa que el estado del servicio pone a tu disposición todos los eventos potencialmente relevantes para tus servicios. Si necesitas un feed de eventos más específico, Estado del servicio ofrece herramientas para filtrar y ajustar los eventos que se transmiten a través de tus alertas y flujos de trabajo automatizados.
- Recomendación: Configure las alertas para que solo se centren en los servicios y las ubicaciones más críticos, o para que se activen solo en eventos con una relevancia de "Relacionado" o "Afectado".Google Cloud Consulta ejemplos de cómo filtrar y ajustar alertas.
Estrategias alternativas en caso de que Personalized Service Health no esté disponible
Personalized Service Health depende de servicios principales, como Gestión de Identidades y Accesos para la autenticación. En caso de interrupción grave y generalizada, es posible que se vean afectados los servicios que necesitas para iniciar sesión.
Te recomendamos la siguiente estrategia alternativa:
Procesos manuales: tus manuales de operaciones deben dirigir a los operadores al Google Cloud panel de control de Service Health, en status.cloud.google.com, en caso de que no puedan acceder al panel de control de Personalized Service Health.
Para sistemas automatizados: usa la API de estado de Personalized Service Health para detectar mediante programación si Personalized Service Health tiene algún problema. Si es así, tus sistemas podrán volver a ingerir el feed RSS de CSH público para seguir recibiendo actualizaciones programáticas.