Comunicación de incidentes de Google Cloud

En este documento se describe el enfoque de Google Cloudpara comunicar los incidentes, incluidos los roles de los siguientes canales de comunicación principales: Personalized Service Health (PSH) y el panel de control público Google Cloud Service Health (CSH).

Dónde buscar comunicaciones sobre incidentes

Google Cloud proporciona dos canales para la comunicación de incidentes, cada uno con un propósito diferente:

  • Personalized Service Health (PSH): es tu fuente principal de información sobre las interrupciones de los servicios que te afectan. Ofrece una vista personalizada adaptada a los productos Google Cloud específicos que usas. Te recomendamos que integres Personalized Service Health en tu proceso de respuesta a incidentes como señal de corroboración crítica.

    Para evitar que se avise a un ingeniero de guardia por cada evento de Personalized Service Health, integra la visibilidad de los incidentes de Personalized Service Health en los paneles de control y las herramientas de tu equipo. Esta práctica ayuda a los operadores a determinar rápidamente si un problema sospechoso está relacionado con una interrupción del servicio. Google Cloud Más información sobre PSH

  • Google Cloud Estado del servicio (CSH): Esta es la página de estado pública de Google Cloud, disponible en status.cloud.google.com. Google Cloud Para acceder a Estado del servicio, no es necesario iniciar sesión. Esta página ofrece una comprobación rápida del estado de toda la plataforma y se usa para comunicar incidentes graves generales o cuando la propia página de estado de los servicios de Google Cloud no está disponible.

Diagrama que compara los canales de comunicación de PSH y CSH. El diagrama muestra los incidentes emergentes, los incidentes confirmados y los incidentes graves de gran alcance que se dirigen a Personalized Service Health.
El diagrama muestra incidentes graves de gran alcance que se dirigen a Cloud Service Health. En Personalized Service Health, se muestran las opciones Panel de control, API y Cloud Logging. En la sección Cloud Service Health, se muestran las opciones Panel de control y Feed RSS.

Nuestra estrategia de publicación y recomendaciones

Decidir qué compartir y dónde no es un proceso arbitrario. Es una disciplina formal y sistemática que se basa principalmente en el alcance de un incidente. El objetivo de estos canales es ofrecer la máxima visibilidad a los incidentes graves generales y, al mismo tiempo, reducir el ruido de los incidentes que no son relevantes.

  • En el caso de los incidentes graves de gran alcance: los incidentes de gran alcance, es decir, aquellos que afectan a un gran porcentaje de proyectos o que se extienden por varias regiones, se comunican a través de Google Cloud Estado del servicio (CSH). También se comunican a los clientes afectados mediante Personalized Service Health. De esta forma, el mensaje llega a la audiencia más amplia posible en los eventos más importantes.

  • Otros incidentes confirmados: en el caso de problemas con un alcance más limitado, como los que afectan a una sola ubicación, zona o un subconjunto más pequeño de proyectos, comunicaremos los incidentes pertinentes a los clientes mediante Personalized Service Health. Nuestro objetivo es ofrecer una transparencia total, lo que significa que el estado del servicio pone a tu disposición todos los eventos potencialmente relevantes para tus servicios. Si necesitas un feed de eventos más específico, Estado del servicio ofrece herramientas para filtrar y ajustar los eventos que se transmiten a través de tus alertas y flujos de trabajo automatizados.

    • Recomendación: Configure las alertas para que solo se centren en los servicios y las ubicaciones más críticos, o para que se activen solo en eventos con una relevancia de "Relacionado" o "Afectado".Google Cloud Consulta ejemplos de cómo filtrar y ajustar alertas.

Estrategias alternativas en caso de que Personalized Service Health no esté disponible

Personalized Service Health depende de servicios principales, como Gestión de Identidades y Accesos para la autenticación. En caso de interrupción grave y generalizada, es posible que se vean afectados los servicios que necesitas para iniciar sesión.

Te recomendamos la siguiente estrategia alternativa:

  • Procesos manuales: tus manuales de operaciones deben dirigir a los operadores al Google Cloud panel de control de Service Health, en status.cloud.google.com, en caso de que no puedan acceder al panel de control de Personalized Service Health.

  • Para sistemas automatizados: usa la API de estado de Personalized Service Health para detectar mediante programación si Personalized Service Health tiene algún problema. Si es así, tus sistemas podrán volver a ingerir el feed RSS de CSH público para seguir recibiendo actualizaciones programáticas.