Comunicação de incidentes do Google Cloud

Este documento descreve a abordagem da Google Cloudpara comunicar incidentes, incluindo as funções dos seguintes canais de comunicação principais: Personalized Service Health (PSH) e o painel público Google Cloud Service Health (CSH).

Onde encontrar comunicações sobre incidentes

Google Cloud oferece dois canais para comunicação de incidentes, cada um com uma finalidade diferente:

  • Personalized Service Health (PSH): essa é sua principal fonte de informações sobre interrupções de serviço relevantes para você. Ela oferece uma visualização personalizada adaptada aos produtos específicos do Google que você usa. Google Cloud Recomendamos integrar o Personalized Service Health ao processo de resposta a incidentes como um sinal de confirmação essencial.

    Para evitar o envio de notificações a um engenheiro de plantão para cada evento do Personalized Service Health, integre a visibilidade de incidentes do Personalized Service Health aos painéis e ferramentas da sua equipe. Essa prática ajuda os operadores a determinar rapidamente se um problema suspeito está relacionado a uma interrupção do serviço Google Cloud . Saiba mais sobre o PSH.

  • Google Cloud Service Health (CSH): é a página de status pública do Google Cloud, disponível em status.cloud.google.com. Google Cloud O Service Health não exige login e serve como uma verificação rápida de integridade para toda a plataforma. Ele é usado para comunicar incidentes graves gerais ou quando o PSH não está disponível.

Um diagrama comparando os canais de comunicação PSH e CSH. O diagrama mostra incidentes emergentes, confirmados e graves que vão para o Personalized Service Health.
O diagrama mostra incidentes graves e abrangentes que vão para o Service Health do Cloud. Em "Integridade personalizada do serviço", estão "Painel", "API" e "Cloud Logging". Em "Integridade do serviço do Cloud", há "Painel" e "Feed RSS".

Nossa estratégia e recomendações de divulgação

Decidir o que compartilhar e onde não é um processo arbitrário. É uma disciplina formal e sistemática baseada principalmente no escopo de um incidente. O objetivo desses canais é oferecer a máxima visibilidade para incidentes graves gerais e reduzir o ruído de incidentes irrelevantes.

  • Para incidentes graves de grande abrangência:incidentes de grande abrangência, que afetam uma grande porcentagem de projetos ou são generalizados em várias regiões, são comunicados usando o Google Cloud Service Health (CSH). Esses incidentes também são comunicados aos clientes afetados usando o Personalized Service Health. Isso ajuda a garantir que a mensagem alcance o maior público possível para os eventos mais importantes.

  • Para outros incidentes confirmados:para problemas com um escopo mais limitado, como aqueles que afetam um único local, uma zona ou um subconjunto menor de projetos, vamos comunicar os incidentes relevantes aos clientes usando o Personalized Service Health. Nosso objetivo é ser totalmente transparente, o que significa que o Service Health disponibiliza todos os eventos potencialmente relevantes para seus serviços. Se você precisar de um feed de eventos mais focado, o Service Health oferece ferramentas para filtrar e ajustar os eventos transmitidos pelos seus alertas e fluxos de trabalho automatizados.

    • Recomendação:configure os alertas para focar apenas nosGoogle Cloud serviços e locais mais críticos ou para serem acionados apenas em eventos com relevância "Relacionado" ou "Afetado". Confira exemplos de como filtrar e ajustar alertas.

Estratégias de substituição para indisponibilidade do Personalized Service Health

O Personalized Service Health depende de serviços principais, como o Identity and Access Management para autenticação. Em uma interrupção grave e generalizada, os serviços que você precisa para fazer login podem ser afetados.

Recomendamos a seguinte estratégia de substituição:

  • Para processos manuais:seus runbooks precisam direcionar os operadores ao painelGoogle Cloud Service Health em status.cloud.google.com caso não seja possível acessar o painel Personalized Service Health.

  • Para sistemas automatizados:use a API Service Health Status para detectar programaticamente se o Personalized Service Health está com um problema. Se for, seus sistemas poderão voltar a ingerir o feed RSS público da CSH para atualizações programáticas contínuas.