Google Cloud 인시던트 커뮤니케이션

이 문서에서는 Personalized Service Health (PSH) 및 공개 Google Cloud Service Health (CSH) 대시보드와 같은 기본 커뮤니케이션 채널의 역할을 비롯하여 Google Cloud의 인시던트 커뮤니케이션 접근 방식을 간략하게 설명합니다.

인시던트 커뮤니케이션을 확인할 수 있는 위치

Google Cloud 는 인시던트 커뮤니케이션을 위한 두 가지 채널을 제공하며, 각 채널의 목적은 다음과 같습니다.

  • Personalized Service Health (PSH): 나와 관련된 서비스 중단의 기본 소스입니다. 사용하는 특정 Google Cloud 제품에 맞게 맞춤설정된 뷰를 제공합니다. Personalized Service Health를 이슈 대응 프로세스에 중요한 확인 신호로 통합하는 것이 좋습니다.

    모든 Personalized Service Health 이벤트에 대해 당직 엔지니어에게 알림이 전송되지 않도록 하려면 Personalized Service Health 이슈 공개 상태를 팀의 대시보드 및 도구에 통합하세요. 이 방법을 사용하면 운영자가 의심되는 문제가 Google Cloud 서비스 중단과 관련이 있는지 신속하게 확인할 수 있습니다. PSH에 대해 자세히 알아보기

  • Google Cloud Service Health (CSH): status.cloud.google.com에서 Google Cloud의 공개 상태 페이지를 확인할 수 있습니다. Google Cloud Service Health는 로그인이 필요하지 않으며 전체 플랫폼의 한눈에 보이는 상태 점검 역할을 하며, 광범위한 심각한 이슈를 전달하거나 PSH 자체를 사용할 수 없는 경우에 사용됩니다.

PSH와 CSH 통신 채널을 비교하는 다이어그램 이 다이어그램은 Personalized Service Health로 이동하는 신규 이슈, 확인된 이슈, 광범위한 심각한 이슈를 보여줍니다.
다이어그램에는 Cloud Service Health로 이동하는 광범위한 심각한 이슈가 표시되어 있습니다. Personalized Service Health 아래에 대시보드, API, Cloud Logging이 나열됩니다. Cloud Service Health 아래에 대시보드 및 RSS 피드가 표시됩니다.

Google의 공개 전략 및 권장사항

무엇을 어디에 공유할지 결정하는 것은 임의적인 과정이 아닙니다. 주로 인시던트의 범위에 기반한 공식적이고 체계적인 규율입니다. 이러한 채널의 목적은 광범위한 심각한 인시던트의 가시성을 극대화하면서 관련 없는 인시던트의 노이즈를 줄이는 것입니다.

  • 광범위한 심각한 사고: 광범위한 범위의 사고(대부분의 프로젝트에 영향을 미치거나 여러 지역에 걸쳐 광범위하게 발생하는 사고)는 Google Cloud 서비스 상태(CSH)를 사용하여 전달됩니다. 이러한 이슈는 Personalized Service Health를 사용하여 영향을 받는 고객에게도 전달됩니다. 이렇게 하면 가장 중요한 이벤트에 대해 최대한 많은 시청자에게 메시지를 전달할 수 있습니다.

  • 기타 확인된 사고: 단일 위치, 영역 또는 소규모 프로젝트 하위 집합에 영향을 미치는 문제와 같이 범위가 더 제한적인 문제의 경우 Personalized Service Health를 사용하여 고객에게 관련 사고를 전달합니다. Microsoft는 포괄적인 투명성을 목표로 하며, 이는 서비스 상태에서 서비스와 관련이 있을 수 있는 모든 이벤트를 제공한다는 의미입니다. 더 집중적인 이벤트 피드가 필요한 경우 Service Health는 알림 및 자동화된 워크플로를 통해 전달되는 이벤트를 필터링하고 미세 조정하는 도구를 제공합니다.

    • 권장사항: 가장 중요한Google Cloud 서비스 및 위치에만 집중하거나 관련성이 '관련됨' 또는 '영향을 받음'인 이벤트에만 트리거되도록 알림을 구성합니다. 알림을 필터링하고 미세 조정하는 방법의 예를 참고하세요.

Personalized Service Health를 사용할 수 없을 때의 대체 전략

Personalized Service Health는 인증을 위해 Identity and Access Management와 같은 핵심 서비스를 사용합니다. 심각하고 광범위한 중단의 경우 로그인하는 데 필요한 서비스가 영향을 받을 수 있습니다.

다음 대체 전략을 권장합니다.

  • 수동 프로세스: 운영자가 Personalized Service Health 대시보드에 액세스할 수 없는 경우 status.cloud.google.com의Google Cloud Service Health 대시보드로 안내해야 합니다.

  • 자동 시스템: Service Health Status API를 사용하여 Personalized Service Health에 문제가 있는지 프로그래매틱 방식으로 감지합니다. 이 경우 시스템은 계속해서 프로그래매틱 업데이트를 위해 공개 CSH RSS 피드를 인제스트하도록 대체할 수 있습니다.