Well-Architected 프레임워크의 안정성 부문의 Google Cloud 이 원칙은 장애를 방지하는 데 도움이 되는 리소스 중복을 계획, 빌드, 관리하기 위한 권장사항을 제공합니다.
이 원칙은 안정성의 범위 지정 중점사항 과 관련이 있습니다.
원칙 개요
필요한 안정성 수준을 결정한 후에는 단일 장애 지점을 방지하도록 시스템을 설계해야 합니다. 시스템의 모든 중요 구성요소는 여러 머신, 영역, 리전에 복제되어야 합니다. 예를 들어 중요 데이터베이스는 하나의 리전에만 있을 수 없으며 메타데이터 서버는 하나의 영역 또는 리전에만 배포할 수 없습니다. 이러한 예에서 유일한 영역 또는 리전에 서비스 중단이 발생하면 시스템에 전역 서비스 중단이 발생합니다.
권장사항
중복 시스템을 빌드하려면 다음 하위 섹션의 권장사항을 고려하세요.
장애 도메인 식별 및 서비스 복제
개별 VM에서 리전에 이르기까지 시스템의 장애 도메인을 매핑하고 장애 도메인 전반에 중복되도록 설계합니다.
고가용성을 보장하려면 여러 영역과 리전에 서비스와 애플리케이션을 배포하고 복제합니다. 영역 또는 리전 서비스 중단 시에도 서비스와 애플리케이션을 계속 사용할 수 있도록 자동 장애 조치를 위해 시스템을 구성합니다.
다중 영역 및 멀티 리전 아키텍처의 예는 에서 워크로드에 대해 신뢰할 수 있는 인프라 설계를 참조하세요. Google Cloud
문제를 신속하게 감지하고 해결
장애 도메인의 상태를 지속적으로 추적하여 문제를 신속하게 감지하고 해결합니다.
Service Health 대시보드를 사용하여 모든 리전 에서 서비스의 현재 상태를 모니터링할 수 있습니다. Google Cloud Google Cloud Personalized Service Health 를 사용하여 프로젝트와 관련된 이슈를 볼 수도 있습니다. 부하 분산기를 사용하여 리소스 상태를 감지하고 정상적인 백엔드로 트래픽을 자동으로 라우팅할 수 있습니다. 자세한 내용은 상태 점검 개요를 참조하세요.
장애 조치 시나리오 테스트
화재 대피 훈련과 마찬가지로 장애를 정기적으로 시뮬레이션하여 복제 및 장애 조치 전략의 효과를 검증합니다.
자세한 내용은 리전 MIG의 영역 서비스 중단 시뮬레이션 및 GKE 리전 클러스터의 영역 장애 시뮬레이션을 참조하세요.