클라우드에서 성수기나 트래픽 급증 이벤트를 관리할 경우 세 가지 주요 단계가 있습니다.
- 준비: 아키텍처 검토, 용량 계획, 예약 생성을 포함한 이벤트를 준비하기 위한 활동과 태스크를 완료합니다.
- 실행: 이벤트가 시작되면 면밀히 모니터링하고 그에 따라 대응합니다.
- 분석: 이벤트가 완료되면 잘된 부분, 그렇지 않은 부분, 향후 이벤트를 개선하는 방법을 분석합니다.
이러한 단계에서는 이벤트 중에 다운타임이 최소화되고 성능이나 사용자 환경이 저하되지 않는 서비스를 제공할 수 있도록 특정 권장사항을 이해하고 따라야 합니다.
준비: 이벤트 계획 프로세스 세부정보
용량이 최고치가 되는 경우 대비 단계에서 계정팀이나 TAM과 협력하여 아키텍처를 검토하고 다이어그램, 타임라인, 출시 체크리스트를 만들고, 예상 트래픽 프로필을 기반으로 서비스 할당량을 확인하고 프로젝트에 미치는 전반적인 영향을 파악해야 합니다.
이벤트 날짜보다 훨씬 전에 계획을 시작해야 합니다. 경우에 따라 서비스가 아직 개발 중인 상태에서 몇 달 전에 계획을 시작해야 할 수도 있습니다. 제안된 이벤트 워크플로, 예상 잠재고객, 요구사항 및 성공 기준, 엔드 투 엔드 미디어 전송 체인을 검토하는 데 도움을 줄 수 있는 팀을 구성합니다. 준비 단계에는 워크플로가 잘 설계되었는지 확인할 수 있는 위험 평가, 완화 계획, 운영 준비 검토가 포함되어야 합니다.
자세한 내용은 설계자, 개발자, 관리자, 기타 클라우드 실무자가 안전하고 효율적이며 복원력이 우수하고 경제적인 고성능 클라우드 토폴로지를 설계하고 운영하는 데 도움이 되는 권장사항을 제공하는 Google Cloud 아키텍처 프레임워크를 참조하세요.
실행: 실행 중 모니터링 및 대응
성수기나 출시 이벤트가 시작되면 활동을 면밀히 모니터링하고 필요에 따라 대응해야 합니다. 준비 단계에서 모니터링, 알림, 로깅을 설정하면 비즈니스에 중요한 트래픽, 로그, 할당량 수준을 모니터링하고 이 정보를 사용하여 근본 원인을 파악하고 문제를 신속하게 해결할 수 있습니다. 자세한 내용은 알림 및 대시보드 검토를 참조하세요.
문제가 발생하면 잘 정의된 사고 관리와 에스컬레이션 프로세스가 문제를 해결하는 데 드는 노력과 시간을 줄이는 데 중요합니다. 아직 사고 관리 프로세스가 없으면 이 프로세스를 수립합니다. 자세한 내용은 이벤트 중에 발생하는 문제를 해결하기 위한 준비를 참조하세요.
분석: 분석 검토 및 문서화
성수기나 출시 이벤트가 끝나면 이벤트를 검토하고 분석한 후 다음 주요 이벤트에 적용할 수 있도록 학습한 교훈을 문서화합니다.
다음 영역에 중점을 두세요.
타임라인 요약: 트래픽이 증가하기 시작한 시점과 이벤트 기간 동안의 주요 이벤트(최대치)를 캡처합니다. 문제가 발생하면 발생한 시점을 파악합니다.
근본 원인 분석: 발생한 문제를 조사합니다. 개발자나 Google Cloud 에서 다르게 할 수 있었던 지점이 있나요? 다음에 고려해야 할 사항이 있나요? 향후 개선을 위해 얻은 교훈과 필요한 단계를 문서화합니다.
예측과 실제 비교: 트래픽 예측과 기록된 실제 트래픽을 비교 분석합니다. 추가 리소스가 필요했던 부분은 어디인가요? 리소스가 부족하게 활용되었거나 불필요한 부분은 어디인가요?
회고: 주요 이해관계자와 이전 정보를 공유하고 검토합니다. 관련된 모든 사람이 선의의 의도를 가지고 있다고 가정하고 개인이나 팀을 지목하지 않으면서 원인 파악에 주력하는 비난 없는 문화를 조성합니다.