在雲端環境中管理旺季或高流量事件的工作,主要分為三個階段:
- 準備:完成活動和工作,為事件做好準備,包括審查架構、規劃容量和建立預留項目。
- 執行:事件開始後,請密切監控並採取相應措施。
- 分析:事件結束後,分析哪些環節表現良好、哪些不盡理想,並思考日後事件的改善方向。
請務必瞭解並遵循各階段的特定最佳做法,確保事件發生期間順利提供服務,將停機時間縮到最短甚至無須停機,並避免對效能或使用者體驗造成負面影響。
準備:詳列事件規劃流程
在容量高峰事件的準備階段,建議與帳戶團隊或客戶技術顧問交流互動,讓對方協助您檢視架構、製作圖表、排定時程、發布檢查清單、依預期的流量概況確認服務配額,以及判斷對專案的整體影響。
請務必在事件發生日期之前盡早開始規劃。某些情況下,可能需要在服務開發階段就提前數個月開始規劃。成立團隊,協助審查預定的事件工作流程、預期的目標對象、需求和成功標準,以及端對端媒體傳遞鏈。準備階段應包括風險評估、緩解措施規劃,以及作業準備度審查,確保工作流程的設計萬無一失。
詳情請參閱「Google Cloud 架構」一文提供的相關建議,協助架構師、開發人員、管理員和其他雲端從業人員,設計出安全、高效率、有韌性、高效能且具成本效益的雲端拓撲並順利運作。
執行:監控執行過程並採取因應措施
旺季或上市活動開始後,須密切監控活動執行情形,並視需要採取因應措施。在準備階段設定監控、快訊和記錄功能後,就能監控重要業務流量、記錄及配額層級,並運用這些資訊找出根本原因,迅速解決問題。詳情請參閱「查看快訊和資訊主頁」。
請務必擬定明確的事件管理和提報程序,發生問題時,才能以高效率應對並解決問題,省時省力。如果尚未建立事件管理程序,請執行這個步驟。詳情請參閱「準備好在事件發生期間解決問題」。
分析:回顧並記錄分析結果
旺季或上市活動結束後,必須檢視並分析事件,然後將學到的經驗記錄下來,以應用到日後的重要事件。
請關注下列重點:
時間軸回顧:記錄流量開始增加的時間,以及活動期間的重要事件 (尖峰),並找出發生問題的時間 (如有)。
根本原因分析:調查發生的所有問題,並思考您或 Google Cloud 可以採取哪些不同的做法?下次是否可以考慮採用這套做法?請將所有學到的經驗和必要步驟記錄下來,以利日後改進。
比較預測與實際情況:分析預測流量與記錄的實際流量。哪些地方需要增加資源?哪些資源沒有充分利用或不必要?
回顧:與主要利害關係人分享上述資訊並一同檢討。推廣不責怪的文化,假設所有參與者都懷有善意,將重點放在找出事件原因,而非指責任何個人或團隊。