本指南說明如何為容量高峰事件和高流量做好準備,以在最短停機時間內 (或無須停機的情況下) 提供服務,且不降低效能或影響使用者體驗。
在雲端管理事件時,有三個主要階段:
- 準備:完成活動和工作,為事件做好準備,包括審查架構、規劃容量和建立預留項目。
- 執行:事件開始後,請密切監控並採取相應措施。
- 分析:事件結束後,分析哪些環節表現良好、哪些不盡理想,並思考日後事件的改善方向。
本指南著重說明「準備」階段。
檢查清單
完成下列工作,瞭解如何為容量高峰事件做好準備:
如要直接在 Google Cloud 控制台中,按照這項工作的逐步指南操作,請按一下「Guide me」(逐步引導):
事前準備
視購買的 Customer Care 支援方案而定,請務必瞭解可用的事件完備性服務:
Enhanced 支援服務:您可以運用預訂事件支援服務,讓系統在各類事件、內容發布及資料遷移時更順利運作。這項加值服務能在高流量、短期的數位事件 (如盛大開幕、新產品發表或資料遷移) 中,於關鍵階段提供支援。
Premium 支援服務:您可以運用事件管理服務準備預定的流量尖峰事件,例如產品發布或大型促銷活動。Customer Care 團隊會與您合作制定計畫,在事件發生期間提供指導,並在以下方面提供支援:
- 備妥系統以應對關鍵時刻與大量工作負載
- 進行災難演練,主動找出並排除潛在問題
- 制定並落實更快速的處理流程,將可能發生問題的影響降到最低
事件結束後,客戶技術顧問 (TAM) 會與您一起檢視結果,並就日後的事件提供建議。如要開始使用這項服務或瞭解詳情,請與客戶技術顧問聯絡。
瞭解事件管理最佳做法
請務必瞭解並遵循特定的事件管理最佳做法:
詳細制定事件規劃程序:在容量高峰事件的準備階段,建議與帳戶團隊或客戶技術顧問交流互動,讓對方協助您檢視架構、製作圖表、排定時程、發布檢查清單、依預期的流量概況確認服務配額,以及判斷對專案的整體影響。
監控執行狀況並著手應對:旺季或上市活動開始後,請密切監控活動情形,並視需要採取因應措施。如果發生任何問題,請務必擬定明確的事件管理和提報程序,才能省下處理及解決問題所需的時間與心力。
查看並記錄分析結果:旺季或上市活動結束後,必須檢視並分析事件,然後將學到的經驗記錄下來,以應用到日後的重要事件。
詳情請參閱「事件管理最佳做法」。
為事件要求並保留適當的容量
容量規劃是準備階段重要的一環,您必須判斷所需的雲端資源量,確保工作負載擁有恰到好處的資源,才能有效率地運作。在為高流量事件或旺季做準備時,請確認配額符合資源需求,避免發生未預期的錯誤。詳情請參閱「為事件保留容量」。
使用 Capacity Planner
您可以運用 Capacity Planner,查看虛擬機器 (VM) 執行個體、Persistent Disk 磁碟區和 GPU 的歷來與預估用量。此外,還能查看預留項目、事先預留資源、管理專案的配額限制,以及設定自動配額提高要求。詳情請參閱「在 Capacity Planner 查看用量和預測資料」。
前往 Google Cloud 控制台的「Capacity Planner」頁面。
使用控制台工具列中的資源選取器,選取專案、資料夾或組織。
選取要查看用量資料的 Compute Engine 資源類型:
如要查看 VM 的用量資料,請按一下「Virtual machine」(虛擬機器) 分頁標籤 (若尚未選取)。
如要查看 Persistent Disk 磁碟區的用量資料,請按一下「Disk」(磁碟) 分頁標籤。
如要查看 GPU 的用量資料,請按一下「GPU」分頁標籤。
您可以篩選各項元素,查看不同的資源用量與預測資料圖表。
啟用配額調整工具
配額調整工具會監控資源用量,並主動代為提交配額調整要求,因此完全不需要手動提出要求。詳情請參閱「配額調整工具的運作方式」。
在 Google Cloud 控制台,依序前往「IAM & Admin」(IAM 與管理) >「Quotas & System Limits」(配額與系統限制) 頁面。
按一下「Configurations」(設定) 分頁標籤。
如要開啟配額調整工具,請將「Enable」(啟用) 切換鈕設為開啟。
如果「Status」(狀態) 欄顯示「Enabled」(已啟用),代表配額調整工具會開始監控用量,並在資源用量接近配額值時,發出配額調整要求。
要求調整配額
如果配額不足,可以要求調整配額。詳情請參閱「查看及管理配額」。
在 Google Cloud 控制台,依序前往「IAM & Admin」(IAM 與管理) >「Quotas & System Limits」(配額與系統限制) 頁面。
找到要更新的配額,然後勾選旁邊的核取方塊。
如要搜尋配額,請使用 「Filter」(篩選器)。
按一下 「Edit」(編輯),「Quota changes」(配額變更) 窗格隨即顯示。
在「New value」(新值) 欄位輸入所需的配額值。部分配額值須設定計量單位;在這種情況下,請在相鄰清單中選取所需單位。
若畫面上的訊息指出要求的配額超出覆寫設定時,配額覆寫設定將會移除,請勾選核取方塊繼續操作,然後選取「Apply for higher quota」(申請更多配額)。
在「Request description」(要求說明) 欄位輸入說明,然後按一下「Done」(完成)。
點選「Next」(下一步) 並提供聯絡資料。
按一下「Submit request」(提交要求)。
若要求遭拒,可以嘗試建立客服案件,或與帳戶團隊/客戶技術顧問聯絡,要求提高配額。
建立預留項目
預留項目有助於確保擁有可用的 Compute Engine 資源,隨時都能建立具有相同硬體 (記憶體和 vCPU) 和選用資源 (GPU 和本機 SSD 磁碟) 的 VM。
如果可用容量符合需求,系統就會在您提出要求時佈建「隨需預留項目」。「未來預留項目」則可讓您預先要求容量。建議在事件發生前預先取得未來預留項目。詳情請參閱「Compute Engine 可用區資源的預留項目」。
建立單一專案的隨需預留項目
前往 Google Cloud 控制台的「Reservations」(預留項目) 頁面。
在「On-demand reservations」(隨需預留項目) 分頁,按一下 「Create reservation」(建立預留項目)。
「Create a reservation」(建立預留項目) 頁面隨即開啟。
輸入預留項目的「Name」(名稱)。
選取要預留資源的「Region」(區域) 和「Zone」(可用區)。
在「Share type」(共用類型) 部分,選取「Local」(本機) (若尚未選取)。
如要允許 Vertex AI 自訂訓練工作或預測工作使用 GPU VM 的預留項目,請在「Google Cloud Services」(Google Cloud 服務) 部分,選取「Share reservation」(共用預留項目)。
選取「Use with VM instance」(用於 VM 執行個體) 選項:
如要允許相符的 VM 自動使用這個預留項目,請選取「Use reservation automatically」(自動使用預留項目) (若尚未選取)。
如要只在建立明確指定這個預留項目名稱的相符 VM 時,才使用這個預留項目的資源,請選用「Select specific reservation」(選取特定預留項目)。
輸入要預留的「Number of VM instances」(VM 執行個體數量)。
在「Machine configuration」(機器設定) 部分,執行下列操作:
如要依據現有執行個體範本指定 VM 的屬性,請選取「Use instance template」(使用執行個體範本)。
指定「Instance Template」(執行個體範本)。如果選取區域範本,就只能在該區域預留資源。
如要在指定時間自動刪除預留項目,請勾選「Enable auto delete」(啟用自動刪除功能) 核取方塊。如果在停止使用預留資源時自動刪除預留項目,可有助於避免不必要的費用。
如要建立預留項目,請點選「Create」(建立)。
「Reservations」(預留項目) 頁面隨即開啟。預留項目會在一分鐘內建立完畢。
建立單一專案的未來預留項目
前往 Google Cloud 控制台的「Reservations」(預留項目) 頁面。
點選「Future reservations」(未來預留項目) 分頁標籤。
按一下 「Create future reservation」(建立未來預留項目)。
「Create a future reservation」(建立未來預留項目) 頁面隨即開啟。
在「Name」(名稱) 部分,輸入未來預留項目要求的名稱。
在「Prefix」(前置字串) 部分,輸入名稱前置字串。凡是根據這項未來預留項目要求自動建立的預留項目,名稱開頭都會是這個前置字串。
在「Region」(區域) 和「Zone」(可用區) 部分,選取要預留資源的區域和可用區。
在「Start time」(開始時間) 部分,輸入預留期間的開始時間。將未來預留項目要求送審後,從這個日期和時間起算,開始時間不得晚於之後一年。為了確保有足夠時間在未來預留項目進入鎖定時間前,選擇性修改、取消或刪除該項目,請指定開始時間的建議值。
在「End time」(結束時間) 部分,輸入預留期間的結束時間。在「Duration summary」(時間長度摘要) 部分,會顯示預留期間的時間長度。將未來預留項目要求送審後,為了提高 Google Cloud 核准的可能性,請指定預留期間的建議值。
在「Share type」(共用類型) 部分,選取「Local」(本機) (若尚未選取)。
在「Total capacity needed」(所需總容量) 部分,輸入要在這個未來預留項目要求中,為指定期間、VM 設定和專案預留的 VM 總數。
在「Machine configuration」(機器設定) 部分,執行下列操作:
選取「Use instance template」(使用執行個體範本)。
在「Instance template」(執行個體範本) 部分,選取要使用的執行個體範本。如果選取區域執行個體範本,就只能在與範本區域相同的區域中預留資源。
在「Auto-generated reservations auto-delete」(自動刪除系統自動產生的預留項目) 部分,執行下列任一操作:
如要啟用 Compute Engine,自動刪除因未來預留項目要求而自動建立的預留項目,請執行下列操作:
若「Enable auto-delete」(啟用自動刪除功能) 切換鈕尚未設為開啟,請點按該切換鈕。
選用:在「Auto-delete time」(自動刪除時間) 部分,輸入要刪除自動建立預留項目的日期和時間。日期和時間必須晚於預留期間的結束時間。若將這個欄位留空,自動建立的預留項目就會在預留期間結束後的兩小時內刪除。
否則,請按一下「Enable auto-delete」(啟用自動刪除功能) 切換鈕,將切換鈕設為關閉。
草擬未來預留項目要求後,如要完成建立作業,請按一下「Save a draft」(儲存草稿)。
「Reservations」(預留項目) 頁面隨即開啟。未來預留項目要求建立作業會在一分鐘內完成。
準備好在事件發生期間快速解決問題
事件發生期間,您回應、分類及解決不同嚴重程度事件的方式,都會大幅影響營運狀態。請務必使用集中式事件管理系統,才能有效追蹤整個事件生命週期。
除了查看聯絡人並啟用 Personalized Service Health,也建議執行下列操作:
- 查看使用 Customer Care 的最佳做法
- 制定溝通計畫
- 確保存取權
詳情請參閱「準備好在事件發生期間解決問題」。
查看聯絡人
許多 Google Cloud 服務會向 Google Cloud 使用者傳送通知,分享重要資訊。根據預設,系統會將這些通知傳送給具備特定 Identity and Access Management (IAM) 角色的成員。如果選取「重要聯絡人」,就能自行提供聯絡人名單,決定哪些人會收到通知。詳情請參閱「管理通知聯絡人」。
在 Google Cloud 控制台,依序前往「IAM & Admin」(IAM 與管理) >「Essential Contacts」(重要聯絡人) 頁面。
請確保專案、資料夾或組織的名稱顯示在控制台工具列的資源選取器中。資源選取器會指出您正在管理哪個專案、資料夾或組織的聯絡人。
如要依類別列出聯絡人,請選取「Category」(類別)。如要依字母順序列出聯絡人,請選取「Contact」(聯絡人)。
啟用 Personalized Service Health
Personalized Service Health 可找出與專案相關的 Google Cloud 服務中斷情形,協助您有效管理這些問題並採取因應措施。詳情請參閱「Personalized Service Health 總覽」。
在事件開始前,請務必確認已啟用 Service Health API,且貴組機有權存取資訊主頁及設定快訊。詳情請參閱「管理 Personalized Service Health 存取權」。
- 在 Google Cloud 控制台的專案選擇器頁面中,選取或建立 Google Cloud 專案。
-
Enable the Service Health API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
管理及最佳化調整雲端資源
請管理及最佳化調整 Google Cloud工作負載使用的資源,包括根據實際用量和需求將資源調整為最適規模、使用自動調度資源功能動態分配資源,以及查看架構和安全性建議。
除了查看 Active Assist 建議,也請執行下列操作:
- 查看 Google Cloud 最佳做法
- 檢查擴充性
- 查看產品版本
- 查看快訊和資訊主頁
詳情請參閱「最佳化調整雲端資源」。
查看 Active Assist 建議
Active Assist 是指Google Cloud 用來生成建議和洞察資料的工具組合,有助於將 Google Cloud 專案調整至最佳狀態。詳情請參閱「Active Assist 簡介」。
前往 Google Cloud 控制台的「Active Assist」頁面。
使用控制台工具列中的資源選取器,選取Google Cloud 專案、資料夾或組織。
無論您擁有的資料夾或專案權限為何,都必須具備組織或資料夾的權限,才能在相應層級查看建議。
在導覽窗格中,按一下「All recommendations」(所有建議)。
畫面上隨即會顯示可篩選、排序和分享的建議。您可以詳細瞭解建議,查看受影響的資源,以及套用建議可能造成的影響。
如要進一步瞭解建議,請點選「Recommendation」(建議) 欄中的任一建議。
系統會顯示相關資料,協助您決定是否要套用或關閉建議。
若您具備所需權限,只要點按適用的按鈕,即可套用或關閉建議。
請注意,部分建議可能無法直接採用,請按照控制台中的操作說明進行套用。
安排並進行負載測試
透過負載測試,可以確定系統在正式環境下是否能順利擴充,並找出可能阻礙系統擴充的瓶頸。
在事件開始前 3 至 5 個月,建議對重要專案和工作負載進行負載測試,模擬流量高峰情形。
評估負載測試對配額與成本的影響,並考慮建立 Cloud Billing 預算快訊,以監控在測試中使用強度最高的服務可能產生的費用。
每次測試後應評估結果,運用 Capacity Planner 以圖表呈現用量與預測資料;如有需要,再申請提高配額。請參閱本文的「使用 Capacity Planner」和「要求調整配額」小節。
如需協助,請洽詢您的帳戶團隊或客戶技術顧問。他們能協助您規劃與落實架構調整,提升服務的整體可靠性與可用性。
安排並進行災難復原測試
採用完善且經過嚴謹測試的災難復原 (DR) 策略,即可將服務中斷的影響降到最低、縮短復原時間,並在發生問題時更快恢復核心業務。
災難復原策略應包含詳細的緊急應變規範、備份作業和復原程序。
在事件開始前 1 至 3 個月,請務必模擬災難情境,檢視災難復原計畫和準備是否存在漏洞。
每次測試後,請評估結果以判斷是否需要調整系統架構,並視需要檢視及妥善分配資源。請參閱本文的「管理及最佳化調整雲端資源」一節。
帳戶團隊或客戶技術顧問可協助進行災難復原測試,並說明如何瞭解和改進事件應變程序。詳情請參閱「災難復原規劃指南」。
資源摘要
下表列出本文件中提及的指南。
| 瞭解事件管理最佳做法 |
|---|
| 為事件要求並保留適當的容量 |
| 準備好在事件發生期間快速解決問題 |
| 管理及最佳化調整雲端資源 |
| 安排並進行負載測試 |
| 安排並進行災難復原測試 |