為容量高峰活動做好準備

本指南說明如何為容量高峰事件和高流量做好準備,以在最短停機時間內 (或無須停機的情況下) 提供服務,且不降低效能或影響使用者體驗。

在雲端管理事件時,有三個主要階段:

  1. 準備:完成活動和工作,為事件做好準備,包括審查架構、規劃容量和建立預留項目。
  2. 執行:事件開始後,請密切監控並採取相應措施。
  3. 分析:事件結束後,分析哪些環節表現良好、哪些不盡理想,並思考日後事件的改善方向。

本指南著重說明「準備」階段

檢查清單

完成下列工作,瞭解如何為容量高峰事件做好準備:


如要直接在 Google Cloud 控制台中,按照這項工作的逐步指南操作,請按一下「Guide me」(逐步引導)

「Guide me」(逐步引導)


事前準備

視購買的 Customer Care 支援方案而定,請務必瞭解可用的事件完備性服務:

  • Enhanced 支援服務:您可以運用預訂事件支援服務,讓系統在各類事件、內容發布及資料遷移時更順利運作。這項加值服務能在高流量、短期的數位事件 (如盛大開幕、新產品發表或資料遷移) 中,於關鍵階段提供支援。

  • Premium 支援服務:您可以運用事件管理服務準備預定的流量尖峰事件,例如產品發布或大型促銷活動。Customer Care 團隊會與您合作制定計畫,在事件發生期間提供指導,並在以下方面提供支援:

    • 備妥系統以應對關鍵時刻與大量工作負載
    • 進行災難演練,主動找出並排除潛在問題
    • 制定並落實更快速的處理流程,將可能發生問題的影響降到最低

    事件結束後,客戶技術顧問 (TAM) 會與您一起檢視結果,並就日後的事件提供建議。如要開始使用這項服務或瞭解詳情,請與客戶技術顧問聯絡。

瞭解事件管理最佳做法

請務必瞭解並遵循特定的事件管理最佳做法:

  1. 詳細制定事件規劃程序:在容量高峰事件的準備階段,建議與帳戶團隊或客戶技術顧問交流互動,讓對方協助您檢視架構、製作圖表、排定時程、發布檢查清單、依預期的流量概況確認服務配額,以及判斷對專案的整體影響。

  2. 監控執行狀況並著手應對:旺季或上市活動開始後,請密切監控活動情形,並視需要採取因應措施。如果發生任何問題,請務必擬定明確的事件管理和提報程序,才能省下處理及解決問題所需的時間與心力。

  3. 查看並記錄分析結果:旺季或上市活動結束後,必須檢視並分析事件,然後將學到的經驗記錄下來,以應用到日後的重要事件。

詳情請參閱「事件管理最佳做法」。

為事件要求並保留適當的容量

容量規劃是準備階段重要的一環,您必須判斷所需的雲端資源量,確保工作負載擁有恰到好處的資源,才能有效率地運作。在為高流量事件或旺季做準備時,請確認配額符合資源需求,避免發生未預期的錯誤。詳情請參閱「為事件保留容量」。

使用 Capacity Planner

您可以運用 Capacity Planner,查看虛擬機器 (VM) 執行個體、Persistent Disk 磁碟區和 GPU 的歷來與預估用量。此外,還能查看預留項目、事先預留資源、管理專案的配額限制,以及設定自動配額提高要求。詳情請參閱「在 Capacity Planner 查看用量和預測資料」。

  1. 前往 Google Cloud 控制台的「Capacity Planner」頁面。

    前往「Capacity Planner」頁面

  2. 使用控制台工具列中的資源選取器,選取專案、資料夾或組織。

  3. 選取要查看用量資料的 Compute Engine 資源類型:

    • 如要查看 VM 的用量資料,請按一下「Virtual machine」(虛擬機器) 分頁標籤 (若尚未選取)。

    • 如要查看 Persistent Disk 磁碟區的用量資料,請按一下「Disk」(磁碟) 分頁標籤。

    • 如要查看 GPU 的用量資料,請按一下「GPU」分頁標籤。

  4. 您可以篩選各項元素,查看不同的資源用量與預測資料圖表。

啟用配額調整工具

配額調整工具會監控資源用量,並主動代為提交配額調整要求,因此完全不需要手動提出要求。詳情請參閱「配額調整工具的運作方式」。

  1. 在 Google Cloud 控制台,依序前往「IAM & Admin」(IAM 與管理) >「Quotas & System Limits」(配額與系統限制) 頁面。

    前往「Quotas and system limits」(配額與系統限制) 頁面

  2. 按一下「Configurations」(設定) 分頁標籤。

  3. 如要開啟配額調整工具,請將「Enable」(啟用) 切換鈕設為開啟。

如果「Status」(狀態) 欄顯示「Enabled」(已啟用),代表配額調整工具會開始監控用量,並在資源用量接近配額值時,發出配額調整要求。

要求調整配額

如果配額不足,可以要求調整配額。詳情請參閱「查看及管理配額」。

  1. 在 Google Cloud 控制台,依序前往「IAM & Admin」(IAM 與管理) >「Quotas & System Limits」(配額與系統限制) 頁面。

    前往「Quotas & System Limits」(配額與系統限制) 頁面

  2. 找到要更新的配額,然後勾選旁邊的核取方塊。

    如要搜尋配額,請使用 「Filter」(篩選器)

  3. 按一下 「Edit」(編輯),「Quota changes」(配額變更) 窗格隨即顯示。

  4. 在「New value」(新值) 欄位輸入所需的配額值。部分配額值須設定計量單位;在這種情況下,請在相鄰清單中選取所需單位。

  5. 若畫面上的訊息指出要求的配額超出覆寫設定時,配額覆寫設定將會移除,請勾選核取方塊繼續操作,然後選取「Apply for higher quota」(申請更多配額)

  6. 在「Request description」(要求說明) 欄位輸入說明,然後按一下「Done」(完成)

  7. 點選「Next」(下一步) 並提供聯絡資料。

  8. 按一下「Submit request」(提交要求)

若要求遭拒,可以嘗試建立客服案件,或與帳戶團隊/客戶技術顧問聯絡,要求提高配額。

建立預留項目

預留項目有助於確保擁有可用的 Compute Engine 資源,隨時都能建立具有相同硬體 (記憶體和 vCPU) 和選用資源 (GPU 和本機 SSD 磁碟) 的 VM。

如果可用容量符合需求,系統就會在您提出要求時佈建「隨需預留項目」。「未來預留項目」則可讓您預先要求容量。建議在事件發生前預先取得未來預留項目。詳情請參閱「Compute Engine 可用區資源的預留項目」。

建立單一專案的隨需預留項目

  1. 前往 Google Cloud 控制台的「Reservations」(預留項目) 頁面。

    前往「Reservations」(預留項目) 頁面

  2. 在「On-demand reservations」(隨需預留項目) 分頁,按一下 「Create reservation」(建立預留項目)。

    「Create a reservation」(建立預留項目) 頁面隨即開啟。

  3. 輸入預留項目的「Name」(名稱)

  4. 選取要預留資源的「Region」(區域) 和「Zone」(可用區)

  5. 在「Share type」(共用類型) 部分,選取「Local」(本機) (若尚未選取)。

  6. 如要允許 Vertex AI 自訂訓練工作預測工作使用 GPU VM 的預留項目,請在「Google Cloud Services」(Google Cloud 服務) 部分,選取「Share reservation」(共用預留項目)

  7. 選取「Use with VM instance」(用於 VM 執行個體) 選項:

    • 如要允許相符的 VM 自動使用這個預留項目,請選取「Use reservation automatically」(自動使用預留項目) (若尚未選取)。

    • 如要只在建立明確指定這個預留項目名稱的相符 VM 時,才使用這個預留項目的資源,請選用「Select specific reservation」(選取特定預留項目)

  8. 輸入要預留的「Number of VM instances」(VM 執行個體數量)

  9. 在「Machine configuration」(機器設定) 部分,執行下列操作:

    1. 如要依據現有執行個體範本指定 VM 的屬性,請選取「Use instance template」(使用執行個體範本)

    2. 指定「Instance Template」(執行個體範本)。如果選取區域範本,就只能在該區域預留資源。

  10. 如要在指定時間自動刪除預留項目,請勾選「Enable auto delete」(啟用自動刪除功能) 核取方塊。如果在停止使用預留資源時自動刪除預留項目,可有助於避免不必要的費用。

  11. 如要建立預留項目,請點選「Create」(建立)

    「Reservations」(預留項目) 頁面隨即開啟。預留項目會在一分鐘內建立完畢。

建立單一專案的未來預留項目

  1. 前往 Google Cloud 控制台的「Reservations」(預留項目) 頁面。

    前往「Reservations」(預留項目) 頁面

  2. 點選「Future reservations」(未來預留項目) 分頁標籤

  3. 按一下 「Create future reservation」(建立未來預留項目)

    「Create a future reservation」(建立未來預留項目) 頁面隨即開啟。

  4. 在「Name」(名稱) 部分,輸入未來預留項目要求的名稱。

  5. 在「Prefix」(前置字串) 部分,輸入名稱前置字串。凡是根據這項未來預留項目要求自動建立的預留項目,名稱開頭都會是這個前置字串。

  6. 在「Region」(區域) 和「Zone」(可用區) 部分,選取要預留資源的區域和可用區。

  7. 在「Start time」(開始時間) 部分,輸入預留期間的開始時間。將未來預留項目要求送審後,從這個日期和時間起算,開始時間不得晚於之後一年。為了確保有足夠時間在未來預留項目進入鎖定時間前,選擇性修改、取消或刪除該項目,請指定開始時間的建議值

  8. 在「End time」(結束時間) 部分,輸入預留期間的結束時間。在「Duration summary」(時間長度摘要) 部分,會顯示預留期間的時間長度。將未來預留項目要求送審後,為了提高 Google Cloud 核准的可能性,請指定預留期間的建議值

  9. 在「Share type」(共用類型) 部分,選取「Local」(本機) (若尚未選取)。

  10. 在「Total capacity needed」(所需總容量) 部分,輸入要在這個未來預留項目要求中,為指定期間、VM 設定和專案預留的 VM 總數

  11. 在「Machine configuration」(機器設定) 部分,執行下列操作:

    1. 選取「Use instance template」(使用執行個體範本)

    2. 在「Instance template」(執行個體範本) 部分,選取要使用的執行個體範本。如果選取區域執行個體範本,就只能在與範本區域相同的區域中預留資源。

  12. 在「Auto-generated reservations auto-delete」(自動刪除系統自動產生的預留項目) 部分,執行下列任一操作:

    • 如要啟用 Compute Engine,自動刪除因未來預留項目要求而自動建立的預留項目,請執行下列操作:

      1. 若「Enable auto-delete」(啟用自動刪除功能) 切換鈕尚未設為開啟,請點按該切換鈕。

      2. 選用:在「Auto-delete time」(自動刪除時間) 部分,輸入要刪除自動建立預留項目的日期和時間。日期和時間必須晚於預留期間的結束時間。若將這個欄位留空,自動建立的預留項目就會在預留期間結束後的兩小時內刪除。

    • 否則,請按一下「Enable auto-delete」(啟用自動刪除功能) 切換鈕,將切換鈕設為關閉。

  13. 草擬未來預留項目要求後,如要完成建立作業,請按一下「Save a draft」(儲存草稿)

「Reservations」(預留項目) 頁面隨即開啟。未來預留項目要求建立作業會在一分鐘內完成。

準備好在事件發生期間快速解決問題

事件發生期間,您回應、分類及解決不同嚴重程度事件的方式,都會大幅影響營運狀態。請務必使用集中式事件管理系統,才能有效追蹤整個事件生命週期。

除了查看聯絡人並啟用 Personalized Service Health,也建議執行下列操作:

  • 查看使用 Customer Care 的最佳做法
  • 制定溝通計畫
  • 確保存取權

詳情請參閱「準備好在事件發生期間解決問題」。

查看聯絡人

許多 Google Cloud 服務會向 Google Cloud 使用者傳送通知,分享重要資訊。根據預設,系統會將這些通知傳送給具備特定 Identity and Access Management (IAM) 角色的成員。如果選取「重要聯絡人」,就能自行提供聯絡人名單,決定哪些人會收到通知。詳情請參閱「管理通知聯絡人」。

  1. 在 Google Cloud 控制台,依序前往「IAM & Admin」(IAM 與管理) >「Essential Contacts」(重要聯絡人) 頁面。

    前往「Essential Contacts」(重要聯絡人) 頁面

  2. 請確保專案、資料夾或組織的名稱顯示在控制台工具列的資源選取器中。資源選取器會指出您正在管理哪個專案、資料夾或組織的聯絡人。

  3. 如要依類別列出聯絡人,請選取「Category」(類別)。如要依字母順序列出聯絡人,請選取「Contact」(聯絡人)

啟用 Personalized Service Health

Personalized Service Health 可找出與專案相關的 Google Cloud 服務中斷情形,協助您有效管理這些問題並採取因應措施。詳情請參閱「Personalized Service Health 總覽」。

在事件開始前,請務必確認已啟用 Service Health API,且貴組機有權存取資訊主頁及設定快訊。詳情請參閱「管理 Personalized Service Health 存取權」。

  1. 在 Google Cloud 控制台的專案選擇器頁面中,選取或建立 Google Cloud 專案。

    前往專案選取器

  2. Enable the Service Health API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

管理及最佳化調整雲端資源

請管理及最佳化調整 Google Cloud工作負載使用的資源,包括根據實際用量和需求將資源調整為最適規模、使用自動調度資源功能動態分配資源,以及查看架構和安全性建議。

除了查看 Active Assist 建議,也請執行下列操作:

  • 查看 Google Cloud 最佳做法
  • 檢查擴充性
  • 查看產品版本
  • 查看快訊和資訊主頁

詳情請參閱「最佳化調整雲端資源」。

查看 Active Assist 建議

Active Assist 是指Google Cloud 用來生成建議和洞察資料的工具組合,有助於將 Google Cloud 專案調整至最佳狀態。詳情請參閱「Active Assist 簡介」。

  1. 前往 Google Cloud 控制台的「Active Assist」頁面

    前往「Active Assist」頁面

  2. 使用控制台工具列中的資源選取器,選取Google Cloud 專案、資料夾或組織。

    無論您擁有的資料夾或專案權限為何,都必須具備組織或資料夾的權限,才能在相應層級查看建議。

  3. 在導覽窗格中,按一下「All recommendations」(所有建議)

    畫面上隨即會顯示可篩選、排序和分享的建議。您可以詳細瞭解建議,查看受影響的資源,以及套用建議可能造成的影響。

  4. 如要進一步瞭解建議,請點選「Recommendation」(建議) 欄中的任一建議。

    系統會顯示相關資料,協助您決定是否要套用或關閉建議。

  5. 若您具備所需權限,只要點按適用的按鈕,即可套用或關閉建議。

    請注意,部分建議可能無法直接採用,請按照控制台中的操作說明進行套用。

安排並進行負載測試

透過負載測試,可以確定系統在正式環境下是否能順利擴充,並找出可能阻礙系統擴充的瓶頸。

  1. 事件開始前 3 至 5 個月,建議對重要專案和工作負載進行負載測試,模擬流量高峰情形。

  2. 評估負載測試對配額與成本的影響,並考慮建立 Cloud Billing 預算快訊,以監控在測試中使用強度最高的服務可能產生的費用。

  3. 每次測試後應評估結果,運用 Capacity Planner 以圖表呈現用量與預測資料;如有需要,再申請提高配額。請參閱本文的「使用 Capacity Planner」和「要求調整配額」小節。

如需協助,請洽詢您的帳戶團隊或客戶技術顧問。他們能協助您規劃與落實架構調整,提升服務的整體可靠性與可用性。

安排並進行災難復原測試

採用完善且經過嚴謹測試的災難復原 (DR) 策略,即可將服務中斷的影響降到最低、縮短復原時間,並在發生問題時更快恢復核心業務。

災難復原策略應包含詳細的緊急應變規範、備份作業和復原程序。

  1. 在事件開始前 1 至 3 個月,請務必模擬災難情境,檢視災難復原計畫和準備是否存在漏洞。

  2. 每次測試後,請評估結果以判斷是否需要調整系統架構,並視需要檢視及妥善分配資源。請參閱本文的「管理及最佳化調整雲端資源」一節。

帳戶團隊或客戶技術顧問可協助進行災難復原測試,並說明如何瞭解和改進事件應變程序。詳情請參閱「災難復原規劃指南」。

資源摘要

下表列出本文件中提及的指南。

瞭解事件管理最佳做法
為事件要求並保留適當的容量
準備好在事件發生期間快速解決問題
管理及最佳化調整雲端資源
安排並進行負載測試
安排並進行災難復原測試

後續步驟