可用性最佳做法

本頁說明確保 Google Distributed Cloud 安裝作業高可用性的最佳做法。Distributed Cloud 不提供服務水準協議 (SLA),僅提供本頁所述的服務水準目標 (SLO)。

選擇並實作可用性層級

您必須為 Distributed Cloud 工作負載選擇最符合業務需求的可用性層級。舉例來說,零售商店的自助結帳應用程式可用性風險,遠低於行動網路電信業者邊緣 RAN 部署作業。

目標可用性與您為緊急情況預留的 Distributed Cloud 備用資源容量成正比。下表說明這項關係。這些預估值不包含透過維護期間排定的停機時間。

Distributed Cloud connected 軟體會耗用每部實體機器的部分資源。具體金額取決於 Distributed Cloud connected 部署作業的特定設定。Google 建議您對 Distributed Cloud connected 部署作業進行基準測試,以評估這項金額,並在規劃工作負載分配時將其納入考量。

GDC Edge 板型規格 使用中的容量 預留容量 目標適用情形
GDC Edge 機架
(單一 6 部電腦的叢集)
83.33% 16.67% 99.9%
GDC Edge 機架
(單一 6 部電腦的叢集)
100% 0% 93.5%
GDC Edge 伺服器
(單一 3 部機器的叢集)
66.6% 33.3% 99.9%

硬體故障或需要重新啟動的節點可能會導致容量突然減少。為此,您必須在設計工作負載時考量資源配額,確保每個 Distributed Cloud 節點上都有足夠的可用容量,以符合所選的可用性等級。

舉例來說,如要在 Distributed Cloud Rack 部署作業中達到 99.9% 的目標可用性,您必須設定工作負載,確保每個 Distributed Cloud 叢集中的六部實體機器,都有一部可做為備份。

使用存活模式

您可以透過 Distributed Cloud 建立叢集,使用在 Distributed Cloud 硬體上執行的本機控制層。這類叢集可在與 Google Cloud 的連線中斷時,讓工作負載繼續執行。詳情請參閱「Distributed Cloud 存續模式」。

瞭解軟體更新和維護期間

Google 會定期更新 Distributed Cloud 軟體。這些軟體更新為必要更新,您無法拒絕。 Distributed Cloud 可讓您為每個 Distributed Cloud 叢集指定個別的維護時間範圍。

如要降低工作負載短暫中斷服務的可能性,您可以透過維護期間控管控制層和節點的自動升級時間。維護期間適用於下列類型的情境:

  • 離峰時段:安排在流量較小的離峰時段自動升級,盡可能降低停機機率。
  • 值班待命:一定要在工作時間內進行升級,以利相關人員監控升級作業並管理突發狀況。
  • 多叢集升級:按照指定的間隔,逐一升級分佈在不同地區的多個叢集。

除了自動升級,Google 有時也需要執行其他維護工作。在這種情況下,如果可以,系統會遵守叢集的維護時段。

如果執行工作的時間超出維護期間,Distributed Cloud 會嘗試暫停工作。並在下一個維護期間嘗試繼續執行這些工作。

Distributed Cloud 保留在維護期間之外,導入非預定緊急升級的權利。此外,系統可能會在維護期間之外自動強制升級已淘汰或過舊的軟體。

您也可以隨時手動升級叢集。手動升級會立即開始,並忽略所有的維護期間。

如要瞭解如何為新的或現有叢集設定維護期間,請參閱「設定維護期間」。

限制

維護期間有下列限制:

  • 每個叢集只能有一個維護期間。每個叢集只能設定一個維護時段。設定新的維護期間會覆寫先前的設定。

  • 維護期間的時區。設定及查看維護時段時,時間的顯示方式會因使用的工具而異,詳情請參閱下列章節。

設定維護期間時

使用較通用的 --maintenance-window 旗標設定維護時段時,無法指定時區。使用 Google Cloud CLI 或 API 時,系統會以世界標準時間顯示時間。Google Cloud 控制台會使用當地時區顯示時間。

使用更精細的旗標 (例如 --maintenance-window-start) 時,您可以將時區指定為值的一部分。如果省略時區,系統會使用你當地的時區。時間一律以世界標準時間儲存。

查看維護期間時

查看叢集相關資訊時,維護時段的時間戳記會以世界標準時間或當地時區顯示,視您查看資訊的方式而定:

  • 使用 Google Cloud 控制台查看叢集相關資訊時,時間一律會以您所在時區為準。
  • 使用 gcloud CLI 查看叢集相關資訊時,時間一律會以 UTC 顯示。

無論是哪種情況,RRULE一律以世界標準時間為準。也就是說,如果指定星期幾,則這些日期會以世界標準時間為準。

設定叢集維護期間

Distributed Cloud 可讓您為每個 Distributed Cloud 叢集指定維護時間範圍。這個時間範圍會告知 Google,只能在您指定的時間和頻率更新 Distributed Cloud 軟體。

下列規則適用於 Distributed Cloud 叢集維護期間:

  • 如果您為 Distributed Cloud 叢集指定維護期,Google 會在透過 Distributed Cloud 版本資訊公告更新後 48 小時,更新 Distributed Cloud 軟體。在版本資訊頁面,您可以訂閱 Distributed Cloud 版本資訊 RSS 動態消息,隨時掌握軟體更新的最新消息。
  • 維護期間最短為六小時。您可以根據 Distributed Cloud 安裝作業的複雜程度和業務需求,指定較長的時間範圍。
  • 軟體更新頻率至少為每週一次。您可以指定每週或每日維護期間。您可以納入和排除特定日期。
  • 您可以隨時變更叢集的維護期間排程,但如果已排定維護期間或維護期間正在進行中,則無法變更。
  • 如果軟體更新作業未在指定時間內完成,系統會暫停更新,並在下一個排定的維護期間繼續更新。

如需詳細的操作說明,請參閱「為叢集設定維護時段」。

維修故障硬體

如果 Google 偵測到 Distributed Cloud 硬體故障,會嘗試在三個工作天內安排現場服務。如要讓 Google 授權技術人員執行必要的診斷和維修作業,您必須授予他們 Distributed Cloud 硬體存取權。

如果 Distributed Cloud 硬體發生故障,視 Distributed Cloud 硬體是否使用自加密磁碟 (SED) 儲存空間,會發生下列其中一種情況:

  • Distributed Cloud 機架會將資料儲存在非 SED 磁碟機。Google 進行現場維修時,會先從受影響的 Distributed Cloud 機器中移除所有硬碟,再開始維修,並在維修期間將硬碟交由您保管。

  • Distributed Cloud Servers 會將資料儲存在 SED 磁碟機中。 如果機器故障,Google 會更換整部機器。在從您的場所移除裝置前,Google 會確保所有硬碟中的資料都已安全清除。

其他故障點

您必須負責維護 Distributed Cloud 安裝項目的下列層面,這些層面不在 Google 的控管範圍內,但可能會影響 Distributed Cloud 的可用性:

  • 您選擇儲存在 Distributed Cloud 硬體上的所有資料。包括運作正常的備援備份,以及在將 Distributed Cloud 硬體退還給 Google 前匯出資料。
  • 電力供應
  • 環境溫度、濕度和冷卻
  • 實體硬體安全
  • 區域網路安全
  • 區域網路和網際網路連線:
    • 對於雲端控制層叢集,Distributed Cloud 需要持續連線至 Google Cloud ,否則無法運作。
    • 對於本機控制層叢集,Distributed Cloud 必須每 7 天重新連線 Google Cloud 一次,才能重新整理安全權杖、加密金鑰,並同步處理記錄和管理資料。

後續步驟