私有雲維護與更新
私有雲環境的設計方式如下,可避免單一故障點:
- ESXi 叢集已設定 vSphere 高可用性 (HA)。叢集的大小至少要有一個備用節點,才能確保復原能力。
- vSAN 提供備援主要儲存空間,至少需要三個節點,才能防範單一故障。如果是較大的叢集,您可以設定 vSAN 來提高復原能力。
- vCenter、PSC 和 NSX Manager 虛擬機器 (VM) 會設定 RAID-10 儲存空間,以防儲存空間故障。此外,vSphere HA 還會保護 VM,避免節點和網路故障。
- ESXi 主機具有備援風扇和 NIC。
- TOR 和主幹交換器會設定為高可用性配對,以提供復原能力。
VMware Engine 會持續監控運作時間和可用性,並為下列類型的 VM 提供可用性服務水準協議:
- ESXi 主機
- vCenter
- PSC
- NSX Manager
VMware Engine 會持續監控下列項目是否發生故障:
- 硬碟
- 實體 NIC 連接埠
- 伺服器
- 粉絲
- 電源
- 開關
- 切換連接埠
如果磁碟或節點發生故障,VMware Engine 會立即自動將新節點新增至受影響的 VMware 叢集,以還原服務運作。私有雲會執行下列程序:
- 自動監控和警示:我們的監控系統會持續追蹤節點的健康狀態。如果偵測到可能導致硬體故障的問題,系統就會觸發快訊。
- 診斷程序中的人工介入:雖然系統的設計目的是自動更換,但我們的工程師會審查這些快訊,以快速判斷根本原因。確保我們處理的是正確問題,並避免在建議使用較簡單的解決方案 (例如重新啟動) 時,不必要地更換節點。舉例來說,暫時性的網路問題或軟體故障可能會觸發類似硬體故障的快訊,而我們希望避免在不建議採取節點更換措施時,影響叢集。不必要的節點更換會觸發完整的 vSAN 重新同步,這項作業需要大量儲存空間 I/O。
- 硬體故障時自動更換節點:如果我們的工程師確認硬體故障,系統會立即啟動自動更換節點程序。系統會將新節點新增至叢集,而 vSAN 會在新節點上啟動資料重新同步。
系統會備份、維護及更新私有雲中的下列 VMware 元素:
- ESXi
- vCenter Platform Services Controller
- vSAN
- NSX
備份與還原
備份內容包括:
- 每晚增量備份 vCenter、PSC 和 DVS 規則。
- vCenter 內建 API,可備份應用程式層的元件。
- 在更新或升級 VMware 管理軟體前,系統會自動備份。
維護
包括下列類型的預定維護作業。
後端和內部維護
後端和內部維護通常涉及重新設定實體資產或安裝軟體修補程式。這不會影響正常使用維修中的資產。每個實體機架都有備援 NIC,因此正常網路流量和私有雲作業不會受到影響。只有在維護期間,貴機構預計會使用完整備援頻寬時,您才可能會感受到效能受到影響。
入口網站維護
更新控制層或基礎架構時,服務會暫停運作一段時間。維護間隔可能頻繁至每月一次,但預期會隨著時間減少。VMware Engine 會通知您即將進行入口網站維護,並盡可能縮短維護間隔。在入口網站維護期間,下列服務仍可正常運作,不會受到任何影響:
- VMware 管理平面和應用程式
- vCenter 存取權
- 所有網路和儲存空間
維護 VMware 基礎架構
有時需要變更 VMware 基礎架構的設定。這些間隔可能每隔一到兩個月發生一次,但預計頻率會隨著時間降低。Google 通常可以執行這類維護作業 (包括更新憑證),不會中斷正常的私有雲使用體驗。在 VMware 維護間隔期間,下列服務會繼續運作,不會受到任何影響:
- VMware 管理平面和應用程式
- vCenter 存取權
- 所有網路和儲存空間
更新與升級
VMware Engine 負責管理私有雲中 VMware 軟體 (ESXi、vCenter、PSC 和 NSX) 的生命週期。
軟體更新內容包括:
- 修補程式:VMware 發布的安全性修補程式或錯誤修正
- 更新:VMware 堆疊元件的次要版本變更
- 升級:VMware 堆疊元件的主要版本變更
VMware Engine 會在 VMware 推出重要安全性修補程式後,立即進行測試。Google 會盡快在相關重大修補程式發布後一週內,開始將這些修補程式部署至私有雲環境。實際完成修補的時間表會因排程可用性而異,且需要安排修補時間,避免客戶工作負載發生任何停機時間。
VMware 軟體推出新主要版本時,VMware Engine 會與客戶協調合適的維護時段,以便進行升級。VMware Engine 會在主要版本發布後至少六個月,再套用主要版本升級,並提前一個月通知客戶。
此外,VMware Engine 也與主要產業供應商合作,確保這些供應商支援最新版 VMware 軟體,再推出重大版本升級。如要瞭解特定供應商的支援服務,請與 Cloud Customer Care 聯絡。
憑證更新責任
Google 負責更新憑證。如果收到憑證更新錯誤訊息,則不必採取任何行動,系統會在憑證到期前續約。不過,如果您的私有雲已設定 LDAPS,您必須自行負責與該錯誤相關的特定憑證。VMware 基礎架構維護期間可能會更新憑證。
準備
Google 建議您在開始更新或升級前,先做好下列準備:
- 檢查儲存空間容量:確保 vSphere 叢集的儲存空間使用率低於 80%,以維持服務水準協議。如果使用率超過 80%,升級時間可能會比平常更長,甚至完全失敗。如果儲存空間用量超過 70%,請新增節點來擴充叢集,以免升級期間發生停機問題。
- 變更容錯數量為 0 的 vSAN 儲存空間政策:將容錯數量為 0 的 vSAN 儲存空間政策設定為容錯數量為 1 的 vSAN 儲存空間政策,以維持服務等級協議。
- 移除 VM CD 掛接:移除工作負載 VM 上掛接的任何 CD,這些 CD 與 vMotion 不相容。
- 完成 VMware 工具安裝作業:請在排定的升級開始前,完成 VMware 工具的安裝或升級作業。
- 移除 VM 的 SCSI 匯流排共用:如果不想關閉 VM 電源,請移除 VM 的 SCSI 匯流排共用。
- 移除無法存取的 VM 和資料儲存庫:從 vCenter 目錄中移除未使用的 VM 和無法存取的 VM。移除任何無法存取的外部資料存放區。
- 停用分散式資源排程器 (DRS) 規則:將 VM 固定至主機的 DRS 規則會阻止節點進入維護模式。您可以在升級前停用 DRS 規則,並在升級完成後啟用。
- 更新 VMware 外掛程式和第三方解決方案:確認部署在私有雲 vCenter 的 VMware 外掛程式和第三方解決方案,與先前所述的升級後版本相容。工具範例包括備份、監控、災難復原協調等類似功能。請與解決方案供應商確認,並視需要提前更新,確保升級後相容。
升級時間和背景程序
升級時間可能受到下列因素影響:
- vSAN 重新同步:升級程序 (特別是移除暫時節點) 的時間長度,取決於 vSAN 資料重新同步需求。vSAN 重新同步和叢集重新平衡工作可能會超出指定維護時段。這些是預期的背景程序,不會中斷工作負載可用性。
- 底層硬體問題:在極少數情況下,升級期間主機重新啟動可能會顯示底層硬體故障。為維持服務等級協議和叢集健康狀態,系統會優先更換故障硬體,再繼續執行作業。這項必要措施可能會延長整體升級時間。
可能會影響維護程序的設定
VMware Engine 會利用 VMware 的維護模式執行升級、更新和節點維護作業。這有助於確保私有雲工作負載持續運作。不過,節點可能需要額外步驟,才能進入維護模式:
- DRS 規則:「必須」規則會強制 VM 留在特定節點上。
- SCSI 匯流排共用:設定為共用 SCSI 匯流排的 VM。
- CD-ROM 掛接:已附加 CD-ROM 的 VM,尤其是無法使用 vMotion 移至其他節點的 CD-ROM。
- 序列埠連線:使用序列埠連線的 VM 無法透過 vMotion 移至其他節點。
- 原始裝置對應 (RDM):VM 直接存取實體儲存裝置。
如果需要採取行動
如果節點上存在任何這類設定,Cloud Customer Care 會在採取必要補救措施前至少 24 小時通知您,以維持 Private Cloud 的可用性。在某些情況下,關閉 VM 電源並使用 vMotion 遷移 VM,然後開啟電源,或是移除 CD-ROM 等步驟,可能會短暫中斷工作負載。