Google 和客戶會共同負責監控及維護 Google Distributed Cloud connected。請參閱本文資訊,瞭解如何以最佳方式部署及管理地端工作負載。
Google 的責任
Google 是代管的軟硬體服務,因此負責管理及監控您用來部署商務應用程式的基礎架構。
Google 負責 Distributed Cloud connected 系統的下列層面:
- Google Cloud 控制層
- Kubernetes 控制層、工作站節點和內建系統服務
- Google 提供的軟體外掛程式和產品
- 供應的硬體,包括伺服器
Google 會監控我們負責的功能,並在發現問題時通知 Google 工程師進行調查。
客戶責任
您必須負責 Distributed Cloud Connected 系統的下列事項:
- 本機網路,包括客戶提供的任何交換器
- 網際網路連線
- 功率
- 環境,例如冷卻
- 客戶應用程式和客戶安裝的任何 Google Distributed Cloud 或 Kubernetes 外掛程式
- 客戶擁有的防禦主機執行個體和邊界 Proxy 部署作業 (如使用這些功能)
Google 不會直接監控您負責的問題。 舉例來說,Google 不會監控客戶 VM 是否無法正確啟動,或客戶的應用程式是否無法執行。如果認為這類行為是平台問題所致,請務必開立 Google Cloud 支援單,以便 Google 進行調查。
共同責任
在某些情況下,Google 會偵測到網站故障,但認為原因是您應負責的網站專屬問題。舉例來說,如果我們發現某個網站上所有節點的溫度都隨著時間升高,然後中斷連線,就表示問題很可能出在局部冷卻故障。在這些情況下,Google 會與您共同排解問題,確認問題是否是由網站專屬的客戶責任所致,並驗證是否有硬體故障。
為順利解決問題並找出根本原因,Google 可能需要向您索取資訊。舉例來說,Google 可能需要瞭解斷電時間,以及電力或網路何時恢復。如果無法提供這項資訊,Google 可能無法進行詳細的根本原因分析。
連線失敗
如果網際網路連線中斷,產品最多可支援七天的存活模式。在此期間,您仍可透過本機存取服務。 不過,網路連線恢復前,Google 無法監控、解決或診斷現場系統問題。
雖然 Google 會監控網站與 Google 遙測系統的連線中斷情形,但我們無法遠端判斷根本原因,例如電力、ISP 連線或災難性網站故障 (例如火災或水災)。
如果某個地點的所有硬體同時停止回報資料,很可能是當地發生電源或網路問題。為避免誤報,Google 可能會先確認問題不會自行解決 (例如因 ISP 維護而發生問題,且無法透過虛擬方式解決),才會通知你。這時就需要進一步排解問題。
設定 BH/BP 後,Google 會透過定期測試要求,使用 BH/BP 和 Distributed Cloud 連線裝置,透過 BH/BP 監控連線。Google 期望您監控 BH/BP 執行個體的整體健康狀態,例如追蹤資源用量。如果我們偵測到 BH/BP 或 Distributed Cloud 連線裝置的連線問題,並懷疑問題可能源自於客戶擁有的元件,可能會要求您診斷及偵錯問題。
偵錯
為協助偵錯,Google 可能會要求提供下列資料:
- 套用至非 Google 管理的網路設備 (例如交換器、路由器或防火牆) 的任何設定變更,包括精確到秒的時間戳記
- 防火牆拒絕記錄,包括時間戳記和詳細資料
- 裝置重新啟動的時間和原因。原因可能包括軟體升級、電源中斷或軟體錯誤。
- 任何電力故障的時間 (可能已知,例如來自建築物或資料中心管理,或從其他設備的最後一則記錄訊息推斷)
- 網路中斷的時間,依據網路供應商或路由器/防火牆上的記錄訊息
如遇互通性問題,Google 也可能會要求與供應商共同進行偵錯,包括分享裝置記錄檔及啟用偵錯選項。如果可以,我們會嘗試在客戶實驗室環境中重現問題。
在某些情況下,Google 可以從我們管理的設備取得資訊,但資訊可能不完整。舉例來說,停電後,ISP 連線的啟動時間可能會比 Distributed Cloud 連線伺服器長。
責任劃分
請參閱下表,瞭解常見工作由誰負責。
| 工作 | 客戶 | |
|---|---|---|
| 找出部署中斷問題,並提供客戶通知以供調查 | X | |
| 解決電源問題 | X | |
| 解決網路問題,包括客戶提供的任何交換器。 | X | X |
| 解決環境問題,例如冷卻 | X | |
| 解決客戶擁有的防禦主機執行個體和邊界 Proxy 部署作業 (如已部署) | X | |
| 監控 API 管理平面 | X | |
| 監控 Kubernetes 控制層、工作站節點和內建系統服務 | X | |
| 監控 Google 提供的軟體外掛程式和產品,例如 Symcloud Storage | X | |
| 監控供應的硬體,例如伺服器,以及部分部署作業的網路設備 | X | |
| 監控客戶提供的網路設備 | X | |
| 監控上游網路連線 | X | |
| 針對網路或環境問題提供聯合偵錯支援 | X | |
| 平台觀測,包括指標和記錄 | X | |
| 應用程式可觀測性,包括指標和記錄 | X | |
| 回應要求,調查據信屬於客戶責任的問題 | X |