Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

透過資源備援機制建構高可用性系統

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework 的可靠性支柱中，這項原則提供規劃、建構及管理資源備援的建議，有助於避免發生故障。

這項原則與可靠性的範圍焦點區域相關。

原則總覽

決定所需的可靠性等級後，您必須設計系統，避免任何單點故障。系統中的每個重要元件都必須在多部機器、區域和地區中複製。舉例來說，重要資料庫不能只位於一個區域，中繼資料伺服器也不能只部署在單一可用區或區域。在這些範例中，如果唯一可用區或區域發生服務中斷，系統就會發生全球性服務中斷。

如要建構備援系統，請參考下列小節的建議。

從個別 VM 到區域，繪製系統的故障網域，並設計故障網域的備援機制。

為確保高可用性，請將服務和應用程式分散並複製到多個可用區和區域。設定系統自動容錯移轉，確保服務和應用程式在區域或地區中斷時仍可使用。

如需多區域和多地區架構的範例，請參閱「在 Google Cloud中為工作負載設計可靠的基礎架構」。

持續追蹤失敗網域的狀態，以便及時偵測及解決問題。

如要監控所有區域的 Google Cloud 服務目前狀態，請使用 Google Cloud Service Health 資訊主頁。您也可以使用 Personalized Service Health 查看與專案相關的事件。您可以使用負載平衡器偵測資源健康狀態，並自動將流量導向健康狀態良好的後端。詳情請參閱「健康狀態檢查總覽」。

就像消防演習一樣，定期模擬故障情形，驗證複製和容錯移轉策略的成效。