Dieser Grundsatz in der Säule „Zuverlässigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen zum Planen, Erstellen und Verwalten von Ressourcenredundanz, mit der Sie Ausfälle vermeiden können.
Dieser Grundsatz ist für den Umfang Fokusbereich der Zuverlässigkeit relevant.
Grundsatzübersicht
Nachdem Sie den erforderlichen Zuverlässigkeitsgrad festgelegt haben, müssen Sie Ihre Systeme so konzipieren, dass es keine Single Points of Failure gibt. Jede kritische Komponente im System muss auf mehreren Maschinen, Zonen und Regionen repliziert werden. Eine kritische Datenbank darf beispielsweise nicht nur in einer Region vorhanden sein und ein Metadatenserver darf nicht nur in einer einzigen Zone oder Region bereitgestellt werden. Wenn in diesen Beispielen die einzige Zone oder Region einen Ausfall hat, kommt es zu einem globalen Ausfall des Systems.
Empfehlungen
Berücksichtigen Sie die Empfehlungen in den folgenden Unterabschnitten, um redundante Systeme zu erstellen.
Fehlerdomains identifizieren und Dienste replizieren
Erstellen Sie eine Übersicht der Fehlerdomains Ihres Systems, von einzelnen VMs bis hin zu Regionen, und planen Sie Redundanz in den Fehler domains ein.
Um eine hohe Verfügbarkeit zu gewährleisten, verteilen und replizieren Sie Ihre Dienste und Anwendungen auf mehrere Zonen und Regionen. Konfigurieren Sie das System für ein automatisches Failover, damit die Dienste und Anwendungen bei Ausfällen von Zonen oder Regionen weiterhin verfügbar sind.
Beispiele für Architekturen mit mehreren Zonen und mehreren Regionen finden Sie unter Zuverlässige Infrastruktur für Ihre Arbeitslasten in Google Cloud entwerfen Google Cloud.
Probleme umgehend erkennen und beheben
Verfolgen Sie kontinuierlich den Status Ihrer Fehlerdomains, um Probleme umgehend zu erkennen und zu beheben.
Sie können den aktuellen Status der Google Cloud Dienste in allen Regionen über das Google Cloud Dashboard „Service Health“ überwachen. Sie können auch Vorfälle, die für Ihr Projekt relevant sind, mit Personalized Service Health anzeigen. Mit Load-Balancern können Sie den Zustand von Ressourcen erkennen und den Traffic automatisch an fehlerfreie Back-Ends weiterleiten. Weitere Informationen finden Sie in der Übersicht über Systemdiagnosen .
Failover-Szenarien testen
Simulieren Sie regelmäßig Ausfälle, um die Effektivität Ihrer Replikations- und Failover-Strategien zu überprüfen.
Weitere Informationen finden Sie unter Ausfall einer Zone für eine regionale MIG simulieren und Ausfall einer Zone in regionalen GKE-Clustern simulieren.