Hochverfügbare Systeme durch Ressourcenredundanz erstellen

Dieses Prinzip im Zuverlässigkeitsbereich des Google Cloud Well-Architected Framework enthält Empfehlungen zum Planen, Erstellen und Verwalten von Ressourcenredundanz, um Ausfälle zu vermeiden.

Dieses Prinzip ist für den Fokusbereich Umfang der Zuverlässigkeit relevant.

Übersicht über die Grundsätze

Nachdem Sie das erforderliche Zuverlässigkeitsniveau festgelegt haben, müssen Sie Ihre Systeme so konzipieren, dass Single Points of Failure vermieden werden. Jede kritische Komponente im System muss auf mehreren Maschinen, Zonen und Regionen repliziert werden. Eine kritische Datenbank kann beispielsweise nicht nur in einer Region und ein Metadatenserver nicht nur in einer Zone oder Region bereitgestellt werden. Wenn in diesen Beispielen die einzige Zone oder Region einen Ausfall hat, hat das System einen globalen Ausfall.

Empfehlungen

Beachten Sie die Empfehlungen in den folgenden Unterabschnitten, um redundante Systeme zu erstellen.

Ausfalldomänen identifizieren und Dienste replizieren

Stellen Sie die Fehlerdomains Ihres Systems dar, von einzelnen VMs bis hin zu Regionen, und planen Sie Redundanz in den Fehlerdomains ein.

Um eine hohe Verfügbarkeit zu gewährleisten, sollten Sie Ihre Dienste und Anwendungen auf mehrere Zonen und Regionen verteilen und replizieren. Konfigurieren Sie das System für automatisches Failover, damit die Dienste und Anwendungen bei Zonen- oder Regionsausfällen weiterhin verfügbar sind.

Beispiele für multizonale und multiregionale Architekturen finden Sie unter Zuverlässige Infrastruktur für Ihre Arbeitslasten in Google Cloud entwerfen.

Probleme umgehend erkennen und beheben

Überwachen Sie kontinuierlich den Status Ihrer Fehlerbereiche, um Probleme rechtzeitig zu erkennen und zu beheben.

Sie können den aktuellen Status der Google Cloud -Dienste in allen Regionen über das Google Cloud Service Health-Dashboard überwachen. Sie können auch Vorfälle, die für Ihr Projekt relevant sind, mit Personalized Service Health anzeigen. Mit Load Balancern können Sie den Zustand von Ressourcen erkennen und Traffic automatisch an fehlerfreie Backends weiterleiten. Weitere Informationen finden Sie unter Systemdiagnosen – Übersicht.

Failover-Szenarien testen

Simulieren Sie regelmäßig Fehler, um die Effektivität Ihrer Replikations- und Failover-Strategien zu prüfen.

Weitere Informationen finden Sie unter Ausfall einer Zone für eine regionale MIG simulieren und Zonenausfall in regionalen GKE-Clustern simulieren.