Wiederherstellung nach Datenverlust testen

Last reviewed 2024-12-30 UTC

Dieser Grundsatz in der Säule „Zuverlässigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen zum Entwerfen und Ausführen von Tests für die Wiederherstellung nach Daten verlust.

Dieser Grundsatz ist für den Lernen Schwerpunkt der Zuverlässigkeit relevant.

Grundsatzübersicht

Damit Ihr System sich von Situationen erholen kann, in denen Daten verloren gehen oder beschädigt werden, müssen Sie Tests für diese Szenarien ausführen. Datenverlust kann durch einen Softwarefehler oder eine Naturkatastrophe verursacht werden. Nach solchen Ereignissen müssen Sie Daten aus Sicherungen wiederherstellen und alle Dienste mithilfe der neu wiederhergestellten Daten wieder in Betrieb nehmen.

Wir empfehlen, drei Kriterien zu verwenden, um den Erfolg oder Misserfolg dieser Art von Wiederherstellungstest zu beurteilen: Datenintegrität, Recovery Time Objective (RTO) und Recovery Point Objective (RPO). Weitere Informationen zu den Messwerten RTO und RPO finden Sie unter Grundlagen der Notfallwiederherstellungsplanung.

Ziel von Tests zur Datenwiederherstellung ist es, regelmäßig zu prüfen, ob Ihre Organisation die Anforderungen an die Geschäftskontinuität weiterhin erfüllen kann. Neben der Messung von RTO und RPO muss ein Test zur Datenwiederherstellung das Testen des gesamten Anwendungsstacks und aller kritischen Infrastrukturdienste mit den wiederhergestellten Daten umfassen. So lässt sich bestätigen, dass die gesamte bereitgestellte Anwendung in der Testumgebung korrekt funktioniert.

Empfehlungen

Beachten Sie beim Entwerfen und Ausführen von Tests zur Wiederherstellung nach Datenverlust die Empfehlungen in den folgenden Unterabschnitten.

Sicherungskonsistenz prüfen und Wiederherstellungsprozesse testen

Sie müssen prüfen, ob Ihre Sicherungen konsistente und nutzbare Snapshots von Daten enthalten, die Sie wiederherstellen können, um Anwendungen sofort wieder in Betrieb zu nehmen. Um die Datenintegrität zu prüfen, richten Sie automatische Konsistenzprüfungen ein, die nach jeder Sicherung ausgeführt werden.

Testen Sie Sicherungen, indem Sie sie in einer Nicht-Produktionsumgebung wiederherstellen. Um sicherzustellen, dass Ihre Sicherungen effizient wiederhergestellt werden können und die wiederhergestellten Daten die Anwendungsanforderungen erfüllen, simulieren Sie regelmäßig Szenarien zur Datenwiederherstellung. Dokumentieren Sie die Schritte zur Datenwiederherstellung und schulen Sie Ihre Teams, diese Schritte im Fehlerfall effektiv auszuführen.

Regelmäßige und häufige Sicherungen planen

Um Datenverlust bei der Wiederherstellung zu minimieren und RPO-Ziele zu erreichen, sind regelmäßig geplante Sicherungen unerlässlich. Legen Sie eine Sicherungshäufigkeit fest, die Ihrem RPO entspricht. Wenn Ihr RPO beispielsweise 15 Minuten beträgt, planen Sie Sicherungen mindestens alle 15 Minuten. Optimieren Sie die Sicherungsintervalle, um das Risiko von Datenverlust zu verringern.

Verwenden Sie Google Cloud Tools wie Cloud Storage, automatische Cloud SQL -Sicherungen oder Spanner-Sicherungen, um Sicherungen zu planen und zu verwalten. Verwenden Sie für kritische Anwendungen nahezu kontinuierliche Sicherungslösungen wie die Wiederherstellung zu einem bestimmten Zeitpunkt (Point-in-Time Recovery, PITR) für Cloud SQL oder inkrementelle Sicherungen für große Datasets.

RPO definieren und überwachen

Legen Sie ein klares RPO basierend auf Ihren geschäftlichen Anforderungen fest und prüfen Sie, ob es eingehalten wird. Wenn die Sicherungsintervalle das definierte RPO überschreiten, richten Sie mit Cloud Monitoring Benachrichtigungen ein.

Zustand der Sicherung überwachen

Verwenden Sie Google Cloud den Dienst für Sicherung und Notfallwiederherstellung oder ähnliche Tools, um den Zustand Ihrer Sicherungen zu verfolgen und zu prüfen, ob sie an sicheren und zuverlässigen Standorten gespeichert sind. Achten Sie darauf, dass die Sicherungen zur Erhöhung der Ausfallsicherheit in mehreren Regionen repliziert werden.

Szenarien über die Sicherung hinaus planen

Kombinieren Sie Sicherungen mit Strategien zur Notfallwiederherstellung wie Active-Active-Failover-Setups oder regionenübergreifender Replikation, um die Wiederherstellungszeit in Extremfällen zu verbessern. Weitere Informationen finden Sie im Leitfaden zur Planung der Notfallwiederherstellung.