Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Well-Architected Framework: Säule „Zuverlässigkeit“

Last reviewed 2024-12-30 UTC

Die Säule „Zuverlässigkeit“ im Google Cloud Well-Architected Framework enthält Prinzipien und Empfehlungen, die Ihnen beim Entwerfen, Bereitstellen und Verwalten zuverlässiger Arbeitslasten in Google Cloudhelfen.

Dieses Dokument richtet sich an Cloud-Architekten, Entwickler, Plattformtechniker, Administratoren und Site Reliability Engineers.

Zuverlässigkeit ist die Fähigkeit eines Systems, seine beabsichtigten Funktionen unter den definierten Bedingungen konsistent auszuführen und einen ununterbrochenen Dienst aufrechtzuerhalten. Best Practices für die Zuverlässigkeit umfassen Redundanz, fehlertolerantes Design, Monitoring und automatisierte Wiederherstellungsprozesse.

Als Teil der Zuverlässigkeit ist Resilienz die Fähigkeit des Systems, Ausfällen oder unerwarteten Unterbrechungen standzuhalten und sich davon zu erholen, während die Leistung aufrechterhalten wird. Google Cloud Funktionen wie multiregionale Bereitstellungen, automatisierte Back-ups und Lösungen zur Notfallwiederherstellung können die Resilienz Ihres Systems verbessern.

Zuverlässigkeit ist aus vielen Gründen wichtig für Ihre Cloud-Strategie, darunter:

Minimale Ausfallzeiten: Ausfallzeiten können zu Umsatzverlusten, geringerer Produktivität und Schäden am Ruf führen. Resiliente Architekturen können dazu beitragen, dass Systeme bei Ausfällen weiter funktionieren oder sich effizient von Ausfällen erholen können.
Verbesserte Nutzererfahrung: Nutzer erwarten nahtlose Interaktionen mit der Technologie. Resiliente Systeme können dazu beitragen, eine konsistente Leistung und Verfügbarkeit aufrechtzuerhalten und einen zuverlässigen Dienst auch bei hoher Nachfrage oder unerwarteten Problemen zu bieten.
Datenintegrität: Ausfälle können zu Datenverlust oder Datenbeschädigung führen. Resiliente Systeme implementieren Mechanismen wie Back-ups, Redundanz und Replikation, um Daten zu schützen und sicherzustellen, dass sie korrekt und zugänglich bleiben.
Geschäftskontinuität: Ihr Unternehmen ist für kritische Vorgänge auf Technologie angewiesen. Resiliente Architekturen können dazu beitragen, die Kontinuität nach einem katastrophalen Ausfall sicherzustellen, sodass Geschäftsfunktionen ohne größere Unterbrechungen fortgesetzt werden können und eine schnelle Wiederherstellung möglich ist.
Compliance: In vielen Branchen gibt es gesetzliche Anforderungen an die System verfügbarkeit und den Datenschutz. Resiliente Architekturen können Ihnen helfen, diese Standards zu erfüllen, indem sie sicherstellen, dass Systeme betriebsbereit und sicher bleiben.
Niedrigere langfristige Kosten: Resiliente Architekturen erfordern Vorab investitionen, können aber langfristig dazu beitragen, Kosten zu senken, indem sie teure Ausfallzeiten verhindern, reaktive Korrekturen vermeiden und eine effizientere Ressourcennutzung ermöglichen.

Organisatorische Denkweise

Damit Ihre Systeme zuverlässig sind, benötigen Sie einen Plan und eine etablierte Strategie. Diese Strategie muss Schulungen und die Befugnis umfassen, Zuverlässigkeit neben anderen Initiativen zu priorisieren.

Machen Sie deutlich, dass die gesamte Organisation für die Zuverlässigkeit verantwortlich ist, einschließlich Entwicklung, Produktmanagement, Betrieb, Plattform technik und Site Reliability Engineering (SRE). Auch geschäftsorientierte Gruppen wie Marketing und Vertrieb können die Zuverlässigkeit beeinflussen.

Jedes Team muss die Zuverlässigkeitsziele und Risiken seiner Anwendungen kennen. Die Teams müssen für diese Anforderungen verantwortlich sein. Konflikte zwischen Zuverlässigkeit und der regulären Entwicklung von Produktfunktionen müssen priorisiert und entsprechend eskaliert werden.

Planen und verwalten Sie die Zuverlässigkeit ganzheitlich über alle Funktionen und Teams hinweg. Erwägen Sie die Einrichtung eines Cloud Center of Excellence (CCoE), das eine Säule für die Zuverlässigkeit umfasst. Weitere Informationen finden Sie unter Cloud-Einführung Ihres Unternehmens mit einem Cloud-Kompetenzzentrum optimieren.

Bereiche mit Verbesserungspotenzial für die Zuverlässigkeit

Die Aktivitäten, die Sie zum Entwerfen, Bereitstellen und Verwalten eines zuverlässigen Systems ausführen, können in die folgenden Bereiche mit Verbesserungspotenzial eingeteilt werden. Jedes der Zuverlässigkeitsprinzipien und jede der Empfehlungen in dieser Säule bezieht sich auf einen dieser Bereiche mit Verbesserungspotenzial.

Umfang: Führen Sie eine detaillierte Analyse der Architektur Ihres Systems durch, um es zu verstehen. Sie müssen die Komponenten, ihre Funktionsweise und Interaktion, den Fluss von Daten und Aktionen durch das System und mögliche Fehlerquellen kennen. Identifizieren Sie potenzielle Ausfälle, Engpässe und Risiken, damit Sie Maßnahmen ergreifen können, um diese Probleme zu beheben.
Beobachtung: Implementieren Sie eine umfassende und kontinuierliche Beobachtung und Überwachung, um Systemausfälle zu verhindern. Durch diese Beobachtung können Sie Trends erkennen und potenzielle Probleme proaktiv identifizieren.
Reaktion: Reagieren Sie angemessen und stellen Sie die effiziente Wiederherstellung sicher, um die Auswirkungen von Ausfällen zu reduzieren. Automatisierte Antworten können ebenfalls dazu beitragen, die Auswirkungen von Ausfällen zu reduzieren. Trotz Planung und Kontrollen können Ausfälle auftreten.
Lernen: Lernen Sie aus jeder Erfahrung und ergreifen Sie geeignete Maßnahmen, um zu verhindern, dass Ausfälle wieder auftreten.

Grundprinzipien

Die Empfehlungen in der Säule „Zuverlässigkeit“ des Well-Architected Framework sind den folgenden Grundprinzipien zugeordnet:

Beitragende

Autor*innen:

Laura Hyatt | Customer Engineer, FSI
Jose Andrade | Customer Engineer, SRE Specialist
Gino Pelliccia | Principal Architect

Weitere Beitragende:

Andrés-Leonardo Martínez-Ortiz | Technical Program Manager
Brian Kudzia | Enterprise Infrastructure Customer Engineer
Daniel Lees | Cloud Security Architect
Filipe Gracio, PhD | Customer Engineer, AI/ML Specialist
Gary Harmson | Principal Architect
Kumar Dhanagopal | Cross-Product Solution Developer
Marwan Al Shawi | Partner Customer Engineer
Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
Radhika Kanakam | Program Lead, Google Cloud Well-Architected Framework
Ryan Cox | Principal Architect
Samantha He | Technical Writer
Wade Holmes | Global Solutions Director
Zach Seils | Networking Specialist

Weiter

Zuverlässigkeit anhand von User-Experience-Zielen definieren