Dieses Dokument in der Google Cloud Perspektive „Finanzdienstleistungen“ (Financial Services, FS) des Well-Architected Framework bietet eine Übersicht über die Prinzipien und Empfehlungen zum Entwerfen, Bereitstellen und Betreiben zuverlässiger FS-Arbeitslasten in Google Cloud. Das Dokument untersucht, wie Sie erweiterte Zuverlässigkeitspraktiken und Beobachtbarkeit in Ihre Architekturpläne integrieren können. Die Empfehlungen in diesem Dokument stimmen mit der Säule „Zuverlässigkeit“ des Well-Architected Framework überein.
Für Finanzinstitute ist eine zuverlässige und ausfallsichere Infrastruktur sowohl eine geschäftliche Notwendigkeit als auch eine regulatorische Verpflichtung. Damit FS-Arbeitslasten in Google Cloud zuverlässig sind, müssen Sie potenzielle Fehler quellen verstehen und minimieren, Ressourcen redundant bereitstellen und die Wiederherstellung planen. Betriebliche Ausfallsicherheit ist ein Ergebnis der Zuverlässigkeit. Sie umfasst die Fähigkeit, Störungen zu absorbieren, sich daran anzupassen und sich davon zu erholen. Die betriebliche Ausfallsicherheit hilft FS-Organisationen, strenge regulatorische Anforderungen zu erfüllen. Außerdem trägt sie dazu bei, unzumutbare Schäden für Kunden zu vermeiden.
Die wichtigsten Bausteine der Zuverlässigkeit in Google Cloud sind Regionen, Zonen und die verschiedenen Standortbereiche von Cloud Ressourcen: zonal, regional, multiregional, global. Sie können die Verfügbarkeit verbessern, indem Sie verwaltete Dienste verwenden, Ressourcen verteilen, Muster für hohe Verfügbarkeit implementieren und Prozesse automatisieren.
Regulatorische Vorgaben
FS-Organisationen unterliegen strengen Zuverlässigkeitsanforderungen von Aufsichts behörden wie dem Federal Reserve System in den USA, der Europäischen Bankaufsichtsbehörde in der EU und der Prudential Regulation Authority im Vereinigten Königreich. Weltweit betonen Aufsichtsbehörden die betriebliche Ausfallsicherheit, die für die Finanzstabilität und den Verbraucherschutz von entscheidender Bedeutung ist. Betriebliche Ausfallsicherheit ist die Fähigkeit, Störungen zu widerstehen, sich effektiv zu erholen und kritische Dienste aufrechtzuerhalten. Dazu ist ein harmonisierter Ansatz für das Management von technologischen Risiken und Abhängigkeiten von Dritten erforderlich.
Die regulatorischen Anforderungen in den meisten Gerichtsbarkeiten haben folgende Gemeinsamkeiten:
- Cybersicherheit und technologische Ausfallsicherheit: Stärkung der Abwehr gegen Cyberbedrohungen und Gewährleistung der Ausfallsicherheit von IT-Systemen.
- Risikomanagement für Drittanbieter: Management der Risiken, die mit der Auslagerung von Diensten an Anbieter von Informations- und Kommunikationstechnologie (IKT) verbunden sind.
- Business Continuity und Incident Response: Robuste Planung zur Aufrechterhaltung kritischer Abläufe bei Störungen und zur effektiven Wiederherstellung.
- Schutz der Finanzstabilität: Gewährleistung der Stabilität des gesamten Finanzsystems.
Die Empfehlungen zur Zuverlässigkeit in diesem Dokument sind den folgenden Grundprinzipien zugeordnet:
- Multizonen- und multiregionale Bereitstellungen priorisieren
- Single Points of Failure (SPOFs) vermeiden
- Aggregierte Verfügbarkeit verstehen und verwalten
- Robuste Strategie zur Notfallwiederherstellung implementieren
- Verwaltete Dienste nutzen
- Bereitstellungs- und Wiederherstellungsprozesse für die Infrastruktur automatisieren
Multizonen- und multiregionale Bereitstellungen priorisieren
Für kritische Anwendungen für Finanzdienstleistungen empfehlen wir eine multiregionale Topologie, die auf mindestens zwei Regionen und drei Zonen in jeder Region verteilt ist. Dieser Ansatz ist wichtig, um die Ausfallsicherheit bei Zonen- und Regionsausfällen zu gewährleisten. In den Vorschriften ist dieser Ansatz häufig vorgeschrieben, da die meisten Gerichtsbarkeiten einen schwerwiegenden Ausfall in einer zweiten Zone als plausible Folge eines Ausfalls in einer Zone oder Region betrachten. Der Grund dafür ist, dass der andere Standort bei einem Ausfall eines Standorts möglicherweise eine außergewöhnlich hohe Menge an zusätzlichem Traffic empfängt.
Beachten Sie die folgenden Empfehlungen, um die Ausfallsicherheit bei Zonen- und Regionsausfällen zu gewährleisten:
- Bevorzugen Sie Ressourcen mit einem größeren Standortbereich. Verwenden Sie nach Möglichkeit regionale statt zonale Ressourcen und multiregionale oder globale Ressourcen statt regionaler Ressourcen. Dieser Ansatz trägt dazu bei, dass der Betrieb nicht mithilfe von Sicherungen wiederhergestellt werden muss.
- Nutzen Sie in jeder Region drei statt zwei Zonen. Um Failover zu bewältigen, stellen Sie ein Drittel mehr Kapazität als geschätzt bereit.
- Minimieren Sie manuelle Wiederherstellungsschritte, indem Sie Active-Active-Bereitstellungen wie in den folgenden Beispielen implementieren:
- Verteilte Datenbanken wie Spanner bieten eine integrierte Redundanz und Synchronisierung über Regionen hinweg.
- Die HA-Funktion von Cloud SQL bietet eine Topologie, die fast Active-Active ist, mit Lese replikaten in verschiedenen Zonen. Sie bietet ein Recovery Point Objective (RPO) zwischen Regionen, das nahe bei 0 liegt.
- Verteilen Sie den Nutzertraffic mithilfe von Cloud DNS auf Regionen und stellen Sie in jeder Region einen regionalen Load Balancer bereit. Ein globaler Load Balancer ist eine weitere Option, die Sie je nach Ihren Anforderungen und der Kritikalität in Betracht ziehen können. Weitere Informationen finden Sie unter Vorteile und Risiken des globalen Load-Balancings für multiregionale Bereitstellungen.
- Verwenden Sie zum Speichern von Daten multiregionale Dienste wie Spanner und Cloud Storage.
Single Points of Failure vermeiden
Verteilen Sie Ressourcen auf verschiedene Standorte und verwenden Sie redundante Ressourcen, um zu verhindern, dass ein Single Point of Failure (SPOF) den gesamten Anwendungsstack beeinträchtigt.
Beachten Sie die folgenden Empfehlungen, um SPOFs zu vermeiden:
- Stellen Sie nicht nur einen einzelnen Anwendungsserver oder eine einzelne Datenbank bereit.
- Sorgen Sie dafür, dass ausgefallene VMs automatisch neu erstellt werden, indem Sie verwaltete Instanzgruppen (Managed Instance Groups, MIGs) verwenden.
- Verteilen Sie den Traffic gleichmäßig auf die verfügbaren Ressourcen, indem Sie Load-Balancing implementieren.
- Verwenden Sie HA-Konfigurationen für Datenbanken wie Cloud SQL.
- Verbessern Sie die Datenverfügbarkeit, indem Sie regionale nichtflüchtige Speicher mit synchroner Replikation verwenden.
Weitere Informationen finden Sie unter Zuverlässige Infrastruktur für Ihre Arbeitslasten in entwerfen Google Cloud.
Aggregierte Verfügbarkeit verstehen und verwalten
Die Gesamtverfügbarkeit oder aggregierte Verfügbarkeit eines Systems wird durch die Verfügbarkeit jeder Ebene oder Komponente des Systems beeinflusst. Die Anzahl der Ebenen in einem Anwendungsstack hat eine umgekehrte Beziehung zur aggregierten Verfügbarkeit des Stacks. Beachten Sie die folgenden Empfehlungen zum Verwalten der aggregierten Verfügbarkeit:
Berechnen Sie die aggregierte Verfügbarkeit eines mehrstufigen Stacks mit der Formel _Verfügbarkeit_Ebene1 × _Verfügbarkeit_Ebene2 × _Verfügbarkeit_EbeneN.
Das folgende Diagramm zeigt die Berechnung der aggregierten Verfügbarkeit für ein mehrstufiges System, das aus vier Diensten besteht:
Im vorherigen Diagramm bietet der Dienst auf jeder Ebene eine Verfügbarkeit von 99,9 %, aber die aggregierte Verfügbarkeit des Systems ist mit 99,6 % niedriger (0,999 × 0,999 × 0,999 × 0,999). Im Allgemeinen ist die aggregierte Verfügbarkeit eines mehrstufigen Stacks niedriger als die Verfügbarkeit der Ebene mit der geringsten Verfügbarkeit.
Wählen Sie nach Möglichkeit Parallelisierung statt Verkettung. Bei parallelisierten Diensten ist die End-to-End-Verfügbarkeit höher als die Verfügbarkeit der einzelnen Dienste.
Das folgende Diagramm zeigt zwei Dienste, A und B, die mit den Ansätzen „Verkettung“ und „Parallelisierung“ bereitgestellt werden:
In den vorherigen Beispielen haben beide Dienste ein SLA von 99%, was je nach Implementierungsansatz zu folgender aggregierter Verfügbarkeit führt:
- Verkettete Dienste ergeben eine aggregierte Verfügbarkeit von nur 98% (0,99 × 0,99).
- Parallelisierte Dienste ergeben eine höhere aggregierte Verfügbarkeit von 99,99 %, da jeder Dienst unabhängig ausgeführt wird und einzelne Dienste nicht von der Verfügbarkeit der anderen Dienste betroffen sind. Die Formel für aggregierte parallelisierte Dienste lautet 1 − (1 − A) × (1 − B).
Wählen Sie Google Cloud Dienste mit Verfügbarkeits-SLAs aus, die dazu beitragen können, die erforderliche Gesamtverfügbarkeit für Ihren Anwendungsstack zu erreichen.
Berücksichtigen Sie beim Entwerfen Ihrer Architektur die Vor- und Nachteile in Bezug auf Verfügbarkeit, Betriebskomplexität, Latenz und Kosten. Eine höhere Verfügbarkeit kostet in der Regel mehr, hilft Ihnen aber, regulatorische Anforderungen zu erfüllen.
Eine Verfügbarkeit von 99, 9 % (drei Neunen) bedeutet beispielsweise eine potenzielle Ausfallzeit von 86 Sekunden in einem 24-Stunden-Tag. Im Gegensatz dazu bedeutet eine Verfügbarkeit von 99 % (zwei Neunen) eine Ausfallzeit von 864 Sekunden im gleichen Zeitraum, was zehnmal mehr Ausfallzeit als bei einer Verfügbarkeit von 99, 9 % ist.
Für kritische Finanzdienstleistungen sind die Architekturoptionen möglicherweise begrenzt. Es ist jedoch wichtig, die Verfügbarkeitsanforderungen zu ermitteln und die Verfügbarkeit genau zu berechnen. Eine solche Bewertung hilft Ihnen, die Auswirkungen Ihrer Designentscheidungen auf Ihre Architektur und Ihr Budget zu beurteilen.
Robuste Strategie zur Notfallwiederherstellung implementieren
Erstellen Sie gut definierte Pläne für verschiedene Notfallszenarien, einschließlich Zonen- und Regionsausfälle. Mit einer gut definierten Strategie zur Notfallwiederherstellung (Disaster Recovery, DR) können Sie sich von einer Störung erholen und den normalen Betrieb mit minimalen Auswirkungen wieder aufnehmen.
DR und Hochverfügbarkeit (HA) sind unterschiedliche Konzepte. Bei Cloud-Bereitstellungen gilt DR im Allgemeinen für multiregionale Bereitstellungen und HA für regionale Bereitstellungen. Diese Bereitstellungsarchetypen unterstützen unterschiedliche Replikationsmechanismen.
- HA: Viele verwaltete Dienste bieten standardmäßig eine synchrone Replikation zwischen Zonen innerhalb einer einzelnen Region. Solche Dienste unterstützen ein Recovery Time Objective (RTO) und ein Recovery Point Objective (RPO) von 0 oder nahezu 0. Mit dieser Unterstützung können Sie eine Active-Active-Bereitstellungstopologie ohne SPOF erstellen.
- DR: Für Arbeitslasten, die in zwei oder mehr Regionen bereitgestellt werden, müssen Sie eine Replikationsstrategie definieren, wenn Sie keine multiregionalen oder globalen Dienste verwenden. Die Replikationsstrategie ist in der Regel asynchron. Bewerten Sie sorgfältig, wie sich eine solche Replikation auf das RTO und RPO für kritische Anwendungen auswirkt. Ermitteln Sie die manuellen oder halbautomatischen Vorgänge, die für das Failover erforderlich sind.
Für Finanzinstitute ist die Auswahl der Failover-Region möglicherweise durch Vorschriften zur Datenhoheit und zum Datenstandort eingeschränkt. Wenn Sie eine Active-Active-Topologie in zwei Regionen benötigen, empfehlen wir die Verwendung verwalteter multiregionaler Dienste wie Spanner und Cloud Storage, insbesondere wenn die Datenreplikation kritisch ist.
Beachten Sie die folgenden Empfehlungen:
- Verwenden Sie verwaltete multiregionale Speicherdienste für Daten.
- Erstellen Sie Snapshots von Daten auf nichtflüchtigen Speichern und speichern Sie die Snapshots in multiregionalen Standorten.
- Wenn Sie regionale oder zonale Ressourcen verwenden, richten Sie die Datenreplikation in andere Regionen ein.
- Testen Sie Ihre DR-Pläne regelmäßig, um ihre Effektivität zu überprüfen.
- Berücksichtigen Sie das RTO und RPO und ihre Korrelation mit der Auswirkungstoleranz, die in den Finanzvorschriften in Ihrer Gerichtsbarkeit festgelegt ist.
Weitere Informationen finden Sie unter Architektur der Notfallwiederherstellung bei Ausfällen der Cloud-Infrastruktur.
Verwaltete Dienste nutzen
Verwenden Sie nach Möglichkeit verwaltete Dienste, um die integrierten Funktionen für Sicherungen, HA und Skalierbarkeit zu nutzen. Beachten Sie die folgenden Empfehlungen zur Verwendung verwalteter Dienste:
- Verwenden Sie verwaltete Dienste in Google Cloud. Sie bieten HA, die durch SLAs unterstützt wird. Außerdem bieten sie integrierte Sicherungsmechanismen und Ausfallsicherheitsfunktionen.
- Für die Datenverwaltung sind Dienste wie Cloud SQL, Cloud Storage, und Spanner zu empfehlen.
- Für das Computing und das Anwendungshosting sind verwaltete Instanzgruppen (Managed Instance Groups, MIGs) von Compute Engine und Google Kubernetes Engine (GKE)-Cluster zu empfehlen. Regionale MIGs und regionale GKE-Cluster sind gegen Zonenausfälle resistent.
- Verwenden Sie verwaltete multiregionale Dienste, um die Ausfallsicherheit bei Regionsausfällen zu verbessern.
- Ermitteln Sie den Bedarf an Exitplänen für Dienste mit besonderen Merkmalen und definieren Sie die erforderlichen Pläne. Finanzaufsichtsbehörden wie die FCA, PRA und EBA verlangen von Unternehmen, dass sie Strategien und Notfallpläne für den Datenabruf und die Betriebskontinuität haben, wenn die Beziehung zu einem Cloud-Anbieter endet. Unternehmen müssen die Machbarkeit des Ausstiegs bewerten, bevor sie Cloud-Verträge abschließen, und sie müssen in der Lage sein, den Anbieter ohne Betriebsunterbrechung zu wechseln.
- Prüfen Sie, ob die von Ihnen ausgewählten Dienste den Export von Daten in ein offenes Format wie CSV, Parquet und Avro unterstützen. Prüfen Sie, ob die Dienste auf offenen Technologien basieren, z. B. GKE-Unterstützung für das OCI-Format (Open Container Initiative) oder Managed Service for Apache Airflow, das auf Apache Airflow basiert.
Bereitstellungs- und Wiederherstellungsprozesse für die Infrastruktur automatisieren
Die Automatisierung trägt dazu bei, menschliche Fehler zu minimieren und die Zeit und Ressourcen zu reduzieren, die für die Reaktion auf Vorfälle erforderlich sind. Durch die Automatisierung können Ausfälle schneller behoben und konsistentere Ergebnisse erzielt werden. Beachten Sie die folgenden Empfehlungen, um die Bereitstellung und Wiederherstellung von Ressourcen zu automatisieren:
- Minimieren Sie menschliche Fehler, indem Sie IaC-Tools (Infrastructure as Code) wie Terraform verwenden.
- Reduzieren Sie manuelle Eingriffe, indem Sie Failover-Prozesse automatisieren. Automatisierte Antworten können auch dazu beitragen, die Auswirkungen von Ausfällen zu reduzieren. Sie können beispielsweise Eventarc oder Workflows verwenden, um automatisch Abhilfemaßnahmen als Reaktion auf Probleme auszulösen, die in Audit-Logs beobachtet wurden.
- Erhöhen Sie die Kapazität Ihrer Cloud-Ressourcen während des Failovers mithilfe der automatischen Skalierung.
- Wenden Sie während der Dienstbereitstellung automatisch Richtlinien und Schutzmaßnahmen für regulatorische Anforderungen in Ihrer Cloud-Topologie an, indem Sie Platform Engineeringeinführen.