Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Finanzdienstleistungen: Zuverlässigkeit

Last reviewed 2025-07-28 UTC

Dieses Dokument im Google Cloud Well-Architected Framework: Financial services (FS) perspective bietet einen Überblick über die Prinzipien und Empfehlungen zum Entwerfen, Bereitstellen und Betreiben zuverlässiger Finanzdienstleistungs-Arbeitslasten in Google Cloud. In diesem Dokument wird erläutert, wie Sie erweiterte Zuverlässigkeitsverfahren und Observability in Ihre Architekturpläne integrieren. Die Empfehlungen in diesem Dokument entsprechen der Zuverlässigkeitssäule des Well-Architected Framework.

Für Finanzinstitute ist eine zuverlässige und robuste Infrastruktur sowohl eine geschäftliche Notwendigkeit als auch eine behördliche Anforderung. Damit FS-Arbeitslasten inGoogle Cloud zuverlässig sind, müssen Sie potenzielle Fehlerquellen verstehen und minimieren, Ressourcen redundant bereitstellen und die Wiederherstellung planen. Betriebliche Resilienz ist ein Ergebnis von Zuverlässigkeit. Sie beschreibt die Fähigkeit, Störungen zu absorbieren, sich daran anzupassen und sich davon zu erholen. Die operative Resilienz hilft Finanzdienstleistungsorganisationen, strenge regulatorische Anforderungen zu erfüllen. Außerdem wird so unzumutbarer Schaden für Kunden vermieden.

Die wichtigsten Bausteine der Zuverlässigkeit in Google Cloud sind Regionen, Zonen und die verschiedenen Standortbereiche von Cloud-Ressourcen: zonal, regional, multiregional und global. Sie können die Verfügbarkeit verbessern, indem Sie verwaltete Dienste verwenden, Ressourcen verteilen, Muster für hohe Verfügbarkeit implementieren und Prozesse automatisieren.

Regulatorische Vorgaben

Finanzdienstleistungsorganisationen unterliegen strengen Zuverlässigkeitsanforderungen von Aufsichtsbehörden wie dem Federal Reserve System in den USA, der European Banking Authority in der EU und der Prudential Regulation Authority im Vereinigten Königreich. Weltweit betonen Aufsichtsbehörden die operative Resilienz, die für die Finanzstabilität und den Verbraucherschutz von entscheidender Bedeutung ist. Betriebliche Resilienz ist die Fähigkeit, Störungen zu überstehen, sich effektiv zu erholen und kritische Dienste aufrechtzuerhalten. Dies erfordert einen harmonisierten Ansatz für das Management von technologischen Risiken und Abhängigkeiten von Dritten.

Die behördlichen Anforderungen in den meisten Gerichtsbarkeiten haben die folgenden gemeinsamen Themen:

Cybersicherheit und technologische Resilienz: Stärkung der Abwehr gegen Cyberbedrohungen und Sicherstellung der Resilienz von IT-Systemen.
Risikomanagement von Drittanbietern: Verwalten der Risiken, die mit der Auslagerung von Diensten an Anbieter von Informations- und Kommunikationstechnologie (IKT) verbunden sind.
Geschäftskontinuität und Incident Response: Robuste Planung zur Aufrechterhaltung kritischer Abläufe bei Störungen und zur effektiven Wiederherstellung.
Schutz der Finanzstabilität: Sicherstellung der Solidität und Stabilität des gesamten Finanzsystems.

Die Empfehlungen zur Zuverlässigkeit in diesem Dokument sind den folgenden Grundprinzipien zugeordnet:

Bereitstellungen in mehreren Zonen und Regionen priorisieren
Single Points of Failure (SPOFs) beseitigen
Aggregierte Verfügbarkeit verstehen und verwalten
Eine robuste DR-Strategie implementieren
Verwaltete Dienste nutzen
Infrastrukturbereitstellung und ‑wiederherstellung automatisieren

Bereitstellungen in mehreren Zonen und Regionen priorisieren

Für kritische Anwendungen für Finanzdienstleistungen empfehlen wir, eine Multi-Region-Topologie zu verwenden, die auf mindestens zwei Regionen und auf drei Zonen in jeder Region verteilt ist. Dieser Ansatz ist wichtig, um die Resilienz gegenüber Zonen- und Regionsausfällen zu erhöhen. Dieser Ansatz ist oft gesetzlich vorgeschrieben, da die meisten Gerichtsbarkeiten eine schwere Störung in einer zweiten Zone als plausible Folge eines Ausfalls in einer Zone oder Region ansehen. Der Grund dafür ist, dass der andere Standort bei einem Ausfall eines Standorts möglicherweise eine außergewöhnlich hohe Menge an zusätzlichem Traffic empfängt.

Beachten Sie die folgenden Empfehlungen, um die Resilienz gegen Ausfälle von Zonen und Regionen zu erhöhen:

Ressourcen mit einem größeren geografischen Geltungsbereich bevorzugen. Verwenden Sie nach Möglichkeit regionale statt zonale Ressourcen und multiregionale oder globale Ressourcen statt regionaler Ressourcen. So lässt sich vermeiden, dass Vorgänge mithilfe von Sicherungen wiederhergestellt werden müssen.
Verwenden Sie in jeder Region drei Zonen anstelle von zwei. Um Failover zu bewältigen, sollten Sie die Kapazität um ein Drittel über dem Schätzwert bereitstellen.
Minimieren Sie manuelle Wiederherstellungsschritte, indem Sie Active-Active-Bereitstellungen wie die folgenden Beispiele implementieren:
- Verteilte Datenbanken wie Spanner bieten integrierte Redundanz und Synchronisierung über Regionen hinweg.
- Die HA-Funktion von Cloud SQL bietet eine Topologie, die nahezu aktiv-aktiv ist, mit Lesereplikaten in verschiedenen Zonen. Es bietet ein Recovery Point Objective (RPO) zwischen Regionen, das nahe 0 liegt.
Verteilen Sie den Nutzer-Traffic mithilfe von Cloud DNS auf Regionen und stellen Sie in jeder Region einen regionalen Load Balancer bereit. Ein globaler Load Balancer ist eine weitere Option, die Sie je nach Ihren Anforderungen und der Kritikalität in Betracht ziehen können. Weitere Informationen finden Sie unter Vorteile und Risiken des globalen Load-Balancings für multiregionale Bereitstellungen.
Verwenden Sie zum Speichern von Daten multiregionale Dienste wie Cloud Spanner und Cloud Storage.

Single Points of Failure vermeiden

Verteilen Sie Ressourcen auf verschiedene Standorte und verwenden Sie redundante Ressourcen, um zu verhindern, dass sich ein Single Point of Failure (SPOF) auf den gesamten Anwendungs-Stack auswirkt.

Beachten Sie die folgenden Empfehlungen, um SPOFs zu vermeiden:

Stellen Sie nicht nur einen einzelnen Anwendungsserver oder eine einzelne Datenbank bereit.
Sorgen Sie dafür, dass fehlgeschlagene VMs automatisch neu erstellt werden, indem Sie verwaltete Instanzgruppen (MIGs) verwenden.
Verteilen Sie den Traffic gleichmäßig auf die verfügbaren Ressourcen, indem Sie Load-Balancing implementieren.
Verwenden Sie HA-Konfigurationen für Datenbanken wie Cloud SQL.
Die Datenverfügbarkeit mit regionalen nichtflüchtigen Speichern mit synchroner Replikation verbessern

Weitere Informationen finden Sie unter Zuverlässige Infrastruktur für Ihre Arbeitslasten in Google Cloud entwerfen.

Aggregierte Verfügbarkeit verstehen und verwalten

Die Gesamt- oder aggregierte Verfügbarkeit eines Systems wird durch die Verfügbarkeit jeder Ebene oder Komponente des Systems beeinflusst. Die Anzahl der Ebenen in einem Anwendungsstack hat eine umgekehrte Beziehung zur aggregierten Verfügbarkeit des Stacks. Beachten Sie die folgenden Empfehlungen für die Verwaltung der aggregierten Verfügbarkeit:

Berechnen Sie die aggregierte Verfügbarkeit eines mehrschichtigen Stacks mit der Formel tier1_availability × tier2_availability × tierN_availability.

Das folgende Diagramm zeigt die Berechnung der aggregierten Verfügbarkeit für ein mehrstufiges System, das aus vier Diensten besteht:

Im vorherigen Diagramm bietet der Dienst in jeder Ebene eine Verfügbarkeit von 99,9 %, die aggregierte Verfügbarkeit des Systems ist jedoch mit 99,6% (0,999 × 0,999 × 0,999 × 0,999) niedriger. Im Allgemeinen ist die aggregierte Verfügbarkeit eines mehrstufigen Stacks geringer als die Verfügbarkeit der Stufe mit der geringsten Verfügbarkeit.
Wählen Sie nach Möglichkeit Parallelisierung statt Verkettung. Bei parallelisierten Diensten ist die End-to-End-Verfügbarkeit höher als die Verfügbarkeit der einzelnen Dienste.

Das folgende Diagramm zeigt zwei Dienste, A und B, die mit den Verkettungs- und Parallelisierungsansätzen bereitgestellt werden:

In den vorherigen Beispielen haben beide Dienste ein SLA von 99 %. Dies führt je nach Implementierungsansatz zu der folgenden aggregierten Verfügbarkeit:
- Verkettete Dienste ergeben eine aggregierte Verfügbarkeit von nur 98% (0,99 × 0,99).
- Parallele Dienste bieten eine höhere aggregierte Verfügbarkeit von 99,99 %, da jeder Dienst unabhängig ausgeführt wird und die Verfügbarkeit der einzelnen Dienste nicht von der Verfügbarkeit der anderen Dienste abhängt. Die Formel für aggregierte parallelisierte Dienste lautet 1 − (1 − A) × (1 − B).
Wählen Sie Google Cloud Dienste mit Uptime-SLAs aus, die dazu beitragen können, die erforderliche Gesamt-Uptime für Ihren Anwendungsstack zu erreichen.
Berücksichtigen Sie beim Entwerfen Ihrer Architektur die Kompromisse zwischen Verfügbarkeit, Betriebskomplexität, Latenz und Kosten. Eine höhere Anzahl von Neunen für die Verfügbarkeit kostet in der Regel mehr, hilft Ihnen aber, behördliche Anforderungen zu erfüllen.

Eine Verfügbarkeit von 99, 9 % (drei Neunen) bedeutet beispielsweise eine potenzielle Ausfallzeit von 86 Sekunden pro Tag. Im Gegensatz dazu bedeutet eine Verfügbarkeit von 99 % (zwei Neunen) eine Ausfallzeit von 864 Sekunden im selben Zeitraum, was zehnmal mehr Ausfallzeit ist als bei einer Verfügbarkeit von 99, 9 %.

Bei kritischen Finanzdienstleistungen sind die Architekturoptionen möglicherweise eingeschränkt. Es ist jedoch wichtig, die Verfügbarkeitsanforderungen zu ermitteln und die Verfügbarkeit genau zu berechnen. So können Sie die Auswirkungen Ihrer Designentscheidungen auf Ihre Architektur und Ihr Budget besser einschätzen.

Robuste Strategie zur Notfallwiederherstellung implementieren

Erstellen Sie klar definierte Pläne für verschiedene Katastrophenszenarien, einschließlich Ausfällen von Zonen und Regionen. Mit einer gut definierten Strategie zur Notfallwiederherstellung (Disaster Recovery, DR) können Sie sich von einer Störung erholen und den normalen Betrieb mit minimalen Auswirkungen wieder aufnehmen.

Notfallwiederherstellung und Hochverfügbarkeit sind unterschiedliche Konzepte. Bei Cloud-Bereitstellungen gilt DR in der Regel für multiregionale Bereitstellungen und HA für regionale Bereitstellungen. Diese Bereitstellungsarchetypen unterstützen verschiedene Replikationsmechanismen.

HA: Viele verwaltete Dienste bieten standardmäßig eine synchrone Replikation zwischen Zonen innerhalb einer einzelnen Region. Solche Dienste unterstützen ein Recovery Time Objective (RTO) und ein Recovery Point Objective (RPO) von null oder nahezu null. Diese Unterstützung ermöglicht es Ihnen, eine Aktiv-Aktiv-Bereitstellungstopologie ohne SPOF zu erstellen.
DR: Für Arbeitslasten, die in zwei oder mehr Regionen bereitgestellt werden, müssen Sie eine Replikationsstrategie definieren, wenn Sie keine multiregionalen oder globalen Dienste verwenden. Die Replikationsstrategie ist in der Regel asynchron. Bewerten Sie sorgfältig, wie sich die Replikation auf die RTO und RPO für kritische Anwendungen auswirkt. Ermitteln Sie die manuellen oder halbautomatischen Vorgänge, die für das Failover erforderlich sind.

Für Finanzinstitute kann die Auswahl der Failover-Region durch Vorschriften zur Datenhoheit und zum Datenstandort eingeschränkt sein. Wenn Sie eine Active-Active-Topologie in zwei Regionen benötigen, empfehlen wir die Verwendung verwalteter multiregionaler Dienste wie Spanner und Cloud Storage, insbesondere wenn die Datenreplikation wichtig ist.

Beachten Sie die folgenden Empfehlungen:

Verwenden Sie verwaltete multiregionale Speicherdienste für Daten.
Erstellen Sie Snapshots von Daten auf nichtflüchtigen Speichern und speichern Sie die Snapshots an multiregionalen Standorten.
Wenn Sie regionale oder zonale Ressourcen verwenden, richten Sie die Datenreplikation in andere Regionen ein.
Testen Sie den DR-Plan regelmäßig, um seine Effektivität zu gewährleisten.
Berücksichtigen Sie RTO und RPO und deren Zusammenhang mit der durch Finanzvorschriften in Ihrer Gerichtsbarkeit festgelegten Toleranz für Auswirkungen.

Weitere Informationen finden Sie unter Architektur der Notfallwiederherstellung bei Ausfällen der Cloud-Infrastruktur.

Verwaltete Dienste nutzen

Verwenden Sie nach Möglichkeit verwaltete Dienste, um die integrierten Funktionen für Sicherungen, Hochverfügbarkeit und Skalierbarkeit zu nutzen. Beachten Sie die folgenden Empfehlungen für die Verwendung verwalteter Dienste:

Verwenden Sie verwaltete Dienste in Google Cloud. Sie bieten Hochverfügbarkeit, die durch SLAs abgedeckt ist. Außerdem bieten sie integrierte Sicherungsmechanismen und Funktionen zur Ausfallsicherheit.
Für die Datenverwaltung sollten Sie Dienste wie Cloud SQL, Cloud Storage und Spanner in Betracht ziehen.
Für Compute- und Anwendungshosting sollten Sie verwaltete Instanzgruppen (MIGs) von Compute Engine und Google Kubernetes Engine-Cluster (GKE) in Betracht ziehen. Regionale MIGs und regionale GKE-Cluster sind gegen Zonenausfälle resistent.
Verwenden Sie verwaltete multiregionale Dienste, um die Ausfallsicherheit bei regionalen Ausfällen zu verbessern.
Ermitteln Sie den Bedarf an Ausstiegsplänen für Dienste mit besonderen Merkmalen und definieren Sie die erforderlichen Pläne. Finanzaufsichtsbehörden wie die FCA, PRA und EBA verlangen von Unternehmen Strategien und Notfallpläne für den Datenabruf und die Betriebskontinuität, wenn die Beziehung zu einem Cloud-Anbieter endet. Unternehmen müssen die Machbarkeit des Ausstiegs bewerten, bevor sie Cloud-Verträge abschließen, und sie müssen die Möglichkeit haben, den Anbieter ohne Betriebsunterbrechung zu wechseln.
Prüfen Sie, ob die von Ihnen ausgewählten Dienste den Export von Daten in ein offenes Format wie CSV, Parquet und Avro unterstützen. Prüfen Sie, ob die Dienste auf offenen Technologien basieren, z. B. GKE-Unterstützung für das OCI-Format (Open Container Initiative) oder Managed Service for Apache Airflow, das auf Apache Airflow basiert.

Infrastrukturbereitstellung und ‑wiederherstellung automatisieren

Automatisierung trägt dazu bei, menschliche Fehler zu minimieren und den Zeit- und Ressourcenaufwand für die Reaktion auf Vorfälle zu reduzieren. Durch den Einsatz von Automatisierung kann die Wiederherstellung nach Fehlern beschleunigt und die Ergebnisse konsistenter werden. Beachten Sie die folgenden Empfehlungen, um die Bereitstellung und Wiederherstellung von Ressourcen zu automatisieren:

Minimieren Sie menschliche Fehler, indem Sie IaC-Tools (Infrastruktur als Code) wie Terraform verwenden.
Reduzieren Sie manuelle Eingriffe durch die Automatisierung von Failover-Prozessen. Automatisierte Antworten können auch dazu beitragen, die Auswirkungen von Fehlern zu reduzieren. Sie können beispielsweise Eventarc oder Workflows verwenden, um automatisch Abhilfemaßnahmen als Reaktion auf Probleme auszulösen, die in den Audit-Logs beobachtet werden.
Erhöhen Sie die Kapazität Ihrer Cloud-Ressourcen während des Failovers mithilfe von Autoscaling.
Wenden Sie während der Dienstbereitstellung automatisch Richtlinien und Schutzmaßnahmen für behördliche Anforderungen in Ihrer Cloud-Topologie an, indem Sie Platform Engineering einsetzen.

Finanzdienstleistungen: Zuverlässigkeit Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.