Well-Architected Framework: Perspektive der Finanzdienstleistungsbranche

Last reviewed 2025-07-28 UTC

In diesem Dokument des Google Cloud Well-Architected Framework werden Prinzipien und Empfehlungen beschrieben, die Ihnen helfen, Anwendungen für die Finanzdienstleistungsbranche (Financial Services Industry, FSI) in Google Cloud zu entwerfen, zu entwickeln und zu verwalten, die Ihren betrieblichen, Sicherheits-, Zuverlässigkeits-, Kosten- und Leistungszielen entsprechen.

Die Zielgruppe für dieses Dokument umfasst Entscheidungsträger, Architekten, Administratoren, Entwickler und Betreiber, die FSI-Arbeitslasten in Google Cloudentwerfen, erstellen, bereitstellen und verwalten. Beispiele für FSI-Organisationen, die von dieser Anleitung profitieren könnten, sind Banken, Anbieter von Zahlungsinfrastrukturen, Versicherungsunternehmen und Betreiber von Kapitalmärkten.

FSI-Organisationen haben besondere Anforderungen, insbesondere in Bezug auf Architektur und Resilienz. Diese Überlegungen werden hauptsächlich durch regulatorische, Risiko- und Leistungsanforderungen bestimmt. Dieses Dokument bietet allgemeine Richtlinien, die auf Designüberlegungen basieren, die wir bei einer Vielzahl von FSI-Kunden weltweit beobachtet haben. Unabhängig davon, ob sich Ihre Arbeitslasten vollständig in der Cloud befinden oder auf Hybrid- oder Multi-Cloud-Bereitstellungen umgestellt werden, hilft Ihnen der Leitfaden in diesem Dokument, Arbeitslasten auf Google Cloud zu entwerfen, die Ihren behördlichen Anforderungen und unterschiedlichen Risikoperspektiven entsprechen. Die Anleitung geht möglicherweise nicht auf die individuellen Herausforderungen jeder Organisation ein. Es bietet eine Grundlage, die viele der primären regulatorischen Anforderungen von Finanzinstituten erfüllt.

Eine der größten Herausforderungen beim Entwerfen von Cloud-Arbeitslasten besteht darin, Cloud-Bereitstellungen mit lokalen Umgebungen in Einklang zu bringen, insbesondere wenn Sie einheitliche Ansätze für Sicherheit, Zuverlässigkeit und Ausfallsicherheit anstreben. Cloud-Dienste bieten die Möglichkeit, Ihre Architektur grundlegend zu überdenken, um den Verwaltungsaufwand zu reduzieren, Kosten zu optimieren, die Sicherheit zu erhöhen und die Zuverlässigkeit und Ausfallsicherheit zu verbessern.

Auf den folgenden Seiten werden die Grundsätze und Empfehlungen beschrieben, die für FSI-Arbeitslasten für jede Säule des Well-Architected Framework gelten:

Beitragende

Autoren:

Weitere Beitragende:

FSI-Perspektive: Operative Exzellenz

Dieses Dokument im Google Cloud Well-Architected Framework: FSI perspective bietet einen Überblick über die Prinzipien und Empfehlungen zum Erstellen, Bereitstellen und Betreiben robuster Arbeitslasten für die Finanzdienstleistungsbranche (Financial Services Industry, FSI) in Google Cloud. Mit diesen Empfehlungen können Sie grundlegende Elemente wie Beobachtbarkeit, Automatisierung und Skalierbarkeit einrichten. Die Empfehlungen in diesem Dokument entsprechen der Säule „Operative Exzellenz“ des Well-Architected Framework.

Operational Excellence ist für FSI-Arbeitslasten in Google Cloud aufgrund der stark regulierten und sensiblen Natur solcher Arbeitslasten von entscheidender Bedeutung. Operational Excellence sorgt dafür, dass sich Cloud-Lösungen an sich ändernde Anforderungen anpassen lassen und Ihre Anforderungen an Wert, Leistung, Sicherheit und Zuverlässigkeit erfüllen. Fehler in diesen Bereichen können zu erheblichen finanziellen Verlusten, behördlichen Strafen und Rufschädigung führen.

Operational Excellence bietet die folgenden Vorteile für Arbeitslasten von Finanzinstituten:

  • Vertrauen und Reputation aufrechterhalten: Finanzinstitute sind stark auf das Vertrauen ihrer Kunden angewiesen. Betriebsstörungen oder Sicherheitsverletzungen können dieses Vertrauen erheblich untergraben und zu Kundenabwanderung führen. Operational Excellence trägt dazu bei, diese Risiken zu minimieren.
  • Strenge Compliance-Anforderungen erfüllen: Die Finanzdienstleistungsbranche unterliegt zahlreichen und komplexen Vorschriften, z. B.:

    Robuste operative Prozesse, Monitoring und Vorfallmanagement sind unerlässlich, um die Einhaltung von Vorschriften nachzuweisen und Strafen zu vermeiden.

  • Geschäftskontinuität und Ausfallsicherheit gewährleisten: Finanzmärkte und ‑dienste sind oft rund um die Uhr in Betrieb. Daher sind Hochverfügbarkeit und eine effektive Notfallwiederherstellung von größter Bedeutung. Die Prinzipien der operativen Exzellenz leiten das Design und die Implementierung von stabilen Systemen. Weitere Informationen finden Sie im Zuverlässigkeits-Pfeiler.

  • Sensible Daten schützen: Finanzinstitute verarbeiten große Mengen an hochsensiblen Kunden- und Finanzdaten. Strenge operative Kontrollen, Sicherheitsüberwachung und schnelle Reaktion auf Vorfälle sind entscheidend, um Datenpannen zu verhindern und den Datenschutz aufrechtzuerhalten. Weitere Informationen finden Sie im Sicherheitskonzept.

  • Leistung für kritische Anwendungen optimieren: Viele Finanzanwendungen wie Handelsplattformen und Echtzeitanalysen erfordern hohe Leistung und niedrige Latenz. Um diese Leistungsanforderungen zu erfüllen, benötigen Sie ein hochoptimiertes Design für Computing, Netzwerk und Speicher. Weitere Informationen finden Sie im Leistungsoptimierungspfeiler.

  • Kosten effektiv verwalten: Neben Sicherheit und Zuverlässigkeit ist für Finanzinstitute auch die Kosteneffizienz wichtig. Operational Excellence umfasst Praktiken zur Optimierung der Ressourcenauslastung und zur Verwaltung von Cloud-Ausgaben. Weitere Informationen zu diesem Thema finden Sie im Pfeiler zur Kostenoptimierung.

Die Empfehlungen zur operativen Exzellenz in diesem Dokument sind den folgenden Kernprinzipien zugeordnet:

SLAs und entsprechende SLOs und SLIs definieren

In vielen FSI-Organisationen wird die Verfügbarkeit von Anwendungen in der Regel anhand der Messwerte Recovery Time Objective (RTO) und Recovery Point Objective (RPO) klassifiziert. Für geschäftskritische Anwendungen, die externe Kunden bedienen, kann auch ein Service Level Agreement (SLA) definiert werden.

Für SLAs ist ein Rahmen von Messwerten erforderlich, der das Verhalten des Systems aus Sicht der Nutzerzufriedenheit darstellt. Site Reliability Engineering (SRE) bietet eine Möglichkeit, das gewünschte Maß an Systemzuverlässigkeit zu erreichen. Beim Erstellen eines Messwert-Frameworks werden wichtige numerische Indikatoren definiert und überwacht, um den Systemstatus aus Nutzersicht zu verstehen. Messwerte wie Latenz und Fehlerraten geben beispielsweise Aufschluss darüber, wie gut ein Dienst funktioniert. Diese Messwerte werden als Service Level Indicators (SLIs) bezeichnet. Die Entwicklung effektiver SLIs ist entscheidend, da sie die Rohdaten liefern, die für eine objektive Bewertung der Zuverlässigkeit erforderlich sind.

Berücksichtigen Sie die folgenden Empfehlungen, um aussagekräftige SLAs, SLIs und SLOs zu definieren:

  • Entwickeln und definieren Sie SLIs für jeden wichtigen Dienst. Legen Sie Zielwerte fest, die die akzeptablen Leistungsniveaus definieren.
  • Entwickeln und definieren Sie die Service Level Objectives (SLOs), die den SLIs entsprechen. Ein SLO kann beispielsweise besagen, dass 99,9% der Anfragen eine Latenz von weniger als 200 Millisekunden haben müssen.
  • Legen Sie die internen Abhilfemaßnahmen fest, die ergriffen werden müssen, wenn ein Dienst die SLOs nicht erfüllt. Um beispielsweise die Stabilität der Plattform zu verbessern, müssen Sie möglicherweise Entwicklungsressourcen auf die Behebung von Problemen konzentrieren.
  • Prüfen Sie die SLA-Anforderung für jeden Dienst und erkennen Sie das SLA als formalen Vertrag mit den Dienstnutzern an.

Beispiele für Servicelevels

Die folgende Tabelle enthält Beispiele für SLIs, SLOs und SLAs für eine Zahlungsplattform:

Unternehmensmesswert SLI SLO SLA
Erfolg von Zahlungsvorgängen

Eine quantitative Messung des Prozentsatzes aller initiierten Zahlungsabwicklungstransaktionen, die erfolgreich verarbeitet und bestätigt werden.

Beispiel: (Anzahl der erfolgreichen Transaktionen ÷ Gesamtzahl der gültigen Transaktionen) × 100, gemessen über ein gleitendes 5‑Minuten-Zeitfenster.

Ein internes Ziel, um über einen bestimmten Zeitraum einen hohen Prozentsatz erfolgreicher Zahlungsvorgänge aufrechtzuerhalten.

Beispiel: Halten Sie eine Erfolgsrate von 99, 98% für Zahlungen über einen fortlaufenden Zeitraum von 30 Tagen ein.Ungültige Anfragen und geplante Wartungsarbeiten sind dabei ausgeschlossen.

Eine vertragliche Garantie für die Erfolgsrate und Geschwindigkeit der Verarbeitung von Zahlungen.

Beispiel: Der Dienstanbieter garantiert, dass 99,0 % der vom Kunden initiierten Zahlungsvorgänge innerhalb einer Sekunde erfolgreich verarbeitet und bestätigt werden.

Latenz bei der Zahlungsverarbeitung

Die durchschnittliche Zeit, die für die Verarbeitung einer Zahlungstransaktion von der Initiierung durch den Kunden bis zur endgültigen Bestätigung benötigt wird.

Beispiel: Durchschnittliche Antwortzeit in Millisekunden für die Transaktionsbestätigung, gemessen über ein rollierendes 5‑Minuten-Fenster.

Ein internes Ziel für die Geschwindigkeit, mit der Zahlungsvorgänge verarbeitet werden.

Beispiel: Sorgen Sie dafür, dass 99,5% der Zahlungsvorgänge innerhalb von 400 Millisekunden über einen rollierenden Zeitraum von 30 Tagen verarbeitet werden.

Eine vertragliche Verpflichtung, kritische Probleme bei der Zahlungsabwicklung innerhalb eines bestimmten Zeitrahmens zu beheben.

Beispiel: Bei kritischen Problemen bei der Zahlungsabwicklung (definiert als Ausfall, der mehr als 1% der Transaktionen betrifft) verpflichtet sich der Dienstanbieter, das Problem innerhalb von zwei Stunden nach Meldung oder Erkennung zu beheben.

Plattformverfügbarkeit

Der Prozentsatz der Zeit, in der die zentrale API für die Zahlungsabwicklung und die Benutzeroberfläche betriebsbereit und für Kunden zugänglich sind.

Beispiel: (Gesamtbetriebszeit − Ausfallzeit) ÷ Gesamtbetriebszeit × 100, gemessen pro Minute.

Ein internes Ziel für die Verfügbarkeit der zentralen Zahlungsplattform.

Beispiel: Erreichen Sie eine Plattformverfügbarkeit von 99,995% pro Kalendermonat, ausgenommen geplante Wartungsfenster.

Eine formelle, rechtsverbindliche Verpflichtung gegenüber Kunden in Bezug auf die Mindestverfügbarkeit der Zahlungsplattform, einschließlich der Folgen bei Nichteinhaltung.

Beispiel: Die Plattform hat pro Kalendermonat eine Verfügbarkeit von mindestens 99,9 %, ausgenommen geplante Wartungsfenster. Wenn die Verfügbarkeit unter das Mindestniveau fällt, erhält der Kunde für jede Senkung um 0,1% eine Gutschrift in Höhe von 5% der monatlichen Servicegebühr.

Mithilfe von SLI-Daten können Sie überwachen, ob Systeme die definierten SLOs einhalten, und dafür sorgen, dass die SLAs eingehalten werden. Mithilfe einer Reihe genau definierter SLIs können Ingenieure und Entwickler FSI-Anwendungen auf den folgenden Ebenen überwachen:

  • Direkt im Dienst, auf dem die Anwendungen bereitgestellt werden, z. B. GKE oder Cloud Run.
  • Mithilfe von Logs, die von Infrastrukturkomponenten wie dem Load-Balancer bereitgestellt werden.

OpenTelemetry bietet einen Open-Source-Standard und eine Reihe von Technologien zum Erfassen aller Arten von Telemetriedaten, einschließlich Messwerten, Traces und Logs. Google Cloud Managed Service for Prometheus bietet ein vollständig verwaltetes, hochgradig skalierbares Backend für Messwerte und den Betrieb von Prometheus in großem Umfang.

Weitere Informationen zu SLI, SLO und Fehlerbudgets finden Sie im SRE-Handbuch.

Um effektive Benachrichtigungs- und Monitoring-Dashboards und ‑Mechanismen zu entwickeln, verwenden Sie Google Cloud Observability-Tools zusammen mit Google Cloud Monitoring. Informationen zu sicherheitsspezifischen Monitoring- und Erkennungsfunktionen finden Sie im Sicherheitskonzept.

Prozesse für das Vorfallmanagement definieren und testen

Gut definierte und regelmäßig getestete Prozesse für das Incident-Management tragen direkt zum Wert, zur Leistung, zur Sicherheit und zur Zuverlässigkeit der FSI-Arbeitslasten in Google Cloudbei. Diese Prozesse helfen Finanzinstituten, ihre strengen regulatorischen Anforderungen zu erfüllen, sensible Daten zu schützen, die Geschäftskontinuität aufrechtzuerhalten und das Vertrauen der Kunden zu wahren.

Regelmäßige Tests der Prozesse für das Vorfallmanagement bieten folgende Vorteile:

  • Leistung bei Spitzenlasten aufrechterhalten: Regelmäßige Leistungs- und Lasttests helfen Finanzinstituten, sicherzustellen, dass ihre cloudbasierten Anwendungen und Infrastrukturen Spitzenvolumina bei Transaktionen, Marktvolatilität und andere Szenarien mit hoher Nachfrage ohne Leistungseinbußen bewältigen können. Diese Funktion ist entscheidend, um eine nahtlose Nutzererfahrung zu gewährleisten und die Anforderungen der Finanzmärkte zu erfüllen.
  • Potenzielle Engpässe und Einschränkungen erkennen: Bei Stresstests werden Systeme an ihre Grenzen gebracht. So können Finanzinstitute potenzielle Engpässe und Leistungseinschränkungen erkennen, bevor sie sich auf kritische Abläufe auswirken. Dieser proaktive Ansatz ermöglicht es Finanzinstituten, ihre Infrastruktur und Anwendungen für optimale Leistung und Skalierbarkeit anzupassen.
  • Zuverlässigkeit und Ausfallsicherheit validieren: Regelmäßige Tests, einschließlich Chaos Engineering oder simulierter Fehler, tragen dazu bei, die Zuverlässigkeit und Ausfallsicherheit von Finanzsystemen zu validieren. Durch diese Tests wird sichergestellt, dass sich die Systeme nach Ausfällen problemlos wiederherstellen lassen und eine hohe Verfügbarkeit aufrechterhalten wird, was für die Geschäftskontinuität unerlässlich ist.
  • Effektive Kapazitätsplanung: Leistungstests liefern wertvolle Daten zur Ressourcennutzung unter verschiedenen Lastbedingungen, was für eine genaue Kapazitätsplanung unerlässlich ist. Finanzinstitute können diese Daten nutzen, um den künftigen Kapazitätsbedarf proaktiv zu ermitteln und Leistungsprobleme aufgrund von Ressourcenbeschränkungen zu vermeiden.
  • Neue Funktionen und Codeänderungen erfolgreich bereitstellen: Durch die Integration automatisierter Tests in CI/CD-Pipelines wird sichergestellt, dass Änderungen und neue Bereitstellungen gründlich validiert werden, bevor sie in Produktionsumgebungen veröffentlicht werden. Dieser Ansatz verringert das Risiko von Fehlern und Regressionen, die zu Betriebsunterbrechungen führen könnten, erheblich.
  • Regulierungsanforderungen für die Systemstabilität erfüllen: Finanzvorschriften erfordern oft, dass Institute robuste Testverfahren haben, um die Stabilität und Zuverlässigkeit ihrer kritischen Systeme zu gewährleisten. Regelmäßige Tests helfen, die Einhaltung dieser Anforderungen nachzuweisen.

Berücksichtigen Sie die folgenden Empfehlungen, um Ihre Prozesse für das Vorfallsmanagement zu definieren und zu testen.

Klare Verfahren für die Reaktion auf Vorfälle festlegen

Ein etabliertes Set von Verfahren zur Reaktion auf Vorfälle umfasst die folgenden Elemente:

  • Rollen und Verantwortlichkeiten, die für Einsatzleiter, Ermittler, Kommunikatoren und technische Experten definiert sind, um eine effektive und koordinierte Reaktion zu gewährleisten.
  • Kommunikationsprotokolle und Eskalierungswege, die definiert sind, um sicherzustellen, dass Informationen bei Vorfällen zeitnah und effektiv weitergegeben werden.
  • Verfahren, die in einem Runbook oder Playbook dokumentiert sind, in dem die Schritte für Kommunikation, Triage, Untersuchung und Lösung beschrieben werden.
  • Regelmäßige Schulungen und Vorbereitung, die Teams das Wissen und die Fähigkeiten vermitteln, um effektiv zu reagieren.

Regelmäßig Leistungs- und Lasttests durchführen

Regelmäßige Leistungs- und Lasttests tragen dazu bei, dass cloudbasierte Anwendungen und Infrastrukturen Spitzenlasten bewältigen und eine optimale Leistung aufrechterhalten können. Bei Lasttests werden realistische Traffic-Muster simuliert. Bei Belastungstests wird das System bis an seine Grenzen belastet, um potenzielle Engpässe und Leistungseinschränkungen zu ermitteln. Mit Produkten wie Cloud Load Balancing und Lasttestdiensten können Sie realen Traffic simulieren. Anhand der Testergebnisse können Sie Ihre Cloud-Infrastruktur und Anwendungen für optimale Leistung und Skalierbarkeit anpassen. Sie können beispielsweise die Ressourcenzuweisung anpassen oder Anwendungskonfigurationen optimieren.

Tests in CI/CD-Pipelines automatisieren

Durch die Einbindung automatisierter Tests in Ihre CI/CD-Pipelines können Sie die Qualität und Zuverlässigkeit von Cloud-Anwendungen sicherstellen, indem Sie Änderungen vor der Bereitstellung validieren. Dieser Ansatz verringert das Risiko von Fehlern und Regressionen erheblich und hilft Ihnen, ein stabileres und robusteres Softwaresystem zu entwickeln. Sie können verschiedene Arten von Tests in Ihre CI/CD-Pipelines einbinden, darunter Unit-, Integrations- und End-to-End-Tests. Verwenden Sie Produkte wie Cloud Build und Cloud Deploy, um Ihre CI/CD-Pipelines zu erstellen und zu verwalten.

Kontinuierliche Verbesserung und Innovation

Bei Finanzdienstleistungsarbeitslasten in der Cloud ist die Migration in die Cloud nur der erste Schritt. Eine kontinuierliche Verbesserung und Innovation sind aus folgenden Gründen unerlässlich:

  • Innovationen beschleunigen: Nutzen Sie neue Technologien wie KI, um Ihre Dienste zu verbessern.
  • Kosten senken: Ineffizienzen beseitigen und die Ressourcennutzung optimieren.
  • Agilität steigern: Schnell auf Markt- und Gesetzesänderungen reagieren
  • Entscheidungsfindung verbessern: Mit Datenanalyseprodukten wie BigQuery und Looker können Sie fundierte Entscheidungen treffen.

Um kontinuierliche Verbesserungen und Innovationen zu ermöglichen, sollten Sie die folgenden Empfehlungen berücksichtigen.

Regelmäßige Retrospektiven durchführen

Retrospektiven sind unerlässlich, um die Verfahren zur Reaktion auf Vorfälle kontinuierlich zu verbessern und Teststrategien auf Grundlage der Ergebnisse regelmäßiger Leistungs- und Lasttests zu optimieren. Damit Retrospektiven effektiv sind, sollten Sie Folgendes beachten:

  • Geben Sie Teams die Möglichkeit, über ihre Erfahrungen nachzudenken, herauszufinden, was gut gelaufen ist, und Bereiche zu identifizieren, in denen Verbesserungen möglich sind.
  • Führen Sie Retrospektiven nach Projektmeilensteinen, schwerwiegenden Vorfällen oder wichtigen Testzyklen durch. Teams können sowohl aus Erfolgen als auch aus Fehlern lernen und ihre Prozesse und Praktiken kontinuierlich optimieren.
  • Verwenden Sie einen strukturierten Ansatz wie das Start-Stop-Continue-Modell, um sicherzustellen, dass die Retrospektiven produktiv sind und zu umsetzbaren Schritten führen.
  • Retrospektiven nutzen, um Bereiche zu identifizieren, in denen die Automatisierung des Änderungsmanagements weiter verbessert werden kann, um die Zuverlässigkeit zu erhöhen und Risiken zu verringern.

Lernkultur fördern

Eine Lernkultur ermöglicht die sichere Erforschung neuer Technologien inGoogle Cloud, z. B. KI- und ML-Funktionen zur Verbesserung von Diensten wie Betrugserkennung und personalisierter Finanzberatung. So fördern Sie eine Lernkultur:

  • Ermutigen Sie Teams, zu experimentieren, Wissen zu teilen und kontinuierlich zu lernen.
  • Führen Sie eine Kultur der Schuldlosigkeit ein, in der Fehler als Chancen für Wachstum und Verbesserung betrachtet werden.
  • Schaffen Sie eine psychologisch sichere Umgebung, in der Teams Risiken eingehen und innovative Lösungen in Betracht ziehen können. Teams lernen sowohl aus Erfolgen als auch aus Misserfolgen, was zu einer widerstandsfähigeren und anpassungsfähigeren Organisation führt.
  • Entwickeln Sie eine Kultur, die den Austausch von Wissen fördert, das aus Incident-Management-Prozessen und Testübungen gewonnen wurde.

Über Cloud-Technologien auf dem Laufenden bleiben

Kontinuierliches Lernen ist unerlässlich, um neue Sicherheitsmaßnahmen zu verstehen und zu implementieren, fortschrittliche Datenanalysen für bessere Erkenntnisse zu nutzen und innovative Lösungen einzuführen, die für die Finanzbranche relevant sind.

  • Das Potenzial von Google Cloud Diensten maximieren, indem Sie sich über die neuesten Entwicklungen, Funktionen und Best Practices auf dem Laufenden halten.
  • Wenn neue Google Cloud Funktionen und Dienste eingeführt werden, sollten Sie nach Möglichkeiten suchen, Prozesse weiter zu automatisieren, die Sicherheit zu erhöhen und die Leistung und Skalierbarkeit Ihrer Anwendungen zu verbessern.
  • Nehmen Sie an relevanten Konferenzen, Webinaren und Schulungen teil, um Ihr Wissen zu erweitern und neue Funktionen kennenzulernen.
  • Ermutigen Sie Teammitglieder, Google Cloud Zertifizierungen zu erwerben, um sicherzustellen, dass die Organisation die erforderlichen Fähigkeiten für den Erfolg in der Cloud hat.

Sicherheit, Datenschutz und Compliance aus Sicht von Finanzdienstleistern

Dieses Dokument im Google Cloud Well-Architected Framework: FSI perspective bietet einen Überblick über die Prinzipien und Empfehlungen zur Erfüllung der Sicherheits-, Datenschutz- und Compliance-Anforderungen von Arbeitslasten für Finanzdienstleister in Google Cloud. Die Empfehlungen helfen Ihnen, eine robuste und konforme Infrastruktur aufzubauen, sensible Daten zu schützen, das Vertrauen der Kunden zu wahren, die komplexen regulatorischen Anforderungen zu erfüllen und Cyberbedrohungen effektiv zu begegnen. Die Empfehlungen in diesem Dokument stimmen mit der Sicherheitssäule des Well-Architected Framework überein.

Die Sicherheit beim Cloud Computing ist ein wichtiges Anliegen für Finanzinstitute, die aufgrund der großen Mengen an sensiblen Daten, die sie verwalten, einschließlich Kundendaten und Finanzunterlagen, für Cyberkriminelle sehr attraktiv sind. Die Folgen eines Sicherheitsverstoßes sind äußerst schwerwiegend und umfassen erhebliche finanzielle Verluste, langfristige Reputationsschäden und erhebliche behördliche Geldstrafen. Daher sind für FSI-Arbeitslasten strenge Sicherheitskontrollen erforderlich.

Um für umfassende Sicherheit und Compliance zu sorgen, müssen Sie die geteilten Verantwortlichkeiten zwischen Ihnen (Finanzinstituten) und Google Cloudkennen. Google Cloud ist für die Sicherung der zugrunde liegenden Infrastruktur verantwortlich, einschließlich der physischen Sicherheit und der Netzwerksicherheit. Sie sind für den Schutz von Daten und Anwendungen, die Konfiguration der Zugriffssteuerung sowie die Konfiguration und Verwaltung von Sicherheitsdiensten verantwortlich. Um Sie bei Ihren Sicherheitsbemühungen zu unterstützen, bietet das Google Cloud Partnernetzwerk Sicherheitsintegrationen und Managed Services.

Die Sicherheitsempfehlungen in diesem Dokument sind den folgenden Grundprinzipien zugeordnet:

Von Grund auf sicher

Finanzvorschriften wie der Payment Card Industry Data Security Standard (PCI DSS), der Gramm-Leach-Bliley Act (GLBA) in den USA und verschiedene nationale Gesetze zum Schutz von Finanzdaten schreiben vor, dass die Sicherheit von Anfang an in Systeme integriert wird. Das Prinzip „Security by Design“ betont die Integration von Sicherheit über den gesamten Entwicklungszyklus hinweg, um sicherzustellen, dass Sicherheitslücken von Anfang an minimiert werden.

Wenn Sie das Prinzip „Security by Design“ für Ihre Arbeitslasten für Finanzdienstleistungen inGoogle Cloudanwenden möchten, sollten Sie die folgenden Empfehlungen berücksichtigen:

  • Sorgen Sie dafür, dass nur die erforderlichen Berechtigungen gewährt werden, indem Sie das Prinzip der geringsten Berechtigung durch die detaillierte rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC) in der Identitäts- und Zugriffsverwaltung (Identity and Access Management, IAM) anwenden. Die Verwendung von RBAC ist eine wichtige Anforderung in vielen Finanzvorschriften.
  • Sicherheitsperimeter für Ihre vertraulichen Dienste und Daten in Google Cloud mit VPC Service Controls erzwingen Die Sicherheitsperimeter tragen dazu bei, sensible Daten und Ressourcen zu segmentieren und zu schützen sowie Daten-Exfiltration und unbefugten Zugriff zu verhindern, wie es in den Verordnungen gefordert wird.
  • Definieren Sie Sicherheitskonfigurationen als Code mit IaC-Tools (Infrastruktur als Code) wie Terraform. Bei diesem Ansatz werden Sicherheitskontrollen von der ersten Bereitstellungsphase an eingebettet, was zu Konsistenz und Prüfbarkeit beiträgt.
  • Scannen Sie Ihren Anwendungscode, indem Sie Static Application Security Testing (SAST) mit Cloud Build in die CI/CD-Pipeline einbinden. Richten Sie automatisierte Sicherheitskontrollen ein, um die Bereitstellung von nicht konformem Code zu verhindern.
  • Security Command Center bietet eine einheitliche Oberfläche für Sicherheitsstatistiken. Durch die Verwendung von Security Command Center können Fehlkonfigurationen oder Bedrohungen, die zu Verstößen gegen gesetzliche Bestimmungen führen könnten, kontinuierlich überwacht und frühzeitig erkannt werden. Um die Anforderungen von Standards wie ISO 27001 und NIST 800-53 zu erfüllen, können Sie Vorlagen für die Konfigurationsverwaltung verwenden.
  • Verfolgen Sie die Reduzierung der Sicherheitslücken, die in Produktionsbereitstellungen identifiziert werden, und den Prozentsatz der IaC-Bereitstellungen, die den Sicherheits-Best Practices entsprechen. Mit Security Command Center können Sie Sicherheitslücken und Informationen zur Einhaltung von Sicherheitsstandards erkennen und ansehen. Weitere Informationen finden Sie unter Ergebnisse zu Sicherheitslücken.

Zero Trust implementieren

Moderne Finanzvorschriften betonen zunehmend die Notwendigkeit strenger Zugriffskontrollen und kontinuierlicher Überprüfung. Diese Anforderungen spiegeln das Zero-Trust-Prinzip wider, das darauf abzielt, Arbeitslasten vor internen und externen Bedrohungen und böswilligen Akteuren zu schützen. Das Zero-Trust-Prinzip sieht eine kontinuierliche Überprüfung jedes Nutzers und Geräts vor. Dadurch wird implizites Vertrauen ausgeschlossen und das seitliche Verschieben von Angriffen wird erschwert.

Beachten Sie die folgenden Empfehlungen, um Zero Trust zu implementieren:

  • Aktivieren Sie den kontextsensitiven Zugriff basierend auf Nutzeridentität, Gerätesicherheit, Standort und anderen Faktoren, indem Sie IAM-Steuerelemente mit Chrome Enterprise Premium kombinieren. Dieser Ansatz sorgt für eine kontinuierliche Überprüfung, bevor der Zugriff auf Finanzdaten und ‑systeme gewährt wird.
  • Sorgen Sie für eine sichere und skalierbare Identitäts- und Zugriffsverwaltung, indem Sie Identity Platform (oder Ihren externen Identitätsanbieter, wenn Sie die Workforce Identity-Föderation verwenden) konfigurieren. Richten Sie die Multi-Faktor-Authentifizierung (MFA) und andere Kontrollen ein, die für die Implementierung von Zero Trust und die Einhaltung von Vorschriften unerlässlich sind.
  • Implementieren Sie die MFA für alle Nutzerkonten, insbesondere für Konten mit Zugriff auf vertrauliche Daten oder Systeme.
  • Unterstützen Sie Audits und Untersuchungen im Zusammenhang mit der Einhaltung von Vorschriften, indem Sie umfassende Protokollierung und Überwachung von Nutzerzugriffen und Netzwerkaktivitäten einrichten.
  • Aktivieren Sie die private und sichere Kommunikation zwischen Diensten inGoogle Cloud und lokalen Umgebungen, ohne den Traffic über das öffentliche Internet zu leiten, indem Sie Private Service Connect verwenden.
  • Implementieren Sie detaillierte Identitätskontrollen und autorisieren Sie den Zugriff auf Anwendungsebene mit Identity-Aware Proxy (IAP), anstatt auf netzwerkbasierte Sicherheitsmechanismen wie VPN-Tunnel zu setzen. Dieser Ansatz trägt dazu bei, das Lateral Movement in der Umgebung zu reduzieren.

Shift-Left-Sicherheit implementieren

Finanzaufsichtsbehörden empfehlen proaktive Sicherheitsmaßnahmen. Wenn Sie Sicherheitslücken frühzeitig im Entwicklungszyklus erkennen und beheben, können Sie das Risiko von Sicherheitsvorfällen und potenziellen Strafen für die Nichteinhaltung von Vorschriften verringern. Das Prinzip der Shift-Left-Sicherheit fördert frühe Sicherheitstests und die Integration, was dazu beiträgt, die Kosten und Komplexität der Fehlerbehebung zu reduzieren.

Beachten Sie die folgenden Empfehlungen, um Shift-Left-Sicherheit zu implementieren:

  • Sorgen Sie für automatisierte Sicherheitsprüfungen zu Beginn des Entwicklungsprozesses, indem Sie Sicherheitsscanning-Tools wie das Scannen von Container-Schwachstellen und die statische Codeanalyse mit Cloud Build in die CI/CD-Pipeline einbinden.

  • Sorgen Sie dafür, dass nur sichere Artefakte bereitgestellt werden, indem Sie Artifact Registry verwenden. Artifact Registry bietet ein sicheres und zentrales Repository für Softwarepakete und Container-Images mit integriertem Scannen auf Sicherheitslücken. Verwenden Sie virtuelle Repositories, um Angriffe durch Verwechslung von Abhängigkeiten zu verhindern, indem Sie Ihre privaten Artefakte gegenüber Remote-Repositories priorisieren.

  • Webanwendungen lassen sich automatisch auf häufige Sicherheitslücken scannen, indem Sie Web Security Scanner, einen Teil von Security Command Center, in Ihre Entwicklungspipelines einbinden.

  • Implementieren Sie Sicherheitsprüfungen für den Quellcode, den Build-Prozess und die Code-Herkunft mithilfe des Supply-chain Levels for Software Artifacts (SLSA)-Frameworks. Erzwingen Sie die Herkunft der Arbeitslasten, die in Ihren Umgebungen ausgeführt werden, mit Lösungen wie der Binärautorisierung. Mit Assured Open Source können Sie dafür sorgen, dass in Ihren Workloads nur verifizierte Open-Source-Softwarebibliotheken verwendet werden.

  • Verfolgen Sie die Anzahl der Sicherheitslücken, die in Ihrem Entwicklungszyklus identifiziert und behoben werden, den Prozentsatz der Codebereitstellungen, die Sicherheitsprüfungen bestehen, und die Verringerung der Sicherheitsvorfälle, die durch Software-Sicherheitslücken verursacht werden. Google Cloud bietet Tools, die Sie bei der Nachverfolgung für verschiedene Arten von Arbeitslasten unterstützen. Verwenden Sie für containerisierte Arbeitslasten beispielsweise die Container-Scanfunktion von Artifact Registry.

Präventive Cyberabwehr implementieren

Finanzinstitute sind ein beliebtes Ziel für ausgeklügelte Cyberangriffe. Vorschriften erfordern oft robuste Mechanismen zur Aufdeckung von Bedrohungen und proaktive Verteidigungsmechanismen. Die präventive Cyberabwehr konzentriert sich auf die proaktive Erkennung und Reaktion auf Bedrohungen mithilfe von erweiterten Analysen und Automatisierung.

Beachten Sie die folgenden Empfehlungen:

  • Mit den Mandiant-Services für Threat Intelligence, Incident Response und Security Validation können Sie potenzielle Bedrohungen proaktiv erkennen und abwehren.
  • Mit Google Cloud Armor können Sie Webanwendungen und APIs am Netzwerkrand vor Web-Exploits und DDoS-Angriffen schützen.
  • Sicherheitsergebnisse und ‑empfehlungen mit Security Command Center aggregieren und priorisieren, damit Sicherheitsteams potenzielle Risiken proaktiv angehen können.
  • Prüfen Sie präventive Schutzmaßnahmen und Pläne für die Reaktion auf Vorfälle durch regelmäßige Sicherheitssimulationen und Penetrationstests.
  • Messen Sie die Zeit, die zum Erkennen und Reagieren auf Sicherheitsvorfälle benötigt wird, die Effektivität der DDoS-Schutzmaßnahmen und die Anzahl der verhinderten Cyberangriffe. Die erforderlichen Messwerte und Daten finden Sie in den Google Security Operations SOAR- und SIEM-Dashboards.

KI sicher und verantwortungsbewusst nutzen und KI für Sicherheit einsetzen

KI und ML werden zunehmend für Anwendungsfälle im Finanzdienstleistungssektor wie Betrugserkennung und algorithmischer Handel eingesetzt. Vorschriften schreiben vor, dass diese Technologien ethisch, transparent und sicher eingesetzt werden. KI kann auch dazu beitragen, Ihre Sicherheitsfunktionen zu verbessern. Beachten Sie die folgenden Empfehlungen für die Verwendung von KI:

  • Mit Vertex AI können Sie ML-Modelle in einer sicheren und kontrollierten Umgebung entwickeln und bereitstellen. Funktionen wie die Erklärbarkeit von Modellen und Fairness-Messwerte können helfen, Bedenken hinsichtlich verantwortungsbewusster KI auszuräumen.
  • Nutzen Sie die Sicherheitsanalyse- und ‑betriebsfunktionen von Google Security Operations. Dabei werden KI und ML eingesetzt, um große Mengen an Sicherheitsdaten zu analysieren, Anomalien zu erkennen und die Reaktion auf Bedrohungen zu automatisieren. Diese Funktionen tragen dazu bei, Ihren allgemeinen Sicherheitsstatus zu verbessern und die Compliance zu überwachen.
  • Legen Sie klare Governance-Richtlinien für die Entwicklung und Bereitstellung von KI und ML fest, einschließlich Sicherheits- und ethischer Aspekte.
  • Die Elemente des Secure AI Framework (SAIF) bieten einen praktischen Ansatz, um die Sicherheits- und Risikobedenken von KI-Systemen zu berücksichtigen.
  • Genauigkeit und Effektivität von KI-basierten Systemen zur Betrugserkennung, Reduzierung von Fehlalarmen bei Sicherheitswarnungen und Effizienzsteigerungen durch KI-basierte Sicherheitsautomatisierung nachverfolgen

Behörden-, Compliance- und Datenschutzanforderungen erfüllen

Finanzdienstleistungen unterliegen einer Vielzahl von Vorschriften, darunter Anforderungen an den Datenspeicherort, spezifische Prüfpfade und Datenschutzstandards. Damit sensible Daten richtig identifiziert, geschützt und verwaltet werden, benötigen Finanzinstitute robuste Data-Governance-Richtlinien und Datenklassifizierungsschemata. Beachten Sie die folgenden Empfehlungen, um die behördlichen Anforderungen zu erfüllen:

  • Richten Sie Datenbegrenzungen in Google Cloud für sensible und regulierte Arbeitslasten mit Assured Workloads ein. So können Sie behördliche und branchenspezifische Compliance-Anforderungen wie FedRAMP und CJIS erfüllen.
  • Implementieren Sie Cloud Data Loss Prevention (Cloud DLP), um sensible Daten wie Finanzinformationen zu identifizieren, zu klassifizieren und zu schützen. So können Sie Datenschutzbestimmungen wie die DSGVO und den CCPA einhalten.
  • Mit Cloud-Audit-Logs können Sie Details zu administrativen Aktivitäten und zum Zugriff auf Ressourcen nachverfolgen. Diese Logs sind entscheidend, um die Prüfanforderungen zu erfüllen, die in vielen Finanzvorschriften festgelegt sind.
  • Wenn Sie Google Cloud -Regionen für Ihre Arbeitslasten und Daten auswählen, sollten Sie die lokalen Vorschriften zum Datenstandort berücksichtigen. Google Cloud globale Infrastruktur ermöglicht es Ihnen, Regionen auszuwählen, die Ihnen helfen können, Ihre Anforderungen an den Datenstandort zu erfüllen.
  • Verwalten Sie die Schlüssel, die zum Verschlüsseln sensibler Finanzdaten im Ruhezustand und bei der Übertragung verwendet werden, mit dem Cloud Key Management Service. Eine solche Verschlüsselung ist eine grundlegende Anforderung vieler Sicherheits- und Datenschutzbestimmungen.
  • Implementieren Sie die Kontrollen, die erforderlich sind, um Ihre regulatorischen Anforderungen zu erfüllen. Prüfen Sie, ob die Kontrollvariablen wie erwartet funktionieren. Lassen Sie die Kontrollen noch einmal von einem externen Prüfer validieren, um der Aufsichtsbehörde nachzuweisen, dass Ihre Arbeitslasten den Vorschriften entsprechen.

Sicherheitsinitiativen priorisieren

Angesichts der Vielzahl von Sicherheitsanforderungen müssen Finanzinstitute Initiativen priorisieren, die auf Risikobewertungen und behördlichen Vorgaben basieren. Wir empfehlen die folgende Vorgehensweise:

  1. Eine solide Sicherheitsgrundlage schaffen: Konzentrieren Sie sich auf die Kernbereiche der Sicherheit, einschließlich Identitäts- und Zugriffsverwaltung, Netzwerksicherheit und Datenschutz. Dieser Fokus trägt dazu bei, eine robuste Sicherheitslage zu schaffen und umfassenden Schutz vor sich entwickelnden Bedrohungen zu gewährleisten.
  2. Wichtige Vorschriften berücksichtigen: Priorisieren Sie die Einhaltung wichtiger Vorschriften wie PCI DSS, DSGVO und relevanter nationaler Gesetze. So können Sie den Datenschutz gewährleisten, rechtliche Risiken minimieren und das Vertrauen Ihrer Kunden gewinnen.
  3. Erweiterte Sicherheitsmaßnahmen implementieren: Führen Sie nach und nach erweiterte Sicherheitsmaßnahmen wie Zero Trust, KI-basierte Sicherheitslösungen und proaktive Bedrohungssuche ein.

FSI-Perspektive: Zuverlässigkeit

Dieses Dokument im Google Cloud Well-Architected Framework: FSI perspective bietet einen Überblick über die Prinzipien und Empfehlungen zum Entwerfen, Bereitstellen und Betreiben zuverlässiger Arbeitslasten für die Finanzdienstleistungsbranche (Financial Services Industry, FSI) inGoogle Cloud. In diesem Dokument wird erläutert, wie Sie erweiterte Zuverlässigkeitsverfahren und Beobachtbarkeit in Ihre Architekturpläne einbinden. Die Empfehlungen in diesem Dokument stimmen mit der Zuverlässigkeitssäule des Well-Architected Framework überein.

Für Finanzinstitute ist eine zuverlässige und robuste Infrastruktur sowohl eine geschäftliche Notwendigkeit als auch eine behördliche Anforderung. Damit FSI-Arbeitslasten inGoogle Cloud zuverlässig sind, müssen Sie potenzielle Fehlerquellen verstehen und minimieren, Ressourcen redundant bereitstellen und die Wiederherstellung planen. Die operative Resilienz ist ein Ergebnis der Zuverlässigkeit. Sie beschreibt die Fähigkeit, Störungen zu absorbieren, sich daran anzupassen und sich davon zu erholen. Die operative Resilienz hilft Finanzinstituten, strenge regulatorische Anforderungen zu erfüllen. Außerdem können Sie so unzumutbare Schäden für Kunden vermeiden.

Die wichtigsten Bausteine der Zuverlässigkeit in Google Cloud sind Regionen, Zonen und die verschiedenen Standortbereiche von Cloud-Ressourcen: zonal, regional, multiregional und global. Sie können die Verfügbarkeit verbessern, indem Sie verwaltete Dienste verwenden, Ressourcen verteilen, Muster für hohe Verfügbarkeit implementieren und Prozesse automatisieren.

Regulatorische Vorgaben

FSI-Organisationen unterliegen strengen Zuverlässigkeitsanforderungen von Aufsichtsbehörden wie dem Federal Reserve System in den USA, der European Banking Authority in der EU und der Prudential Regulation Authority im Vereinigten Königreich. Weltweit betonen Aufsichtsbehörden die operative Resilienz, die für die Finanzstabilität und den Verbraucherschutz von entscheidender Bedeutung ist. Betriebliche Resilienz ist die Fähigkeit, Störungen zu widerstehen, sich effektiv zu erholen und kritische Dienste aufrechtzuerhalten. Dazu ist ein harmonisierter Ansatz für das Management von technologischen Risiken und Abhängigkeiten von Dritten erforderlich.

Die behördlichen Anforderungen in den meisten Gerichtsbarkeiten haben die folgenden gemeinsamen Themen:

  • Internetsicherheit und technologische Resilienz: Stärkung der Abwehr gegen Cyberbedrohungen und Sicherstellung der Resilienz von IT-Systemen.
  • Risikomanagement von Drittanbietern: Verwalten der Risiken, die mit der Auslagerung von Diensten an Anbieter von Informations- und Kommunikationstechnologie (IKT) verbunden sind.
  • Geschäftskontinuität und Reaktion auf Vorfälle: Robuste Planung zur Aufrechterhaltung kritischer Abläufe bei Störungen und zur effektiven Wiederherstellung.
  • Finanzstabilität schützen: Sicherstellung der Solidität und Stabilität des gesamten Finanzsystems.

Die Empfehlungen zur Zuverlässigkeit in diesem Dokument sind den folgenden Grundprinzipien zugeordnet:

Bereitstellungen in mehreren Zonen und Regionen priorisieren

Für kritische Anwendungen für Finanzdienstleistungen empfehlen wir, eine Multi-Region-Topologie zu verwenden, die auf mindestens zwei Regionen und auf drei Zonen in jeder Region verteilt ist. Dieser Ansatz ist wichtig, um die Resilienz gegenüber Zonen- und Regionsausfällen zu erhöhen. Dieser Ansatz ist oft gesetzlich vorgeschrieben, da die meisten Gerichtsbarkeiten einen schweren Ausfall in einer zweiten Zone als plausible Folge eines Ausfalls in einer Zone oder Region ansehen. Der Grund dafür ist, dass der andere Standort bei einem Ausfall eines Standorts möglicherweise eine außergewöhnlich hohe Menge an zusätzlichem Traffic empfängt.

Beachten Sie die folgenden Empfehlungen, um die Resilienz gegen Ausfälle von Zonen und Regionen zu erhöhen:

  • Ressourcen mit einem größeren geografischen Geltungsbereich werden bevorzugt. Verwenden Sie nach Möglichkeit regionale Ressourcen anstelle von zonalen Ressourcen und multiregionale oder globale Ressourcen anstelle von regionalen Ressourcen. Dieser Ansatz hilft, die Notwendigkeit zu vermeiden, Vorgänge mithilfe von Sicherungen wiederherzustellen.
  • Verwenden Sie in jeder Region drei statt zwei Zonen. Um Failover zu bewältigen, sollten Sie die Kapazität um ein Drittel über dem Schätzwert bereitstellen.
  • Minimieren Sie manuelle Wiederherstellungsschritte, indem Sie Active-Active-Bereitstellungen wie in den folgenden Beispielen implementieren:
    • Verteilte Datenbanken wie Spanner bieten integrierte Redundanz und Synchronisierung über Regionen hinweg.
    • Die HA-Funktion von Cloud SQL bietet eine Topologie, die nahezu aktiv-aktiv ist, mit zonenübergreifenden Lesereplikaten. Es bietet ein Recovery Point Objective (RPO) zwischen Regionen, das nahe 0 liegt.
  • Verteilen Sie den Nutzer-Traffic mithilfe von Cloud DNS auf Regionen und stellen Sie in jeder Region einen regionalen Load Balancer bereit. Ein globaler Load Balancer ist eine weitere Option, die Sie je nach Ihren Anforderungen und der Kritikalität in Betracht ziehen können. Weitere Informationen finden Sie unter Vorteile und Risiken des globalen Load-Balancings für multiregionale Bereitstellungen.
  • Verwenden Sie zum Speichern von Daten multiregionale Dienste wie Cloud Spanner und Cloud Storage.

Single Points of Failure beseitigen

Verteilen Sie Ressourcen auf verschiedene Standorte und verwenden Sie redundante Ressourcen, um zu verhindern, dass ein Single Point of Failure (SPOF) den gesamten Anwendungs-Stack beeinträchtigt.

Beachten Sie die folgenden Empfehlungen, um SPOFs zu vermeiden:

  • Stellen Sie nicht nur einen einzelnen Anwendungsserver oder eine einzelne Datenbank bereit.
  • Sorgen Sie dafür, dass fehlgeschlagene VMs automatisch neu erstellt werden, indem Sie verwaltete Instanzgruppen (MIGs) verwenden.
  • Verteilen Sie den Traffic gleichmäßig auf die verfügbaren Ressourcen, indem Sie Load-Balancing implementieren.
  • Verwenden Sie HA-Konfigurationen für Datenbanken wie Cloud SQL.
  • Die Datenverfügbarkeit mit regionalen nichtflüchtigen Speichern mit synchroner Replikation verbessern

Weitere Informationen finden Sie unter Zuverlässige Infrastruktur für Ihre Arbeitslasten in Google Cloud entwerfen.

Aggregierte Verfügbarkeit verstehen und verwalten

Die Gesamt- oder aggregierte Verfügbarkeit eines Systems wird durch die Verfügbarkeit jeder Ebene oder Komponente des Systems beeinflusst. Die Anzahl der Ebenen in einem Anwendungsstack hat eine umgekehrte Beziehung zur aggregierten Verfügbarkeit des Stacks. Beachten Sie die folgenden Empfehlungen zum Verwalten der aggregierten Verfügbarkeit:

  • Berechnen Sie die aggregierte Verfügbarkeit eines mehrschichtigen Stacks mit der Formel tier1_availability × tier2_availability × tierN_availability.

    Das folgende Diagramm zeigt die Berechnung der aggregierten Verfügbarkeit für ein mehrstufiges System, das aus vier Diensten besteht:

    Die Formel für die aggregierte Verfügbarkeit für einen mehrstufigen Dienst mit vier Diensten.

    Im vorherigen Diagramm bietet der Dienst in jeder Ebene eine Verfügbarkeit von 99,9 %, die aggregierte Verfügbarkeit des Systems ist jedoch mit 99,6% (0,999 × 0,999 × 0,999 × 0,999) niedriger. Im Allgemeinen ist die aggregierte Verfügbarkeit eines mehrstufigen Stacks geringer als die Verfügbarkeit der Stufe mit der geringsten Verfügbarkeit.

  • Wählen Sie nach Möglichkeit Parallelisierung anstelle von Verkettung aus. Bei parallelisierten Diensten ist die End-to-End-Verfügbarkeit höher als die Verfügbarkeit der einzelnen Dienste.

    Das folgende Diagramm zeigt zwei Dienste, A und B, die mit den Ansätzen für Verkettung und Parallelisierung bereitgestellt werden:

    Die Formeln für die aggregierte Verfügbarkeit für verkettete Dienste im Vergleich zu parallelisierten Diensten.

    In den vorherigen Beispielen haben beide Dienste ein SLA von 99 %. Daraus ergibt sich je nach Implementierungsansatz die folgende aggregierte Verfügbarkeit:

    • Verkettete Dienste ergeben eine aggregierte Verfügbarkeit von nur 98% (0,99 × 0,99).
    • Parallele Dienste bieten eine höhere Gesamtverfügbarkeit von 99,99 %, da jeder Dienst unabhängig ausgeführt wird und einzelne Dienste nicht von der Verfügbarkeit der anderen Dienste betroffen sind. Die Formel für aggregierte parallelisierte Dienste lautet 1 − (1 − A) × (1 − B).
  • Wählen Sie Google Cloud Dienste mit Uptime-SLAs aus, die dazu beitragen können, die erforderliche Gesamt-Uptime für Ihren Anwendungsstack zu erreichen.

  • Berücksichtigen Sie beim Entwerfen Ihrer Architektur die Kompromisse zwischen Verfügbarkeit, Betriebskomplexität, Latenz und Kosten. Eine höhere Anzahl von Neunen für die Verfügbarkeit kostet in der Regel mehr, hilft Ihnen aber, behördliche Anforderungen zu erfüllen.

    Eine Verfügbarkeit von 99, 9 % (drei Neunen) bedeutet beispielsweise eine potenzielle Ausfallzeit von 86 Sekunden pro Tag. Im Gegensatz dazu bedeutet eine Verfügbarkeit von 99 % (zwei Neunen) eine Ausfallzeit von 864 Sekunden im selben Zeitraum, was zehnmal mehr Ausfallzeit als bei einer Verfügbarkeit von 99, 9 % ist.

    Bei kritischen Finanzdienstleistungen sind die Architekturoptionen möglicherweise eingeschränkt. Es ist jedoch wichtig, die Verfügbarkeitsanforderungen zu ermitteln und die Verfügbarkeit genau zu berechnen. Eine solche Bewertung hilft Ihnen, die Auswirkungen Ihrer Designentscheidungen auf Ihre Architektur und Ihr Budget zu beurteilen.

Robuste Strategie zur Notfallwiederherstellung implementieren

Erstellen Sie klar definierte Pläne für verschiedene Katastrophenszenarien, einschließlich Ausfällen von Zonen und Regionen. Mit einer gut definierten Strategie zur Notfallwiederherstellung (Disaster Recovery, DR) können Sie sich von einer Störung erholen und den normalen Betrieb mit minimalen Auswirkungen wieder aufnehmen.

Notfallwiederherstellung und Hochverfügbarkeit sind unterschiedliche Konzepte. Bei Cloud-Bereitstellungen gilt DR in der Regel für multiregionale Bereitstellungen und HA für regionale Bereitstellungen. Diese Bereitstellungsarchetypen unterstützen verschiedene Replikationsmechanismen.

  • HA: Viele verwaltete Dienste bieten standardmäßig eine synchrone Replikation zwischen Zonen innerhalb einer einzelnen Region. Solche Dienste unterstützen ein Recovery Time Objective (RTO) und ein Recovery Point Objective (RPO) von null oder nahezu null. Diese Unterstützung ermöglicht es Ihnen, eine Aktiv-Aktiv-Bereitstellungstopologie ohne SPOF zu erstellen.
  • DR: Für Arbeitslasten, die in zwei oder mehr Regionen bereitgestellt werden, müssen Sie eine Replikationsstrategie definieren, wenn Sie keine multiregionalen oder globalen Dienste verwenden. Die Replikationsstrategie ist in der Regel asynchron. Bewerten Sie sorgfältig, wie sich die Replikation auf die RTO und RPO für kritische Anwendungen auswirkt. Identifizieren Sie die manuellen oder halbautomatischen Vorgänge, die für das Failover erforderlich sind.

Für Finanzinstitute kann die Auswahl der Failover-Region durch Vorschriften zur Datenhoheit und zum Datenstandort eingeschränkt sein. Wenn Sie eine Active-Active-Topologie über zwei Regionen hinweg benötigen, empfehlen wir die Verwendung verwalteter multiregionaler Dienste wie Spanner und Cloud Storage, insbesondere wenn die Datenreplikation wichtig ist.

Beachten Sie die folgenden Empfehlungen:

  • Verwenden Sie verwaltete multiregionale Speicherdienste für Daten.
  • Erstellen Sie Snapshots von Daten auf nichtflüchtigen Speichern und speichern Sie die Snapshots an multiregionalen Standorten.
  • Wenn Sie regionale oder zonale Ressourcen verwenden, richten Sie die Datenreplikation in andere Regionen ein.
  • Testen Sie den DR-Plan regelmäßig, um seine Effektivität zu prüfen.
  • Berücksichtigen Sie RTO und RPO und deren Zusammenhang mit der durch Finanzvorschriften in Ihrer Gerichtsbarkeit festgelegten Toleranz für Auswirkungen.

Weitere Informationen finden Sie unter Architektur der Notfallwiederherstellung bei Ausfällen der Cloud-Infrastruktur.

Verwaltete Dienste nutzen

Verwenden Sie nach Möglichkeit verwaltete Dienste, um die integrierten Funktionen für Sicherungen, Hochverfügbarkeit und Skalierbarkeit zu nutzen. Beachten Sie die folgenden Empfehlungen für die Verwendung verwalteter Dienste:

  • Verwenden Sie verwaltete Dienste in Google Cloud. Sie bieten Hochverfügbarkeit, die durch SLAs unterstützt wird. Außerdem bieten sie integrierte Sicherungsmechanismen und Funktionen zur Ausfallsicherheit.
  • Für die Datenverwaltung sollten Sie Dienste wie Cloud SQL, Cloud Storage und Spanner in Betracht ziehen.
  • Für Compute- und Anwendungshosting sollten Sie verwaltete Instanzgruppen (MIGs) von Compute Engine und Google Kubernetes Engine-Cluster (GKE) in Betracht ziehen. Regionale MIGs und regionale GKE-Cluster sind gegen Zonenausfälle resistent.
  • Verwenden Sie verwaltete multiregionale Dienste, um die Ausfallsicherheit bei regionalen Ausfällen zu verbessern.
  • Ermitteln Sie den Bedarf an Ausstiegsplänen für Dienste mit besonderen Merkmalen und definieren Sie die erforderlichen Pläne. Finanzaufsichtsbehörden wie die FCA, PRA und EBA verlangen von Unternehmen Strategien und Notfallpläne für den Datenabruf und die Betriebskontinuität, wenn die Beziehung zu einem Cloud-Anbieter endet. Unternehmen müssen die Machbarkeit des Ausstiegs bewerten, bevor sie Cloud-Verträge abschließen, und sie müssen die Möglichkeit haben, den Anbieter ohne Betriebsunterbrechung zu wechseln.
  • Prüfen Sie, ob die von Ihnen ausgewählten Dienste den Export von Daten in ein offenes Format wie CSV, Parquet und Avro unterstützen. Prüfen Sie, ob die Dienste auf offenen Technologien basieren, z. B. GKE-Unterstützung für das OCI-Format (Open Container Initiative) oder Cloud Composer, das auf Apache Airflow basiert.

Infrastrukturbereitstellung und ‑wiederherstellung automatisieren

Automatisierung trägt dazu bei, menschliche Fehler zu minimieren und den Zeit- und Ressourcenaufwand für die Reaktion auf Vorfälle zu reduzieren. Durch den Einsatz von Automatisierung können Fehler schneller behoben und konsistentere Ergebnisse erzielt werden. Beachten Sie die folgenden Empfehlungen, um die Bereitstellung und Wiederherstellung von Ressourcen zu automatisieren:

  • Menschliche Fehler minimieren, indem Sie IaC-Tools (Infrastruktur als Code) wie Terraform verwenden.
  • Reduzieren Sie manuelle Eingriffe durch die Automatisierung von Failover-Prozessen. Automatisierte Antworten können auch dazu beitragen, die Auswirkungen von Fehlern zu reduzieren. Sie können beispielsweise Eventarc oder Workflows verwenden, um automatisch Abhilfemaßnahmen als Reaktion auf Probleme auszulösen, die in Audit-Logs beobachtet werden.
  • Erhöhen Sie die Kapazität Ihrer Cloud-Ressourcen während des Failovers mithilfe von Autoscaling.
  • Wenden Sie während der Dienstbereitstellung automatisch Richtlinien und Schutzmaßnahmen für behördliche Anforderungen in Ihrer Cloud-Topologie an, indem Sie Platform Engineering einsetzen.

FSI-Perspektive: Kostenoptimierung

Dieses Dokument im Google Cloud Well-Architected Framework: FSI perspective bietet einen Überblick über Prinzipien und Empfehlungen zur Optimierung der Kosten Ihrer Arbeitslasten für die Finanzdienstleistungsbranche (Financial Services Industry, FSI) in Google Cloud. Die Empfehlungen in diesem Dokument stimmen mit dem Pfeiler zur Kostenoptimierung des Well-Architected Framework überein.

Für eine robuste Kostenoptimierung von Arbeitslasten für Finanzdienstleistungen sind die folgenden grundlegenden Elemente erforderlich:

  • Sie können ineffiziente von wertsteigernder Ressourcennutzung unterscheiden.
  • Eine eingebettete Kultur der finanziellen Rechenschaftspflicht.

Um die Kosten zu optimieren, benötigen Sie ein umfassendes Verständnis der Kostentreiber und des Ressourcenbedarfs in Ihrem gesamten Unternehmen. In einigen großen Organisationen, insbesondere in der Anfangsphase der Cloud-Einführung, ist oft ein einzelnes Team für die Optimierung der Ausgaben in einer Vielzahl von Bereichen verantwortlich. Bei diesem Ansatz wird davon ausgegangen, dass ein zentrales Team am besten in der Lage ist, zentrale Möglichkeiten zur Verbesserung der Effizienz zu identifizieren.

Der zentralisierte Ansatz kann in den ersten Phasen der Cloud-Einführung oder für nicht kritische Arbeitslasten erfolgreich sein. Ein einzelnes Team kann jedoch nicht die Kostenoptimierung für die gesamte Organisation vorantreiben. Wenn die Ressourcennutzung oder die behördliche Prüfung zunimmt, ist der zentralisierte Ansatz nicht mehr nachhaltig. Zentrale Teams haben vor allem bei einer großen Anzahl von Finanzprodukten und ‑dienstleistungen mit Skalierbarkeitsproblemen zu kämpfen. Die Projektteams, die für die Produkte und Dienste verantwortlich sind, wehren sich möglicherweise gegen Änderungen, die von einem externen Team vorgenommen werden.

Für eine effektive Kostenoptimierung müssen ausgabenbezogene Daten gut sichtbar sein. Außerdem müssen Entwickler und andere Cloud-Nutzer, die sich mit den Arbeitslasten auskennen, motiviert werden, Maßnahmen zur Kostenoptimierung zu ergreifen. Aus organisatorischer Sicht besteht die Herausforderung bei der Kostenoptimierung darin, die Bereiche zu identifizieren, die optimiert werden sollten, die für diese Bereiche verantwortlichen Entwickler zu ermitteln und sie dann davon zu überzeugen, die erforderlichen Optimierungsmaßnahmen zu ergreifen. Dieses Dokument enthält Empfehlungen, wie Sie diese Herausforderung meistern können.

Die Empfehlungen zur Kostenoptimierung in diesem Dokument sind den folgenden Grundsätzen zugeordnet:

Ineffiziente Nutzung mit Google Cloud -Tools ermitteln

Google Cloud bietet verschiedene Produkte, Tools und Funktionen, mit denen Sie Verschwendung erkennen können. Beachten Sie die folgenden Empfehlungen.

Automatisierung und KI nutzen, um systematisch zu ermitteln, was optimiert werden muss

Active Assist bietet intelligente Empfehlungen für Dienste, die für Finanzinstitute wichtig sind, z. B. Cloud Run für Microservices, BigQuery für Datenanalysen, Compute Engine für Kernanwendungen und Cloud SQL für relationale Datenbanken. Active Assist-Empfehlungen werden kostenlos und ohne Konfiguration durch Sie bereitgestellt. Mithilfe der Empfehlungen können Sie inaktive Ressourcen und nicht ausgelastete Zusicherungen identifizieren.

FinOps-Monitoring und -Steuerung über eine einheitliche Oberfläche zentralisieren

Mit Cloud Billing-Berichten und dem FinOps-Hub können Sie ein umfassendes Kostenmonitoring implementieren. Diese umfassende Ansicht ist für Finanzprüfer und interne Finanzteams unerlässlich, um Cloud-Ausgaben nachzuvollziehen, die finanzielle Situation zu bewerten, die FinOps-Reife in verschiedenen Geschäftsbereichen oder Kostenstellen zu beurteilen und eine konsistente finanzielle Darstellung zu ermöglichen.

Wert ermitteln, indem Ausgabendaten analysiert und angereichert werden

Active Assist kann offensichtliche Verschwendung effektiv erkennen. Es kann jedoch schwieriger sein, den Wert zu ermitteln, insbesondere wenn Arbeitslasten auf ungeeigneten Produkten ausgeführt werden oder wenn die Arbeitslasten nicht klar auf den Geschäftswert ausgerichtet sind. Bei Arbeitslasten für Finanzdienstleistungen und Versicherungen geht der geschäftliche Nutzen über die Kostensenkung hinaus. Dazu gehören Risikominderung, Einhaltung von Vorschriften und Wettbewerbsvorteile.

Um die Cloud-Ausgaben und den Wert ganzheitlich zu erfassen, benötigen Sie ein umfassendes Verständnis auf mehreren Ebenen: Woher kommen die Ausgaben, welche Geschäftsfunktion wird durch die Ausgaben unterstützt und wie realistisch ist es, die betreffende Arbeitslast zu refaktorieren oder zu optimieren?

Das folgende Diagramm zeigt, wie Sie die DIKW-Pyramide (Data-Information-Knowledge-Wisdom) und Google Cloud -Tools verwenden können, um ein ganzheitliches Verständnis von Cloud-Kosten und -Wert zu erhalten.

Die DIKW-Pyramide (Data-Information-Knowledge-Wisdom) zeigt, wie Sie Daten zu Cloud-Ausgaben nutzen können, um fundierte Entscheidungen zu treffen.

Das obige Diagramm zeigt, wie Sie mit dem DIKW-Ansatz Rohdaten zu Cloud-Ausgaben in umsetzbare Erkenntnisse und Entscheidungen umwandeln können, die den Geschäftswert steigern.

  • Daten: In dieser Ebene erfassen Sie Rohdatenstreams zu Nutzungs- und Kostendaten für Ihre Cloud-Ressourcen. Ihr zentrales FinOps-Team verwendet Tools wie Cloud Billing-Rechnungen, Abrechnungsexporte und Cloud Monitoring, um detaillierte Daten zu erhalten. Ein Beispiel: Eine VM mit dem Namen app1-test-vmA wurde 730 Stunden lang in der Region us-central1 ausgeführt und hat 70 $ gekostet.
  • Informationen: In dieser Ebene verwendet Ihr zentrales FinOps-Team Tools wie Cloud Billing-Berichte und den FinOps Hub, um die Rohdaten zu strukturieren und Fragen wie „Für welche Ressourcenkategorien geben Nutzer Geld aus?“ zu beantworten. Beispielsweise stellen Sie fest, dass insgesamt 1.050 $ für VMs des Maschinentyps „n4-standard-2“ in zwei Regionen in den USA ausgegeben wurden.
  • Wissen: In dieser Ebene reichert Ihr zentrales FinOps-Team Informationen mit dem entsprechenden geschäftlichen Kontext an, um zu ermitteln, wer Geld ausgegeben hat und zu welchem Zweck. Sie verwenden Mechanismen wie Tagging, Labeling, Ressourcenhierarchie, Abrechnungskonten und benutzerdefinierte Looker-Dashboards. So stellen Sie beispielsweise fest, dass das app1-Testteam in den USA in der zweiten Juliwoche im Rahmen eines Stresstests 650 $ ausgegeben hat.
  • Wisdom (Weisheit): In dieser Ebene nutzen Ihre Produkt- und Anwendungsteams das kontextbezogene Wissen, um den geschäftlichen Wert von Cloud-Ausgaben zu bewerten und fundierte, strategische Entscheidungen zu treffen. Ihre Teams können Fragen wie die folgenden beantworten:
    • Wird durch die 5.000 $, die für eine Datenanalyse-Pipeline ausgegeben wurden, ein geschäftlicher Wert generiert?
    • Können wir die Pipeline so umgestalten, dass sie effizienter ist, ohne die Leistung zu beeinträchtigen?

Beachten Sie die folgenden Empfehlungen für die Analyse von Cloud-Ausgabendaten.

Ausgabendaten analysieren, die von Google Cloudbereitgestellt werden

Beginnen Sie mit detaillierten Cloud Billing-Daten, die nach BigQuery exportiert werden, und Daten, die in Monitoring-Logs verfügbar sind. Um umsetzbare Informationen zu erhalten und Entscheidungen zu treffen, müssen Sie diese Daten strukturieren und mit Geschäftskontext anreichern.

Daten mit den verfügbaren Tools visualisieren

Ergänzen Sie die integrierten Google Cloud Dashboards mit benutzerdefinierten Berichten, indem Sie Tools wie Looker Studio für BigQuery-Exporte verwenden. Finanzteams können benutzerdefinierte Dashboards erstellen, in denen die Cloud-Ausgaben in Bezug auf Finanzmesswerte, Anforderungen für behördliche Berichte und die Rentabilität von Geschäftsbereichen dargestellt werden. So können sie eine klare finanzielle Darstellung für die Analyse und Entscheidungsfindung durch Führungskräfte erstellen.

Ausgaben zuweisen, um die Verantwortlichkeit zu erhöhen

Nachdem Sie die Ursachen für die Cloud-Ausgaben ermittelt haben, müssen Sie herausfinden, wer Geld ausgibt und warum. Für dieses Verständnis ist eine robuste Kostenaufteilung erforderlich, bei der geschäftsrelevante Metadaten an Cloud-Ressourcen angehängt werden. Wenn eine bestimmte Ressource beispielsweise vom Banking-AppDev-Team verwendet wird, können Sie der Ressource ein Tag wie team=banking_appdev hinzufügen, um die Kosten zu erfassen, die dem Team für diese Ressource entstehen. Im Idealfall sollten Sie 100% Ihrer Cloud-Kosten der Quelle der Ausgaben zuordnen. In der Praxis beginnen Sie möglicherweise mit einem niedrigeren Ziel, da der Aufbau einer Metadatenstruktur zur Unterstützung einer 100-prozentigen Kostenaufteilung komplex ist.

Beachten Sie die folgenden Empfehlungen, um eine Metadatenstrategie zur Unterstützung der Kostenaufteilung zu entwickeln:

  • Gültigkeit: Die Tags müssen dazu beitragen, geschäftsbezogene Leistungskennzahlen (KPIs) und gesetzliche Anforderungen zu ermitteln. Diese Zuordnung ist entscheidend für interne Rückbelastungen, behördliche Berichte und die Abstimmung von Cloud-Ausgaben mit den Zielen der Geschäftseinheit. Die folgenden Tags identifizieren beispielsweise eindeutig ein Ausgabenteam, seine Region und das Produkt, an dem es arbeitet: team=banking_appdev, region=emea, product=frontend.
  • Automatisierung: Um ein hohes Maß an Tagging-Compliance zu erreichen, sollten Sie das Tagging durch Automatisierung erzwingen. Die manuelle Kennzeichnung ist fehleranfällig und führt oft zu Inkonsistenzen. Das ist in Finanzdienstleistungsumgebungen, in denen Prüfbarkeit und finanzielle Genauigkeit von größter Bedeutung sind, nicht akzeptabel. Durch automatisches Tagging werden Ressourcen bei der Erstellung richtig kategorisiert.
  • Einfachheit: Messen Sie einfache, nicht korrelierte Faktoren. FSI-Umgebungen sind komplex. Damit die Regeln für die Kostenaufteilung in einer solchen Umgebung leicht verständlich und durchsetzbar sind, müssen sie so einfach wie möglich sein. Vermeiden Sie es, die Regeln für sehr spezifische Grenzfälle zu kompliziert zu gestalten. Komplexe Regeln können zu Verwirrung und Widerstand bei den operativen Teams führen.

Nachdem Sie eine Zuweisungsstrategie mithilfe von Tags definiert haben, müssen Sie den Granularitätsgrad festlegen, auf dem die Strategie implementiert werden soll. Die erforderliche Granularität hängt von Ihren Geschäftsanforderungen ab. Einige Organisationen müssen beispielsweise die Kosten auf Produktebene erfassen, andere benötigen Kostendaten für jede Kostenstelle und wieder andere Kostendaten pro Umgebung (Entwicklung, Staging und Produktion).

Mit den folgenden Ansätzen können Sie die Kostenaufschlüsselung für Ihre Organisation optimieren:

  • Verwenden Sie die Projekthierarchie in Google Cloud als natürlichen Ausgangspunkt für die Kostenaufteilung. Projekte stellen Punkte der Richtliniendurchsetzung in Google Clouddar. Standardmäßig werden IAM-Berechtigungen, Sicherheitsrichtlinien und Kosten Projekten und Ordnern zugeordnet. Wenn Sie Kostendaten prüfen, die aus der Cloud-Abrechnung exportiert wurden, können Sie die Ordnerhierarchie und die Projekte sehen, die mit den Kostendaten verknüpft sind. Wenn IhreGoogle Cloud Ressourcenhierarchie die Verantwortlichkeitsstruktur Ihrer Organisation für Ausgaben widerspiegelt, ist dies die einfachste Möglichkeit, die Kostenzuordnung zu implementieren.
  • Verwenden Sie Tags und Labels, um die Daten noch genauer zu analysieren. Sie bieten flexible Möglichkeiten, Ressourcen in Abrechnungsexporten zu kategorisieren. Tags und Labels ermöglichen detaillierte Kostenaufschlüsselungen nach Anwendung und Umgebung.

Häufig müssen Sie die Projekthierarchie in Kombination mit Tagging und Labeling verwenden, um Kosten effektiv zuzuordnen. Unabhängig davon, welchen Ansatz Sie für die Kostenaufteilung wählen, sollten Sie die oben beschriebenen Empfehlungen für die Entwicklung einer robusten Metadatenstrategie befolgen: Validierung, Automatisierung und Einfachheit.

Verantwortlichkeit fördern und Entwickler zu Maßnahmen motivieren

Das Cloud FinOps-Team ist dafür verantwortlich, dass sich eine Organisation der Kosten und des Werts bewusst ist. Die einzelnen Produkt- und Entwicklungsteams müssen die erforderlichen Maßnahmen zur Kostenoptimierung ergreifen. Diese Teams sind auch für das Kostenverhalten der Arbeitslasten für Finanzdienstleistungen verantwortlich und dafür, dass ihre Arbeitslasten den erforderlichen Geschäftswert bieten.

Mit den folgenden Empfehlungen können Sie die Verantwortlichkeit fördern und Teams motivieren, Kosten zu optimieren.

Zentrales FinOps-Team für Governance einrichten

Cloud FinOps-Praktiken entwickeln sich nicht von selbst. Ein dediziertes FinOps-Team muss FinOps-Praktiken definieren und einführen. Dazu sind folgende Schritte erforderlich:

  • Erstellen Sie die erforderlichen Prozesse, Tools und Anleitungen.
  • Erstellen, kommunizieren und erzwingen Sie die erforderlichen Richtlinien, z. B. obligatorische Tagging-, Budgetprüfungs- und Optimierungsprozesse.
  • Entwicklungsteams dazu anhalten, die Kostenverantwortung zu übernehmen
  • Greifen Sie ein, wenn die Entwicklungsteams keine Verantwortung für die Kosten übernehmen.

Unterstützung und Mandate von Führungskräften erhalten

Die Führungsebene, einschließlich CTO, CFO und CIO, muss sich aktiv für eine unternehmensweite Umstellung auf eine FinOps-Kultur einsetzen. Ihre Unterstützung ist entscheidend, um die Kostenverantwortung zu priorisieren, Ressourcen für das FinOps-Programm zuzuweisen, die funktionsübergreifende Teilnahme zu gewährleisten und die Einhaltung der FinOps-Anforderungen zu fördern.

Teams dazu anregen, Kosten zu optimieren

Ingenieure und Engineering-Teams sind möglicherweise nicht motiviert, sich auf die Kostenoptimierung zu konzentrieren. Es ist wichtig, Team- und Einzelziele mit Kosteneffizienz in Einklang zu bringen, indem Sie Anreize wie die folgenden schaffen:

  • Einen Teil der Einsparungen aus der Kostenoptimierung in die Teams reinvestieren, die die Optimierung erreicht haben.
  • Erfolge und Bemühungen zur Kostenoptimierung öffentlich anerkennen und feiern.
  • Setzen Sie Gamification-Techniken ein, um Teams zu belohnen, die Kosten effektiv optimieren.
  • Effizienzmesswerte in Leistungsziele einbeziehen

Showback- und Chargeback-Techniken implementieren

Sorgen Sie dafür, dass Teams einen klaren Überblick über die Cloud-Ressourcen und -Kosten haben, für die sie verantwortlich sind. Weisen Sie den entsprechenden Personen in den Teams die finanzielle Verantwortung zu. Verwenden Sie formale Mechanismen, um eine strenge Tagging-Praxis durchzusetzen und transparente Regeln für die Zuweisung gemeinsamer Kosten zu implementieren.

Fokus auf Wert und Gesamtbetriebskosten statt auf Kosten

Berücksichtigen Sie bei der Bewertung von Cloud-Lösungen die langfristigen Gesamtbetriebskosten. So kann das Selbsthosting einer Datenbank für eine Anwendung beispielsweise günstiger erscheinen als die Verwendung eines verwalteten Datenbankdienstes wie Cloud SQL. Um den langfristigen Wert und die Gesamtbetriebskosten zu ermitteln, müssen Sie jedoch die versteckten Kosten berücksichtigen, die mit selbst gehosteten Datenbanken verbunden sind. Zu diesen Kosten gehören der spezielle technische Aufwand für das Patchen, Skalieren, die Sicherheitsoptimierung und die Notfallwiederherstellung, die kritische Anforderungen für FSI-Arbeitslasten sind. Managed Services bieten einen deutlich höheren langfristigen Nutzen, der die Infrastrukturkosten ausgleicht. Verwaltete Dienste bieten robuste Compliance-Funktionen, haben integrierte Zuverlässigkeitsfunktionen und können dazu beitragen, den Betriebsaufwand zu reduzieren.

Beachten Sie die folgenden Empfehlungen, um sich auf Wert und TCO zu konzentrieren.

Produktspezifische Techniken und Tools zur Ressourcenoptimierung verwenden

Nutzen Sie Tools und Funktionen zur Kostenoptimierung, die von Google Cloud-Produkten bereitgestellt werden, z. B.:

Rabatte nutzen

Sorgen Sie dafür, dass der Abrechnungssatz für Ihre Cloud-Ressourcen so niedrig wie möglich ist, indem Sie von Google angebotene Rabatte nutzen. Die einzelnen Produkt- und Entwicklungsteams sind in der Regel für die Ressourcenoptimierung zuständig. Das zentrale FinOps-Team ist für die Optimierung der Abrechnungspreise verantwortlich, da es die Ressourcenanforderungen der gesamten Organisation im Blick hat. So können sie die Anforderungen zusammenfassen und die rabattierten Preise für Zusagen maximieren.

Sie können die folgenden Arten von Rabatten fürGoogle Cloud -Ressourcen nutzen:

  • Enterprise-Rabatte sind ausgehandelte Rabatte, die auf der Zusicherung Ihrer Organisation basieren, einen Mindestbetrag für Google Cloud zu einem reduzierten Abrechnungssatz auszugeben.
  • Ressourcenbasierte CUDs erhalten Sie im Gegenzug für die Zusicherung, über einen Zeitraum von einem oder drei Jahren eine Mindestmenge an Compute Engine-Ressourcen zu nutzen. Ressourcenbasierte CUDs gelten für die Ressourcen, die sich in einem bestimmten Projekt und einer bestimmten Region befinden. Wenn Sie Rabatte für zugesicherte Nutzung auf mehrere Projekte aufteilen möchten, können Sie die Rabattfreigabe aktivieren.
  • Ausgabenbasierte CUDs erhalten Sie, wenn Sie sich verpflichten, über einen Zeitraum von einem oder drei Jahren einen Mindestbetrag für ein bestimmtes Produkt auszugeben. Ausgabenbasierte Rabatte gelten auf Rechnungskontoebene. Die Rabatte werden je nach Produkt regional oder global angewendet.

Sie können erhebliche Einsparungen erzielen, wenn Sie Rabatte für zugesicherte Nutzung zusätzlich zu Unternehmensrabatten nutzen.

Zusätzlich zu CUDs können Sie die folgenden Ansätze verwenden, um die Abrechnungssätze zu senken:

  • Verwenden Sie Spot-VMs für fehlertolerante und flexible Arbeitslasten. Spot-VMs sind mehr als 80% günstiger als reguläre VMs.
  • BigQuery bietet mehrere Preismodelle, darunter On-Demand-Preise und versionsbasierte Preise, die auf Zusagen und Autoscaling-Anforderungen basieren. Wenn Sie eine große Menge an BigQuery-Ressourcen verwenden, sollten Sie eine geeignete Version auswählen, um die Kosten pro Slot für Analysearbeitslasten zu senken.
  • Prüfen Sie sorgfältig die verfügbaren Google Cloud Regionen für die Dienste, die Sie verwenden müssen. Wählen Sie Regionen aus, die Ihren Kostenzielen und Faktoren wie Latenz und Compliance-Anforderungen entsprechen. Mit dem Google Cloud Region Picker können Sie die Kompromisse zwischen Kosten, Nachhaltigkeit und Latenz nachvollziehen.

FSI-Perspektive: Leistungsoptimierung

Dieses Dokument im Google Cloud Well-Architected Framework: FSI perspective bietet einen Überblick über Prinzipien und Empfehlungen zur Optimierung der Leistung Ihrer Arbeitslasten für die Finanzdienstleistungsbranche (Financial Services Industry, FSI) in Google Cloud. Die Empfehlungen in diesem Dokument entsprechen der Säule zur Leistungsoptimierung des Well-Architected Framework.

Die Leistungsoptimierung hat in der Finanzdienstleistungsbranche eine lange Tradition. Sie hat Finanzinstituten geholfen, technische Herausforderungen zu meistern, und war fast immer ein Enabler oder Beschleuniger für die Entwicklung neuer Geschäftsmodelle. Geldautomaten (1967 eingeführt) haben beispielsweise die Bargeldausgabe automatisiert und Banken geholfen, die Kosten ihres Kerngeschäfts zu senken. Techniken wie das Umgehen des Betriebssystemkernels und das Anpinnen von Anwendungs-Threads an Rechenkerne trugen dazu bei, deterministische und niedrige Latenzzeiten für Trading-Anwendungen zu erreichen. Die geringere Latenz führte zu einer höheren und stabileren Liquidität mit geringeren Spreads an den Finanzmärkten.

Die Cloud bietet neue Möglichkeiten zur Leistungsoptimierung. Außerdem werden einige der bisher akzeptierten Optimierungsmuster infrage gestellt. Insbesondere die folgenden Kompromisse sind in der Cloud transparenter und besser steuerbar:

  • Produkteinführungszeit im Vergleich zu Kosten.
  • End-to-End-Leistung auf Systemebene im Vergleich zur Leistung auf Knotenebene.
  • Verfügbarkeit von Fachkräften im Vergleich zur Agilität der technologiebezogenen Entscheidungsfindung.

So ist es beispielsweise in der Cloud ganz einfach, Hardware und IT-Ressourcen an bestimmte Kompetenzanforderungen anzupassen. Zur Unterstützung der GPU-Programmierung können Sie ganz einfach GPU-basierte VMs erstellen. Sie können die Kapazität in der Cloud skalieren, um Nachfragespitzen zu bewältigen, ohne Ressourcen überzubereitstellen. So können Sie sicherstellen, dass Ihre Arbeitslasten Spitzenlasten bewältigen können, z. B. an Tagen, an denen die Lohn- und Gehaltsabrechnungen außerhalb der Landwirtschaft veröffentlicht werden, und wenn das Handelsvolumen deutlich höher ist als in der Vergangenheit. Anstatt hochoptimierten Code auf der Ebene einzelner Server (z. B. hochgradig optimierter Code in der Sprache C) oder Code für herkömmliche Hochleistungs-Computing-Umgebungen (HPC) zu schreiben, können Sie optimal skalieren, indem Sie ein gut strukturiertes Kubernetes-basiertes verteiltes System verwenden.

Die Empfehlungen zur Leistungsoptimierung in diesem Dokument sind den folgenden Grundprinzipien zugeordnet:

Technologie-Leistungsmesswerte an wichtigen Geschäftskennzahlen ausrichten

Sie haben mehrere Möglichkeiten, die Leistungsoptimierung den Geschäftsergebnissen zuzuordnen. In einem Buy-Side-Research-Desk könnte ein Geschäftsziel beispielsweise darin bestehen, die Leistung pro Forschungsstunde zu optimieren oder Experimente von Teams mit einer nachgewiesenen Erfolgsbilanz zu priorisieren, z. B. mit höheren Sharpe Ratios. Auf der Verkaufsseite können Sie mit Analysen das Interesse der Kunden verfolgen und den Durchsatz zu KI-Modellen, die die interessantesten Recherchen unterstützen, entsprechend priorisieren.

Es ist auch wichtig, Leistungsziele mit wichtigen KPIs (Key Performance Indicators) des Unternehmens zu verknüpfen, um Leistungsverbesserungen zu finanzieren. Initiativen zur geschäftlichen Innovation und Transformation (manchmal auch als Change-the-Bank-Bemühungen bezeichnet) haben unterschiedliche Budgets und möglicherweise unterschiedliche Zugriffsrechte auf Ressourcen im Vergleich zu BAU- oder Run-the-Bank-Vorgängen. Google Cloud hat beispielsweise die Risikomanagement- und Technologieteams eines G-SIFI unterstützt,mit den quantitativen Analysten des Frontoffice an einer Lösung für die Durchführung von Risikoanalyseberechnungen (z. B. XVA) in Minuten statt Stunden oder Tagen zusammenzuarbeiten. Mit dieser Lösung konnte die Organisation die relevanten Compliance-Anforderungen erfüllen. Außerdem konnten die Händler so qualitativ hochwertigere Gespräche mit ihren Kunden führen und möglicherweise engere Spreads, eine stabilere Liquidität und kostengünstigere Absicherungen anbieten.

Wenn Sie Ihre Leistungsmesswerte an Geschäftsindikatoren anpassen, sollten Sie die folgenden Empfehlungen berücksichtigen:

  • Verknüpfen Sie jede Technologieinitiative mit den relevanten Geschäftszielen und ‑schlüsselergebnissen (Objectives and Key Results, OKRs), z. B. mit der Steigerung von Umsatz oder Gewinn, der Senkung von Kosten und der effizienteren oder ganzheitlicheren Risikominderung.
  • Konzentrieren Sie sich auf die Optimierung der Leistung auf Systemebene. Sehen Sie über die herkömmliche Trennung zwischen „Change the Bank“ und „Run the Bank“ sowie zwischen Front- und Backoffice hinaus.

Sicherheit priorisieren, ohne die Leistung für unbewiesene Risiken zu beeinträchtigen

Sicherheit und Einhaltung von Vorschriften in FSI-Organisationen müssen zweifelsfrei auf hohem Niveau sein. Ein hoher Standard ist unerlässlich, um Kunden nicht zu verlieren und irreparablen Schaden für die Marke eines Unternehmens zu vermeiden. Der größte Mehrwert wird oft durch technologische Innovationen wie generative KI und einzigartige verwaltete Dienste wie Spanner erzielt. Solche Technologieoptionen sollten nicht automatisch aufgrund eines pauschalen Missverständnisses über ein unvertretbares Betriebsrisiko oder eine unzureichende Einhaltung von Vorschriften verworfen werden.

Google Cloud hat eng mit G-SIFIs zusammengearbeitet, um sicherzustellen, dass ein KI-basierter Ansatz für Anti-Money Laundering (AML) in allen Gerichtsbarkeiten verwendet werden kann, in denen die Institutionen Kunden bedienen. HSBC hat die Leistung seiner Einheit für Finanzkriminalität (Fincrime) deutlich verbessert. Die Ergebnisse sind:

  • Fast zwei- bis viermal mehr bestätigte verdächtige Aktivitäten.
  • Senkung der Betriebskosten durch Eliminierung von über 60% der falsch positiven Ergebnisse und Konzentration der Untersuchungszeit auf risikoreiche, umsetzbare Benachrichtigungen.
  • Prüfbare und erklärbare Ergebnisse zur Unterstützung der Einhaltung gesetzlicher Vorschriften.

Beachten Sie die folgenden Empfehlungen:

  • Prüfen Sie, ob die Produkte, die Sie verwenden möchten, die Sicherheits-, Resilienz- und Complianceanforderungen für die Gerichtsbarkeiten erfüllen, in denen Sie tätig sind. Um dieses Ziel zu erreichen, arbeiten Sie mit Google CloudAccount-Management-, Risikomanagement- und Produktteams zusammen.
  • Leistungsfähigere Modelle erstellen und Kunden durch KI-Erläuterungen (z. B. Shapley-Wert-Attribution) mehr Transparenz bieten. Mit Techniken wie der Shapley-Wert-Attribution können Modellentscheidungen bestimmten Features auf der Eingabeebene zugeordnet werden.
  • Sorgen Sie für Transparenz bei generativen KI-Arbeitslasten, indem Sie Techniken wie Quellenangaben, Grounding und RAG verwenden.

  • Wenn die Erklärbarkeit nicht ausreicht, trennen Sie die Entscheidungsschritte in Ihren Wertströmen und verwenden Sie KI nur, um die Schritte zu automatisieren, bei denen keine Entscheidungen getroffen werden müssen. In einigen Fällen reicht erklärbare KI möglicherweise nicht aus oder ein Prozess erfordert aufgrund von behördlichen Bedenken (z. B. DSGVO, Artikel 22) menschliches Eingreifen. Stellen Sie in solchen Fällen alle Informationen, die der Kundenservicemitarbeiter für die Entscheidungsfindung benötigt, in einem einzigen Steuerfeld dar, automatisieren Sie jedoch die Aufgaben zum Erfassen, Aufnehmen, Bearbeiten und Zusammenfassen von Daten.

Architektur an neue Möglichkeiten und Anforderungen anpassen

Wenn Sie Ihre aktuellen Architekturen mit cloudbasierten Funktionen erweitern, kann das einen erheblichen Mehrwert bieten. Um transformative Ergebnisse zu erzielen, müssen Sie Ihre Architektur regelmäßig mit einem Cloud-First-Ansatz überdenken.

Beachten Sie die folgenden Empfehlungen, um die Architektur Ihrer Arbeitslasten regelmäßig zu überdenken und die Leistung weiter zu optimieren.

Cloudbasierte Alternativen zu lokalen HPC-Systemen und ‑Schedulern verwenden

Um von höherer Elastizität, einem verbesserten Sicherheitsstatus und umfassenden Monitoring- und Governance-Funktionen zu profitieren, können Sie HPC-Arbeitslasten in der Cloud ausführen oder lokale Arbeitslasten in die Cloud verlagern. Für bestimmte Anwendungsfälle der numerischen Modellierung wie die Simulation von Anlagestrategien oder die XVA-Modellierung kann die Kombination von Kubernetes mit Kueue jedoch eine leistungsstärkere Lösung bieten.

Auf grafische Programmierung für Simulationen umstellen

Monte-Carlo-Simulationen sind in einem auf Graphen basierenden Ausführungssystem wie Dataflow möglicherweise viel leistungsfähiger. HSBC verwendet Dataflow beispielsweise, um Risikoberechnungen 16-mal schneller als mit dem bisherigen Ansatz auszuführen.

Cloudbasierte Börsen und Handelsplattformen betreiben

Gespräche mit Google Cloud Kunden haben ergeben, dass das Pareto-Prinzip (80/20) auf die Leistungsanforderungen von Märkten und Handelsanwendungen zutrifft.

  • Für mehr als 80% der Trading-Anwendungen ist keine extrem niedrige Latenz erforderlich. Sie profitieren jedoch erheblich von den Funktionen der Cloud in Bezug auf Resilienz, Sicherheit und Elastizität. Ein Beispiel ist BidFX, eine Multi-Dealer-Plattform für Devisen, die die Cloud nutzt, um schnell neue Produkte einzuführen und Verfügbarkeit und Präsenz deutlich zu steigern, ohne Ressourcen zu erhöhen.
  • Die verbleibenden Anwendungen (weniger als 20%) erfordern eine niedrige Latenz (weniger als eine Millisekunde), Determinismus und Fairness bei der Zustellung von Nachrichten. Konventionell werden diese Systeme in starren und teuren Colocation-Einrichtungen betrieben. Auch diese Kategorie von Anwendungen wird zunehmend in die Cloud migriert, entweder am Edge oder als Cloud-First-Anwendungen.

Technologie zukunftssicher machen, um aktuelle und zukünftige Geschäftsanforderungen zu erfüllen

In der Vergangenheit haben viele Finanzinstitute eigene Technologien entwickelt, um sich einen Wettbewerbsvorteil zu verschaffen. Beispielsweise hatten erfolgreiche Investmentbanken und Handelsunternehmen in den frühen 2000er-Jahren eigene Implementierungen von grundlegenden Technologien wie Pub/Sub-Systemen und Message-Brokern. Mit der Entwicklung von Open-Source-Technologien und der Cloud sind solche Technologien zu Commodities geworden und bieten keinen zusätzlichen geschäftlichen Mehrwert.

Beachten Sie die folgenden Empfehlungen, um Ihre Technologie zukunftssicher zu machen.

Einführung eines Data-as-a-Service-Ansatzes (DaaS) für eine schnellere Markteinführung und Kostentransparenz

FSI-Organisationen entwickeln sich oft durch eine Kombination aus organischem Wachstum und Fusionen und Übernahmen (Mergers and Acquisitions, M&A). Daher müssen die Organisationen unterschiedliche Technologien integrieren. Außerdem müssen sie doppelte Ressourcen wie Datenanbieter, Datenlizenzen und Integrationspunkte verwalten. Google Cloud bietet Möglichkeiten, um bei Integrationen nach Fusionen einen differenzierten Mehrwert zu schaffen.

Sie können beispielsweise Dienste wie BigQuery-Freigabe verwenden, um eine analysebereite Data-as-a-Service-Plattform (DaaS) zu erstellen. Die Plattform kann sowohl Marktdaten als auch Eingaben aus alternativen Quellen liefern. So müssen keine redundanten Datenpipelines erstellt werden und Sie können sich auf wichtigere Initiativen konzentrieren. Außerdem können die fusionierten oder übernommenen Unternehmen ihre Anforderungen an die Datenlizenzierung und Infrastruktur nach der Fusion schnell und effizient rationalisieren. Statt sich mit der Anpassung und Zusammenführung von Legacy-Datenbeständen und ‑Vorgängen zu befassen, kann sich das kombinierte Unternehmen auf neue Geschäftsmöglichkeiten konzentrieren.

Abstraktionsebene erstellen, um vorhandene Systeme zu isolieren und auf neue Geschäftsmodelle einzugehen

Der Wettbewerbsvorteil für Banken liegt zunehmend nicht im Core-Banking-System, sondern in der Kundenserviceebene. In älteren Bankensystemen werden jedoch häufig monolithische Anwendungen verwendet, die in Sprachen wie Cobol entwickelt wurden und in die gesamte Wertschöpfungskette der Bank integriert sind. Diese Integration erschwerte die Trennung der Ebenen der Wertschöpfungskette, sodass es nahezu unmöglich war, solche Systeme zu aktualisieren und zu modernisieren.

Eine Lösung für diese Herausforderung ist die Verwendung einer Isolationsschicht wie eines API-Verwaltungssystems oder einer Staging-Schicht wie Spanner, die das Book of Record dupliziert und die Modernisierung von Diensten mit erweiterten Analysen und KI erleichtert. Die Deutsche Bank hat beispielsweise Spanner verwendet, um ihr altes Core-Banking-System zu isolieren und mit Innovationen zu beginnen.