Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Well-Architected Framework: prospettiva dei servizi finanziari (FS)

Last reviewed 2025-07-28 UTC

Questo documento del Google Cloud Well-Architected Framework descrive principi e consigli per aiutarti a progettare, creare e gestire applicazioni di servizi finanziari (FS) in Google Cloud che soddisfino i tuoi obiettivi operativi, di sicurezza, affidabilità, costi e prestazioni.

Il pubblico di destinazione di questo documento include responsabili delle decisioni, architetti, amministratori, sviluppatori e operatori che progettano, creano, eseguono il deployment e gestiscono i workload FS in Google Cloud. Alcuni esempi di organizzazioni di servizi finanziari che potrebbero trarre vantaggio da queste indicazioni includono banche, operatori di infrastrutture di pagamento, fornitori di assicurazioni e operatori del mercato dei capitali.

Le organizzazioni di servizi finanziari hanno considerazioni specifiche, in particolare per l'architettura e la resilienza. Queste considerazioni sono principalmente dettate da requisiti normativi, di rischio e di rendimento. Questo documento fornisce indicazioni di alto livello basate su considerazioni di progettazione che abbiamo osservato in un'ampia gamma di clienti di servizi finanziari a livello globale. Indipendentemente dal fatto che i tuoi carichi di lavoro siano completamente nel cloud o in fase di transizione a deployment ibridi o multi-cloud, le indicazioni contenute in questo documento ti aiutano a progettare carichi di lavoro su Google Cloud per soddisfare i tuoi requisiti normativi e le diverse prospettive di rischio. Le indicazioni potrebbero non affrontare le sfide uniche di ogni organizzazione. Fornisce una base che soddisfa molti dei principali requisiti normativi delle organizzazioni di servizi finanziari.

Una delle sfide principali nella progettazione dei workload cloud consiste nell'allineare le implementazioni cloud con gli ambienti on-premise, soprattutto quando si punta ad approcci coerenti a sicurezza, affidabilità e resilienza. I servizi cloud creano opportunità per ripensare radicalmente la tua architettura al fine di ridurre l'overhead di gestione, ottimizzare i costi, migliorare la sicurezza e aumentare l'affidabilità e la resilienza.

Le pagine seguenti descrivono i principi e i consigli specifici per i workload FS per ciascun pilastro del Well-Architected Framework:

Collaboratori

Autori:

Gino Pelliccia | Principal Architect
Alex Stepney | Lead Principal Architect
Phil Bryan | EMEA FSI Lead Principal Architect
Stathis Onasoglou | EMEA FSI Principal Architect
Sam Moss | EMEA FinOps Professional Services Lead

Altri collaboratori:

Daniel Lees | Cloud Security Architect
Danielle Fisla | US FS Portfolio Lead, PSO
Filipe Gracio, PhD | Customer Engineer, specialista di AI/ML
Henry Cheng | Principal Architect
John Bacon | Partner Solutions Architect
Jose Andrade | Customer Engineer, SRE Specialist
Kumar Dhanagopal | Cross-Product Solution Developer
Laura Hyatt | Customer Engineer, FSI
Michael Yang | Industry Solutions AI Consulting Lead, FSI
Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
Omar Saenz | EMEA Partner Engineer, Security
Radhika Kanakam | Program Lead, Google Cloud Well-Architected Framework
Steve McGhee | Reliability Advocate
Tarun Sharma | Principal Architect
Yuriy Babenko | Customer Engineer, FSI

Prospettiva dei servizi finanziari: eccellenza operativa

Questo documento del Google Cloud Well-Architected Framework: Prospettiva dei servizi finanziari (FS) fornisce una panoramica dei principi e dei suggerimenti per creare, eseguire il deployment e gestire workload FS robusti in Google Cloud. Questi consigli ti aiutano a configurare elementi fondamentali come osservabilità, automazione e scalabilità. I consigli contenuti in questo documento sono in linea con il pilastro dell'eccellenza operativa del Well-Architected Framework.

L'eccellenza operativa è fondamentale per i carichi di lavoro FS in Google Cloud a causa della natura altamente regolamentata e sensibile di questi carichi di lavoro. L'eccellenza operativa garantisce che le soluzioni cloud possano adattarsi alle esigenze in evoluzione e soddisfare i tuoi requisiti di valore, prestazioni, sicurezza e affidabilità. I problemi in questi ambiti potrebbero comportare perdite finanziarie significative, sanzioni normative e danni alla reputazione.

L'eccellenza operativa offre i seguenti vantaggi per i workload FS:

Mantenere la fiducia e la reputazione: gli istituti finanziari si affidano molto alla fiducia dei propri clienti. Interruzioni operative o violazioni della sicurezza possono compromettere gravemente questa fiducia e causare l'abbandono dei clienti. L'eccellenza operativa contribuisce a ridurre al minimo questi rischi.
Soddisfare rigorosi requisiti di conformità legale: i servizi finanziari sono soggetti a numerose e complesse normative, tra cui:
- Regolamento generale sulla protezione dei dati (GDPR) dell'UE
- Digital Operational Resilience Act (DORA) dell'UE
- California Consumer Privacy Act (CCPA)
- Normative specifiche per settore
Processi operativi, monitoraggio e gestione degli incidenti solidi sono essenziali per dimostrare la conformità ai regolamenti ed evitare sanzioni.
Garantisci la continuità operativa e la resilienza: i mercati finanziari e i servizi spesso operano in modo continuo. Pertanto, l'alta affidabilità e un efficace ripristino di emergenza sono fondamentali. I principi di eccellenza operativa guidano la progettazione e l'implementazione di sistemi resilienti. Il pilastro dell'affidabilità fornisce ulteriori indicazioni in questo ambito.
Proteggi i dati sensibili: gli istituti finanziari gestiscono grandi quantità di dati finanziari e dei clienti altamente sensibili. Controlli operativi rigorosi, monitoraggio della sicurezza e risposta rapida agli incidenti sono fondamentali per prevenire violazioni dei dati e mantenere la privacy. Il pilastro della sicurezza fornisce ulteriori indicazioni in questo ambito.
Ottimizza le prestazioni per le applicazioni critiche: molte applicazioni finanziarie, come le piattaforme di trading e l'analisi in tempo reale, richiedono prestazioni elevate e bassa latenza. Per soddisfare questi requisiti di rendimento, devi disporre di un design di computing, networking e archiviazione altamente ottimizzato. Il pilastro dell'ottimizzazione del rendimento fornisce ulteriori indicazioni in questo ambito.
Gestire i costi in modo efficace: oltre a sicurezza e affidabilità, gli istituti finanziari si preoccupano anche dell'efficienza dei costi. L'eccellenza operativa include pratiche per ottimizzare l'utilizzo delle risorse e gestire la spesa per il cloud. Il pilastro dell'ottimizzazione dei costi fornisce ulteriori indicazioni in questo ambito.

I consigli per l'eccellenza operativa contenuti in questo documento sono mappati ai seguenti principi fondamentali:

Definisci SLA e SLO e SLI corrispondenti
Definisci e testa le procedure di gestione degli incidenti
Migliorare e innovare continuamente

Definisci SLA e SLO e SLI corrispondenti

In molte organizzazioni di servizi finanziari, la disponibilità delle applicazioni viene in genere classificata in base alle metriche Recovery Time Objective (RTO) e Recovery Point Objective (RPO). Per le applicazioni business critical che servono clienti esterni, potrebbe essere definito anche un accordo sul livello del servizio (SLA).

I contratti di servizio richiedono un framework di metriche che rappresenti il comportamento del sistema dal punto di vista della soddisfazione dell'utente. Le pratiche di Site Reliability Engineering (SRE) offrono un modo per raggiungere il livello di affidabilità del sistema che desideri. La creazione di un framework di metriche prevede la definizione e il monitoraggio di indicatori numerici chiave per comprendere l'integrità del sistema dal punto di vista dell'utente. Ad esempio, metriche come la latenza e i tassi di errore quantificano le prestazioni di un servizio. Queste metriche sono chiamate indicatori del livello del servizio (SLI). Lo sviluppo di indicatori SLI efficaci è fondamentale perché forniscono i dati non elaborati necessari per valutare in modo oggettivo l'affidabilità.

Per definire SLA, SLI e SLO significativi, tieni presente i seguenti consigli:

Sviluppa e definisci gli SLI per ogni servizio critico. Imposta i valori target che definiscono i livelli di rendimento accettabili.
Sviluppa e definisci gli obiettivi del livello di servizio (SLO) che corrispondono agli SLI. Ad esempio, uno SLO potrebbe indicare che il 99,9% delle richieste deve avere una latenza inferiore a 200 millisecondi.
Identifica le azioni correttive interne che devono essere intraprese se un servizio non soddisfa gli SLO. Ad esempio, per migliorare la resilienza della piattaforma, potrebbe essere necessario concentrare le risorse di sviluppo sulla risoluzione dei problemi.
Convalida il requisito SLA per ogni servizio e riconosce l'SLA come contratto formale con gli utenti del servizio.

Esempi di livelli di servizio

La tabella seguente fornisce esempi di SLI, SLO e SLA per una piattaforma di pagamento:

Metrica aziendale	SLI	SLO	SLA (accordo sul livello del servizio)
Transazione di pagamento riuscita	Una misura quantitativa della percentuale di tutte le transazioni di pagamento avviate che vengono elaborate e confermate correttamente. Esempio: (numero di transazioni riuscite &div; numero totale di transazioni valide) × 100, misurato in un intervallo di 5 minuti.	Un target interno per mantenere una percentuale elevata di transazioni di pagamento andate a buon fine in un periodo specifico. Esempio: mantieni un tasso di successo delle transazioni di pagamento del 99,98% in un periodo di 30 giorni, escluse le richieste non valide e la manutenzione pianificata.	Una garanzia contrattuale per la percentuale di successo e la velocità di elaborazione delle transazioni di pagamento. Esempio: il fornitore di servizi garantisce che il 99% delle transazioni di pagamento avviate dal cliente verrà elaborato e confermato correttamente entro un secondo.
Latenza di elaborazione dei pagamenti	Il tempo medio impiegato per l'elaborazione di una transazione di pagamento dall'avvio da parte del cliente alla conferma finale. Esempio: tempo di risposta medio in millisecondi per la conferma della transazione, misurato in una finestra mobile di 5 minuti.	Un target interno per la velocità con cui vengono elaborate le transazioni di pagamento. Esempio: assicurati che il 99,5% delle transazioni di pagamento venga elaborato entro 400 millisecondi in un periodo di 30 giorni.	Un impegno contrattuale a risolvere i problemi critici di elaborazione dei pagamenti entro un periodo di tempo specificato. Esempio: per problemi critici di elaborazione dei pagamenti (definiti come un'interruzione che interessa più dell'1% delle transazioni), il fornitore di servizi si impegna a risolvere il problema entro due ore dal momento in cui viene segnalato o rilevato.
Disponibilità delle piattaforme	La percentuale di tempo in cui l'API principale di elaborazione dei pagamenti e l'interfaccia utente sono operative e accessibili ai clienti. Esempio: (tempo operativo totale - tempo di inattività) &div; tempo operativo totale × 100, misurato al minuto.	Un target interno per il tempo di attività della piattaforma di pagamento principale. Esempio: ottieni una disponibilità della piattaforma del 99,995% al mese di calendario, escluse le finestre di manutenzione pianificata.	Un impegno formale e giuridicamente vincolante nei confronti dei clienti in merito all'uptime minimo della piattaforma di pagamento, comprese le conseguenze in caso di mancato rispetto. Esempio: la piattaforma manterrà una disponibilità minima del 99,9% al mese di calendario, escluse le finestre di manutenzione pianificata. Se la disponibilità scende al di sotto del livello minimo, il cliente riceverà un credito di servizio pari al 5% della commissione di servizio mensile per ogni calo dello 0,1%.

Metrica aziendale

SLI

SLO

SLA (accordo sul livello del servizio)

Transazione di pagamento riuscita

Una misura quantitativa della percentuale di tutte le transazioni di pagamento avviate che vengono elaborate e confermate correttamente.

Esempio: (numero di transazioni riuscite &div; numero totale di transazioni valide) × 100, misurato in un intervallo di 5 minuti.

Un target interno per mantenere una percentuale elevata di transazioni di pagamento andate a buon fine in un periodo specifico.

Esempio: mantieni un tasso di successo delle transazioni di pagamento del 99,98% in un periodo di 30 giorni, escluse le richieste non valide e la manutenzione pianificata.

Una garanzia contrattuale per la percentuale di successo e la velocità di elaborazione delle transazioni di pagamento.

Esempio: il fornitore di servizi garantisce che il 99% delle transazioni di pagamento avviate dal cliente verrà elaborato e confermato correttamente entro un secondo.

Latenza di elaborazione dei pagamenti

Il tempo medio impiegato per l'elaborazione di una transazione di pagamento dall'avvio da parte del cliente alla conferma finale.

Esempio: tempo di risposta medio in millisecondi per la conferma della transazione, misurato in una finestra mobile di 5 minuti.

Un target interno per la velocità con cui vengono elaborate le transazioni di pagamento.

Esempio: assicurati che il 99,5% delle transazioni di pagamento venga elaborato entro 400 millisecondi in un periodo di 30 giorni.

Un impegno contrattuale a risolvere i problemi critici di elaborazione dei pagamenti entro un periodo di tempo specificato.

Esempio: per problemi critici di elaborazione dei pagamenti (definiti come un'interruzione che interessa più dell'1% delle transazioni), il fornitore di servizi si impegna a risolvere il problema entro due ore dal momento in cui viene segnalato o rilevato.

Disponibilità delle piattaforme

La percentuale di tempo in cui l'API principale di elaborazione dei pagamenti e l'interfaccia utente sono operative e accessibili ai clienti.

Esempio: (tempo operativo totale - tempo di inattività) &div; tempo operativo totale × 100, misurato al minuto.

Un target interno per il tempo di attività della piattaforma di pagamento principale.

Esempio: ottieni una disponibilità della piattaforma del 99,995% al mese di calendario, escluse le finestre di manutenzione pianificata.

Un impegno formale e giuridicamente vincolante nei confronti dei clienti in merito all'uptime minimo della piattaforma di pagamento, comprese le conseguenze in caso di mancato rispetto.

Esempio: la piattaforma manterrà una disponibilità minima del 99,9% al mese di calendario, escluse le finestre di manutenzione pianificata. Se la disponibilità scende al di sotto del livello minimo, il cliente riceverà un credito di servizio pari al 5% della commissione di servizio mensile per ogni calo dello 0,1%.

Utilizza i dati SLI per monitorare se i sistemi rientrano negli SLO definiti e per assicurarti che gli SLA vengano rispettati. Utilizzando un insieme di SLI ben definiti, ingegneri e sviluppatori possono monitorare le applicazioni FS ai seguenti livelli:

Direttamente all'interno del servizio su cui vengono eseguite le applicazioni, ad esempio GKE o Cloud Run.
Utilizzando i log forniti dai componenti dell'infrastruttura, ad esempio il bilanciatore del carico.

OpenTelemetry fornisce uno standard open source e un set di tecnologie per acquisire tutti i tipi di telemetria, tra cui metriche, tracce e log. Google Cloud Managed Service per Prometheus fornisce un backend completamente gestito e altamente scalabile per le metriche e il funzionamento di Prometheus su larga scala.

Per ulteriori informazioni su SLI, SLO e budget di errore, consulta il manuale SRE.

Per sviluppare meccanismi e dashboard di monitoraggio e avvisi efficaci, utilizza gli strumenti di Google Cloud Observability insieme a Google Cloud Monitoring. Per informazioni sulle funzionalità di monitoraggio e rilevamento specifiche per la sicurezza, consulta il pilastro della sicurezza.

Definisci e testa le procedure di gestione degli incidenti

Processi di gestione degli incidenti ben definiti e testati regolarmente contribuiscono direttamente al valore, alle prestazioni, alla sicurezza e all'affidabilità dei carichi di lavoro FS in Google Cloud. Questi processi aiutano gli istituti finanziari a soddisfare i rigorosi requisiti normativi, proteggere i dati sensibili, mantenere la continuità operativa e preservare la fiducia dei clienti.

Testare regolarmente le procedure di gestione degli incidenti offre i seguenti vantaggi:

Mantenere le prestazioni in condizioni di carico di picco: i test regolari di prestazioni e carico aiutano gli istituti finanziari a garantire che le loro applicazioni e infrastrutture basate sul cloud possano gestire volumi di transazioni di picco, volatilità del mercato e altri scenari di forte domanda senza un calo delle prestazioni. Questa funzionalità è fondamentale per mantenere un'esperienza utente fluida e soddisfare le esigenze dei mercati finanziari.
Identificare potenziali colli di bottiglia e limitazioni: lo stress test spinge i sistemi ai loro limiti e consente agli istituti finanziari di identificare potenziali colli di bottiglia e limitazioni delle prestazioni prima che influenzino le operazioni critiche. Questo approccio proattivo consente agli istituti finanziari di adeguare la propria infrastruttura e le proprie applicazioni per ottenere prestazioni e scalabilità ottimali.
Convalida dell'affidabilità e della resilienza: test regolari, inclusi chaos engineering o errori simulati, contribuiscono a convalidare l'affidabilità e la resilienza dei sistemi finanziari. Questi test garantiscono che i sistemi possano ripristinarsi senza problemi in caso di errori e mantenere un'alta affidabilità, essenziale per la continuità aziendale.
Esegui una pianificazione efficace della capacità: i test delle prestazioni forniscono dati preziosi sull'utilizzo delle risorse in diverse condizioni di carico, il che è fondamentale per una pianificazione accurata della capacità. Gli istituti finanziari possono utilizzare questi dati per anticipare in modo proattivo le esigenze di capacità future ed evitare problemi di rendimento dovuti a vincoli delle risorse.
Esegui il deployment di nuove funzionalità e modifiche al codice: l'integrazione di test automatizzati nelle pipeline CI/CD contribuisce a garantire che le modifiche e i nuovi deployment vengano convalidati a fondo prima di essere rilasciati negli ambienti di produzione. Questo approccio riduce significativamente il rischio di errori e regressioni che potrebbero causare interruzioni operative.
Soddisfare i requisiti normativi per la stabilità del sistema: i regolamenti finanziari spesso richiedono agli istituti di adottare pratiche di test rigorose per garantire la stabilità e l'affidabilità dei loro sistemi critici. I test regolari aiutano a dimostrare la conformità a questi requisiti.

Per definire e testare le procedure di gestione degli incidenti, prendi in considerazione i seguenti suggerimenti.

Stabilisci procedure di risposta agli incidenti chiare

Un insieme ben consolidato di procedure di risposta agli incidenti include i seguenti elementi:

Ruoli e responsabilità definiti per gli incident commander, gli investigatori, i comunicatori e gli esperti tecnici per garantire una risposta efficace e coordinata.
Protocolli di comunicazione e percorsi di riassegnazione definiti per garantire che le informazioni vengano condivise in modo rapido ed efficace durante gli incidenti.
Procedure documentate in un runbook o playbook che descrivono i passaggi per la comunicazione, il triage, l'indagine e la risoluzione.
Formazione e preparazione regolari che forniscono ai team le conoscenze e le competenze per rispondere in modo efficace.

Implementa regolarmente test di carico e delle prestazioni

I test di carico e delle prestazioni regolari contribuiscono a garantire che le applicazioni e l'infrastruttura basate sul cloud possano gestire i picchi di carico e mantenere prestazioni ottimali. Il test di carico simula pattern di traffico realistici. I test di stress portano il sistema ai suoi limiti per identificare potenziali colli di bottiglia e limitazioni delle prestazioni. Puoi utilizzare prodotti come Cloud Load Balancing e servizi di test di carico per simulare il traffico reale. In base ai risultati del test, puoi modificare l'infrastruttura cloud e le applicazioni per ottenere prestazioni e scalabilità ottimali. Ad esempio, puoi modificare l'allocazione delle risorse o ottimizzare le configurazioni delle applicazioni.

Automatizzare i test all'interno delle pipeline CI/CD

L'integrazione di test automatizzati nelle pipeline CI/CD contribuisce a garantire la qualità e l'affidabilità delle applicazioni cloud con la convalida delle modifiche prima del deployment. Questo approccio riduce significativamente il rischio di errori e regressioni e ti aiuta a creare un sistema software più stabile e solido. Puoi incorporare diversi tipi di test nelle tue pipeline CI/CD, inclusi test delle unità, test di integrazione e test end-to-end. Utilizza prodotti come Cloud Build e Cloud Deploy per creare e gestire le pipeline CI/CD.

Migliorare e innovare continuamente

Per i carichi di lavoro dei servizi finanziari nel cloud, la migrazione al cloud è solo il primo passo. Il miglioramento e l'innovazione continui sono essenziali per i seguenti motivi:

Accelerare l'innovazione: sfrutta le nuove tecnologie come l'AI per migliorare i tuoi servizi.
Ridurre i costi: elimina le inefficienze e ottimizza l'utilizzo delle risorse.
Migliora l'agilità: adattati rapidamente ai cambiamenti del mercato e normativi.
Migliora il processo decisionale: utilizza prodotti di analisi dei dati come BigQuery e Looker per fare scelte informate.

Per garantire un miglioramento e un'innovazione continui, prendi in considerazione i seguenti suggerimenti.

Eseguire retrospettive regolari

Le retrospective sono fondamentali per migliorare continuamente le procedure di risposta agli incidenti e per ottimizzare le strategie di test in base ai risultati dei test regolari di rendimento e carico. Per garantire l'efficacia delle retrospettive:

Offri ai team l'opportunità di riflettere sulle proprie esperienze, identificare gli aspetti positivi e individuare le aree di miglioramento.
Organizza retrospettive dopo le tappe principali del progetto, gli incidenti gravi o i cicli di test significativi. I team possono imparare sia dai successi che dai fallimenti e perfezionare continuamente i propri processi e pratiche.
Utilizza un approccio strutturato come il modello start-stop-continue per garantire che le sessioni di retrospettiva siano produttive e portino a passaggi attuabili.
Utilizza le retrospettive per identificare le aree in cui l'automazione della gestione delle modifiche può essere ulteriormente migliorata per aumentare l'affidabilità e ridurre i rischi.

Promuovere una cultura dell'apprendimento

Una cultura dell'apprendimento facilita l'esplorazione sicura di nuove tecnologie in Google Cloud, come le funzionalità di AI e ML per migliorare servizi come il rilevamento delle frodi e la consulenza finanziaria personalizzata. Per promuovere una cultura dell'apprendimento, segui questi passaggi:

Incoraggia i team a sperimentare, condividere le conoscenze e imparare continuamente.
Adotta una cultura impeccabile, in cui i fallimenti sono visti come opportunità di crescita e miglioramento.
Crea un ambiente psicologicamente sicuro che consenta ai team di correre rischi e prendere in considerazione soluzioni innovative. I team imparano sia dai successi che dai fallimenti, il che porta a un'organizzazione più resiliente e adattabile.
Sviluppa una cultura che faciliti la condivisione delle conoscenze acquisite dai processi di gestione degli incidenti e dagli esercizi di test.

Rimanere al passo con le tecnologie cloud

L'apprendimento continuo è essenziale per comprendere e implementare nuove misure di sicurezza, sfruttare l'analisi avanzata dei dati per ottenere approfondimenti migliori e adottare soluzioni innovative pertinenti per i servizi finanziari.

Massimizza il potenziale dei servizi Google Cloud rimanendo al corrente degli ultimi progressi, funzionalità e best practice.
Quando vengono introdotti nuovi Google Cloud servizi e funzionalità, identifica le opportunità per automatizzare ulteriormente i processi, migliorare la sicurezza e incrementare le prestazioni e la scalabilità delle tue applicazioni.
Partecipa a conferenze, webinar e sessioni di formazione pertinenti per ampliare le tue conoscenze e comprendere le nuove funzionalità.
Incoraggia i membri del team a ottenere Google Cloud certificazioni per contribuire a garantire che l'organizzazione disponga delle competenze necessarie per avere successo nel cloud.

Prospettiva dei servizi finanziari: sicurezza, privacy e conformità

Questo documento della Google Cloud Well-Architected Framework: prospettiva dei servizi finanziari fornisce una panoramica dei principi e dei consigli per soddisfare i requisiti di sicurezza, privacy e conformità dei carichi di lavoro dei servizi finanziari in Google Cloud. I suggerimenti ti aiutano a creare un'infrastruttura resiliente e conforme, a proteggere i dati sensibili, a mantenere la fiducia dei clienti, a orientarti nel complesso panorama dei requisiti normativi e a gestire in modo efficace le minacce informatiche. I consigli contenuti in questo documento sono in linea con il pilastro della sicurezza del Well-Architected Framework.

La sicurezza nel cloud computing è una preoccupazione fondamentale per le organizzazioni di servizi finanziari, che sono molto attraenti per i cybercriminali a causa delle grandi quantità di dati sensibili che gestiscono, tra cui i dettagli dei clienti e i registri finanziari. Le conseguenze di una violazione della sicurezza sono estremamente gravi, tra cui perdite finanziarie significative, danni alla reputazione a lungo termine e multe normative significative. Pertanto, i carichi di lavoro FS richiedono controlli di sicurezza rigorosi.

Per garantire una sicurezza e una conformità complete, devi comprendere le responsabilità condivise tra te (organizzazioni di servizi finanziari) e Google Cloud. Google Cloud è responsabile della protezione dell'infrastruttura sottostante, inclusa la sicurezza fisica e della rete. Sei responsabile della protezione dei dati e delle applicazioni, della configurazione controllo dell'accesso#39;accesso e della configurazione e gestione dei servizi di sicurezza. Per supportarti nei tuoi sforzi in materia di sicurezza, l'Google Cloud ecosistema di partner offre servizi gestiti e di integrazione della sicurezza.

I suggerimenti per la sicurezza contenuti in questo documento sono mappati ai seguenti principi fondamentali:

Implementare la sicurezza by design
Implementa Zero Trust
Implementare la sicurezza shift left
Implementare la cyberdifesa preventiva
Utilizzare l'AI in modo sicuro e responsabile e utilizzare l'AI per la sicurezza
Soddisfa le esigenze normative, di conformità e di privacy
Dare la priorità alle iniziative di sicurezza

Implementare la sicurezza integrata

I regolamenti finanziari come il Payment Card Industry Data Security Standard (PCI DSS), il Gramm-Leach-Bliley Act (GLBA) negli Stati Uniti e varie leggi nazionali sulla protezione dei dati finanziari impongono l'integrazione della sicurezza nei sistemi fin dall'inizio. Il principio di sicurezza by design enfatizza l'integrazione della sicurezza durante il ciclo di vita dello sviluppo per contribuire a garantire che le vulnerabilità siano ridotte al minimo fin dall'inizio.

Per applicare il principio di sicurezza by design ai tuoi workload FS in Google Cloud, prendi in considerazione i seguenti suggerimenti:

Assicurati che vengano concesse solo le autorizzazioni necessarie applicando il principio del privilegio minimo tramite il controllo dell'accesso basato sui ruoli (RBAC) granulare in Identity and Access Management (IAM). L'utilizzo di RBAC è un requisito fondamentale in molti regolamenti finanziari.
Applica perimetri di sicurezza attorno ai tuoi servizi e dati sensibili all'interno di Google Cloud utilizzando i controlli di servizio VPC. I perimetri di sicurezza aiutano a segmentare e proteggere dati e risorse sensibili e a prevenire l'esfiltrazione di dati e l'accesso non autorizzato, come richiesto dai regolamenti.
Definisci le configurazioni di sicurezza come codice utilizzando strumenti Infrastructure as Code (IaC) come Terraform. Questo approccio incorpora i controlli di sicurezza fin dalla fase di implementazione iniziale, il che contribuisce a garantire coerenza e controllabilità.
Esegui la scansione del codice dell'applicazione integrando Static Application Security Testing (SAST) nella pipeline CI/CD con Cloud Build. Stabilisci gate di sicurezza automatizzati per impedire il deployment di codice non conforme.
Fornisci un'interfaccia unificata per gli approfondimenti sulla sicurezza utilizzando Security Command Center. L'utilizzo di Security Command Center consente il monitoraggio continuo e il rilevamento precoce di errori di configurazione o minacce che potrebbero portare a violazioni normative. Per soddisfare i requisiti di standard come ISO 27001 e NIST 800-53, puoi utilizzare i modelli di gestione della postura.
Tieni traccia della riduzione delle vulnerabilità identificate nelle implementazioni di produzione e della percentuale di implementazioni IaC che rispettano le best practice di sicurezza. Puoi rilevare e visualizzare le vulnerabilità e le informazioni sulla conformità agli standard di sicurezza utilizzando Security Command Center. Per saperne di più, consulta Risultati delle vulnerabilità.

Implementa Zero Trust

I moderni regolamenti finanziari sottolineano sempre più la necessità di controlli di accesso rigorosi e di una verifica continua. Questi requisiti riflettono il principio di zero trust, che mira a proteggere i carichi di lavoro da minacce e malintenzionati interni ed esterni. Il principio Zero Trust prevede la verifica continua di ogni utente e dispositivo, il che elimina la fiducia implicita e mitiga lo spostamento laterale.

Per implementare Zero Trust, tieni presenti i seguenti consigli:

Attiva l'accesso sensibile al contesto in base a identità dell'utente, sicurezza del dispositivo, posizione e altri fattori combinando i controlli di IAM con Chrome Enterprise Premium. Questo approccio garantisce una verifica continua prima di concedere l'accesso a dati e sistemi finanziari.
Fornisci una gestione delle identità e degli accessi sicura e scalabile configurando Identity Platform (o il tuo provider di identità esterno se utilizzi la federazione delle identità per la forza lavoro). Configura l'autenticazione a più fattori (MFA) e altri controlli fondamentali per implementare Zero Trust e contribuire a garantire la conformità legale.
Implementa l'autenticazione a più fattori per tutti gli account utente, in particolare per quelli con accesso a dati o sistemi sensibili.
Supporta i controlli e le indagini relativi alla conformità legale stabilendo una registrazione e un monitoraggio completi dell'accesso degli utenti e dell'attività di rete.
Attiva la comunicazione privata e sicura tra i servizi all'interno di Google Cloud e negli ambienti on-premise senza esporre il traffico a internet pubblico utilizzando Private Service Connect.
Implementa controlli granulari dell'identità e autorizza l'accesso a livello di applicazione utilizzando Identity-Aware Proxy (IAP) anziché fare affidamento su meccanismi di sicurezza basati sulla rete come i tunnel VPN. Questo approccio contribuisce a ridurre il movimento laterale all'interno dell'ambiente.

Implementare la sicurezza shift left

Gli enti di regolamentazione finanziaria incoraggiano misure di sicurezza proattive. L'identificazione e la risoluzione delle vulnerabilità nella fase iniziale del ciclo di vita dello sviluppo contribuiscono a ridurre il rischio di incidenti di sicurezza e la possibilità di sanzioni per mancata conformità. Il principio della sicurezza shift-left promuove i test di sicurezza e l'integrazione precoci, il che contribuisce a ridurre i costi e la complessità della correzione.

Per implementare la sicurezza shift-left, considera i seguenti consigli:

Garantisci controlli di sicurezza automatizzati all'inizio del processo di sviluppo integrando strumenti di scansione della sicurezza, come la scansione delle vulnerabilità dei container e l'analisi statica del codice, nella pipeline CI/CD con Cloud Build.
Assicurati che vengano implementati solo artefatti sicuri utilizzando Artifact Registry per fornire un repository sicuro e centralizzato per i pacchetti software e le immagini container con analisi delle vulnerabilità integrata. Utilizza repository virtuali per mitigare gli attacchi di confusione delle dipendenze dando la priorità agli artefatti privati rispetto ai repository remoti.
Esegui automaticamente la scansione delle applicazioni web per rilevare le vulnerabilità comuni integrando Web Security Scanner, che fa parte di Security Command Center, nelle tue pipeline di sviluppo.
Implementa controlli di sicurezza per il codice sorgente, il processo di compilazione e la provenienza del codice utilizzando il framework Supply-chain Levels for Software Artifacts (SLSA). Applica la provenienza dei workload eseguiti nei tuoi ambienti utilizzando soluzioni come Autorizzazione binaria. Assicurati che i tuoi workload utilizzino solo librerie software open source verificate utilizzando Assured Open Source.
Monitora il numero di vulnerabilità identificate e corrette nel ciclo di vita di sviluppo, la percentuale di deployment di codice che superano le scansioni di sicurezza e la riduzione degli incidenti di sicurezza causati da vulnerabilità del software. Google Cloud fornisce strumenti per facilitare questo monitoraggio per diversi tipi di workload. Ad esempio, per i carichi di lavoro containerizzati, utilizza la funzionalità di scansione dei container di Artifact Registry.

Implementare una cyberdifesa preventiva

Gli istituti finanziari sono i principali bersagli di attacchi informatici sofisticati. I regolamenti spesso richiedono meccanismi di threat intelligence robusti e di difesa proattiva. La difesa informatica preventiva si concentra sul rilevamento proattivo delle minacce e sulla risposta utilizzando analisi avanzate e automazione.

Prendi in considerazione i seguenti consigli:

Identifica e mitiga in modo proattivo le potenziali minacce utilizzando i servizi di threat intelligence, risposta agli incidenti e convalida della sicurezza di Mandiant.
Proteggi le applicazioni web e le API da exploit web e attacchi DDoS all'edge della rete utilizzando Google Cloud Armor.
Aggrega e assegna la priorità ai risultati e ai consigli per la sicurezza utilizzando Security Command Center, che consente ai team di sicurezza di affrontare in modo proattivo i potenziali rischi.
Convalida le difese preventive e i piani di risposta agli incidenti conducendo simulazioni di sicurezza e penetration test regolari.
Misura il tempo necessario per rilevare e rispondere agli incidenti di sicurezza, l'efficacia degli sforzi di mitigazione degli attacchi DDoS e il numero di attacchi informatici prevenuti. Puoi ottenere le metriche e i dati richiesti dalle dashboard SOAR e SIEM di Google Security Operations.

Utilizzare l'AI in modo sicuro e responsabile e utilizzare l'AI per la sicurezza

L'AI e il ML vengono utilizzati sempre più spesso per casi d'uso di servizi finanziari come il rilevamento delle frodi e il trading algoritmico. I regolamenti richiedono che queste tecnologie vengano utilizzate in modo etico, trasparente e sicuro. L'AI può anche contribuire a migliorare le tue funzionalità di sicurezza. Prendi in considerazione i seguenti consigli per l'utilizzo dell'AI:

Sviluppa e implementa modelli ML in un ambiente sicuro e controllato utilizzando Gemini Enterprise Agent Platform. Funzionalità come l'interpretabilità del modello e le metriche di equità possono contribuire a risolvere i problemi relativi all'AI responsabile.
Sfrutta le funzionalità di analisi e operazioni di sicurezza di Google Security Operations, che utilizza l'AI e il machine learning per analizzare grandi volumi di dati di sicurezza, rilevare anomalie e automatizzare la risposta alle minacce. Queste funzionalità contribuiscono a migliorare il tuo livello di sicurezza generale e aiutano nel monitoraggio della conformità.
Stabilisci norme di governance chiare per lo sviluppo e l'implementazione di AI e ML, incluse considerazioni relative alla sicurezza e all'etica.
Allineati agli elementi del Secure AI Framework (SAIF), che fornisce un approccio pratico per affrontare i problemi di sicurezza e rischio dei sistemi di AI.
Tieni traccia dell'accuratezza e dell'efficacia dei sistemi di rilevamento delle frodi basati sull'AI, della riduzione dei falsi positivi negli avvisi di sicurezza e dei miglioramenti dell'efficienza derivanti dall'automazione della sicurezza basata sull'AI.

Soddisfa le esigenze normative, di conformità e di privacy

I servizi finanziari sono soggetti a una vasta gamma di normative, tra cui requisiti di residenza dei dati, audit trail specifici e standard di protezione dei dati. Per garantire che i dati sensibili vengano identificati, protetti e gestiti correttamente, le organizzazioni di servizi finanziari hanno bisogno di solide norme di governance dei dati e di schemi di classificazione dei dati. Considera i seguenti suggerimenti per rispettare i requisiti normativi:

Configura i confini dei dati in Google Cloud per i carichi di lavoro sensibili e regolamentati utilizzando Assured Workloads. In questo modo, puoi soddisfare i requisiti di conformità specifici per il governo e il settore, come FedRAMP e CJIS.
Identifica, classifica e proteggi i dati sensibili, incluse le informazioni finanziarie, implementando Cloud Data Loss Prevention (Cloud DLP). In questo modo, rispetti le normative sulla privacy dei dati come il GDPR e il CCPA.
Monitora i dettagli delle attività amministrative e l'accesso alle risorse utilizzando Cloud Audit Logs. Questi log sono fondamentali per soddisfare i requisiti di audit previsti da molti regolamenti finanziari.
Quando scegli le regioniGoogle Cloud per i tuoi carichi di lavoro e i tuoi dati, tieni conto delle normative locali relative alla residenza dei dati.L'infrastruttura globale di Google Cloud ti consente di scegliere regioni che possono aiutarti a soddisfare i tuoi requisiti di residenza dei dati.
Gestisci le chiavi utilizzate per criptare i dati finanziari sensibili at-rest e in transito utilizzando Cloud Key Management Service. Questa crittografia è un requisito fondamentale di molte normative sulla sicurezza e sulla privacy.
Implementa i controlli necessari per soddisfare i requisiti normativi. Verifica che i controlli funzionino come previsto. Fai convalidare nuovamente i controlli da un revisore esterno per dimostrare all'ente regolatore che i tuoi carichi di lavoro sono conformi alle normative.

Dare la priorità alle iniziative di sicurezza

Data l'ampiezza dei requisiti di sicurezza, gli istituti finanziari devono dare la priorità alle iniziative basate sulla valutazione dei rischi e sui mandati normativi. Ti consigliamo il seguente approccio graduale:

Crea una solida base di sicurezza: concentrati sulle aree principali della sicurezza, tra cui gestione di identità e accessi, sicurezza di rete e protezione dei dati. Questo approccio contribuisce a creare una solida postura di sicurezza e a garantire una difesa completa contro le minacce in continua evoluzione.
Rispetta le normative fondamentali: dai la priorità alla conformità alle normative chiave come PCI DSS, GDPR e leggi nazionali pertinenti. In questo modo, contribuisci a garantire la protezione dei dati, a ridurre i rischi legali e a creare fiducia con i clienti.
Implementa la sicurezza avanzata: adotta gradualmente pratiche di sicurezza avanzate come Zero Trust, soluzioni di sicurezza basate sull'AI e ricerca proattiva delle minacce.

Prospettiva dei servizi finanziari: affidabilità

Questo documento del Google Cloud Well-Architected Framework: prospettiva dei servizi finanziari (FS) fornisce una panoramica dei principi e dei consigli per progettare, eseguire il deployment e gestire carichi di lavoro FS affidabili in Google Cloud. Il documento esplora come integrare pratiche avanzate di affidabilità e osservabilità nei tuoi progetti architettonici. I consigli contenuti in questo documento sono in linea con il pilastro dell'affidabilità del Well-Architected Framework.

Per gli istituti finanziari, un'infrastruttura affidabile e resiliente è sia un'esigenza aziendale che un imperativo normativo. Per garantire l'affidabilità dei workload FS in Google Cloud , devi comprendere e mitigare i potenziali punti di errore, eseguire il deployment delle risorse in modo ridondante e pianificare il ripristino. La resilienza operativa è un risultato dell'affidabilità. È la capacità di assorbire, adattarsi e riprendersi dalle interruzioni. La resilienza operativa aiuta le organizzazioni di servizi finanziari a soddisfare requisiti normativi rigorosi. Inoltre, contribuisce a evitare danni intollerabili ai clienti.

I componenti fondamentali dell'affidabilità in Google Cloud sono le regioni, le zone e i vari ambiti di località delle risorse cloud: zonale, regionale, multiregionale e globale. Puoi migliorare la disponibilità utilizzando servizi gestiti, distribuendo le risorse, implementando pattern di alta disponibilità e automatizzando i processi.

Requisiti normativi

Le organizzazioni di servizi finanziari operano in base a rigidi mandati di affidabilità da parte di enti normativi come il Federal Reserve System negli Stati Uniti, l' European Banking Authority nell'UE e la Prudential Regulation Authority nel Regno Unito. A livello globale, gli enti regolatori sottolineano la resilienza operativa, che è fondamentale per la stabilità finanziaria e la protezione dei consumatori. La resilienza operativa è la capacità di resistere alle interruzioni, ripristinare efficacemente e mantenere i servizi critici. Ciò richiede un approccio armonizzato per la gestione dei rischi tecnologici e delle dipendenze da terze parti.

I requisiti normativi nella maggior parte delle giurisdizioni hanno i seguenti temi comuni:

Resilienza tecnologica e di cybersicurezza: rafforzamento delle difese contro le minacce informatiche e garanzia della resilienza dei sistemi IT.
Gestione dei rischi di terze parti: gestione dei rischi associati all'outsourcing di servizi a fornitori di tecnologie dell'informazione e della comunicazione (ICT).
Continuità aziendale e risposta agli incidenti: pianificazione solida per mantenere le operazioni critiche durante le interruzioni e per ripristinare l'operatività in modo efficace.
Protezione della stabilità finanziaria: garantire la solidità e la stabilità del sistema finanziario più ampio.

I suggerimenti sull'affidabilità contenuti in questo documento sono mappati ai seguenti principi fondamentali:

Dai la priorità ai deployment multizona e multiregionali
Eliminare i single point of failure (SPOF)
Comprendere e gestire la disponibilità aggregata
Implementare una strategia di RE solida
Sfruttare i servizi gestiti
Automatizzare i processi di provisioning e ripristino dell'infrastruttura

Dai la priorità ai deployment multizona e multiregionali

Per le applicazioni di servizi finanziari critici, ti consigliamo di utilizzare una topologia multiregionale distribuita in almeno due regioni e in tre zone all'interno di ciascuna regione. Questo approccio è importante per la resilienza contro le interruzioni di zona e regione. I regolamenti spesso prescrivono questo approccio, perché se si verifica un errore in una zona o regione, la maggior parte delle giurisdizioni considera una grave interruzione in una seconda zona una conseguenza plausibile. Il motivo è che quando una località non funziona, l'altra potrebbe ricevere un quantità eccezionalmente elevata di traffico aggiuntivo.

Prendi in considerazione i seguenti suggerimenti per aumentare la resilienza contro le interruzioni di zona e regione:

Preferisci le risorse con un ambito geografico più ampio. Se possibile, utilizza risorse regionali anziché risorse di zona e risorse multiregionali o globali anziché risorse regionali. Questo approccio consente di evitare la necessità di ripristinare le operazioni utilizzando i backup.
In ogni regione, utilizza tre zone anziché due. Per gestire i failover, esegui il provisioning della capacità di un terzo in più rispetto alla stima.
Riduci al minimo i passaggi di ripristino manuale implementando deployment active-active come i seguenti esempi:
- I database distribuiti come Spanner forniscono ridondanza e sincronizzazione integrate tra le regioni.
- La funzionalità HA di Cloud SQL fornisce una topologia quasi active-active, con repliche di lettura tra le zone. Fornisce un Recovery Point Objective (RPO) tra regioni prossimo a 0.
Distribuisci il traffico degli utenti tra le regioni utilizzando Cloud DNS e implementa un bilanciatore del carico regionale in ogni regione. Un bilanciatore del carico globale è un'altra opzione che puoi valutare in base ai tuoi requisiti e alla criticità. Per saperne di più, consulta Vantaggi e rischi del bilanciamento del carico globale per i deployment multiregionali.
Per archiviare i dati, utilizza servizi multiregionali come Spanner e Cloud Storage.

Elimina i single point of failure

Distribuisci le risorse in diverse località e utilizza risorse ridondanti per impedire che un singolo punto di errore (SPOF) influisca sull'intero stack dell'applicazione.

Considera i seguenti suggerimenti per evitare SPOF:

Evita di eseguire il deployment di un solo server delle applicazioni o database.
Assicurati la ricreazione automatica delle VM non riuscite utilizzando i gruppi di istanze gestite (MIG).
Distribuisci il traffico in modo uniforme tra le risorse disponibili implementando il bilanciamento del carico.
Utilizza configurazioni HA per database come Cloud SQL.
Migliora la disponibilità dei dati utilizzando i dischi permanenti a livello di regione con la replica sincrona.

Per saperne di più, vedi Progettare un'infrastruttura affidabile per i tuoi carichi di lavoro in Google Cloud.

Comprendere e gestire la disponibilità aggregata

Tieni presente che la disponibilità complessiva o aggregata di un sistema è influenzata dalla disponibilità di ogni livello o componente del sistema. Il numero di livelli in uno stack di applicazioni ha una relazione inversa con la disponibilità aggregata dello stack. Considera i seguenti suggerimenti per la gestione della disponibilità aggregata:

Calcola la disponibilità aggregata di uno stack multilivello utilizzando la formula disponibilità_livello1 × disponibilità_livello2 × disponibilità_livelloN.

Il seguente diagramma mostra il calcolo della disponibilità aggregata per un sistema multilivello composto da quattro servizi:

Nel diagramma precedente, il servizio in ogni livello fornisce una disponibilità del 99,9%, ma la disponibilità aggregata del sistema è inferiore, pari al 99,6% (0,999 × 0,999 × 0,999 × 0,999). In generale, la disponibilità aggregata di uno stack a più livelli è inferiore alla disponibilità del livello che offre la disponibilità minima.
Ove possibile, scegli la parallelizzazione anziché il concatenamento. Con i servizi parallelizzati, la disponibilità end-to-end è superiore a quella di ogni singolo servizio.

Il seguente diagramma mostra due servizi, A e B, di cui viene eseguito il deployment utilizzando gli approcci di concatenamento e parallelizzazione:

Negli esempi precedenti, entrambi i servizi hanno uno SLA del 99%, il che comporta la seguente disponibilità aggregata a seconda dell'approccio di implementazione:
- I servizi concatenati producono una disponibilità aggregata di solo il 98% (0,99 × 0,99).
- I servizi parallelizzati offrono una disponibilità aggregata superiore al 99,99% perché ogni servizio viene eseguito in modo indipendente e i singoli servizi non sono interessati dalla disponibilità degli altri servizi. La formula per i servizi parallelizzati aggregati è 1 − (1 − A) × (1 − B).
Scegli Google Cloud servizi con SLA di uptime che possono aiutarti a raggiungere il livello di uptime complessivo richiesto per il tuo stack di applicazioni.
Quando progetti l'architettura, considera i compromessi tra disponibilità, complessità operativa, latenza e costi. Aumentare il numero di nove di disponibilità generalmente costa di più, ma ti aiuta a soddisfare i requisiti normativi.

Ad esempio, una disponibilità del 99,9% (tre nove) significa un potenziale tempo di inattività di 86 secondi in un giorno di 24 ore. Al contrario, il 99% (due nove) significa un tempo di inattività di 864 secondi nello stesso periodo, ovvero 10 volte superiore rispetto a una disponibilità di tre nove.

Per i servizi finanziari critici, le opzioni di architettura potrebbero essere limitate. Tuttavia, è fondamentale identificare i requisiti di disponibilità e calcolare con precisione la disponibilità. L'esecuzione di una valutazione di questo tipo ti aiuta a valutare le implicazioni delle tue decisioni di progettazione sulla tua architettura e sul tuo budget.

Implementa una solida strategia di RE

Crea piani ben definiti per diversi scenari di disastro, tra cui interruzioni zonali e regionali. Una strategia di ripristino di emergenza (RE) ben definita ti consente di ripristinare le operazioni dopo un'interruzione e riprendere le normali operazioni con un impatto minimo.

RE e l'alta affidabilità sono concetti diversi. Con i deployment cloud, in generale, RE si applica ai deployment multiregionali e l'alta affidabilità ai deployment regionali. Questi archetipi di deployment supportano meccanismi di replica diversi.

HA: molti servizi gestiti forniscono la replica sincrona tra le zone all'interno di una singola regione per impostazione predefinita. Questi servizi supportano un Recovery Time Objective (RTO) e un Recovery Point Objective (RPO) pari a zero o quasi. Questo supporto ti consente di creare una topologia di deployment active-active che non ha SPOF.
DR: per i workload di cui è stato eseguito il deployment in due o più regioni, se non utilizzi servizi multiregionali o globali, devi definire una strategia di replica. La strategia di replica è in genere asincrona. Valuta attentamente in che modo questa replica influisce su RTO e RPO per le applicazioni critiche. Identifica le operazioni manuali o semiautomatiche necessarie per il failover.

Per gli istituti finanziari, la scelta della regione di failover potrebbe essere limitata da normative sulla sovranità dei dati e sulla residenza dei dati. Se hai bisogno di una topologia active-active in due regioni, ti consigliamo di scegliere servizi multiregionali gestiti, come Spanner e Cloud Storage, soprattutto quando la replica dei dati è fondamentale.

Prendi in considerazione i seguenti consigli:

Utilizza servizi di archiviazione multiregionali gestiti per i dati.
Acquisisci snapshot dei dati nei dischi permanenti e archiviali in località multiregionali.
Quando utilizzi risorse regionali o di zona, configura la replica dei dati in altre regioni.
Convalida l'efficacia dei piani di RE testandoli regolarmente.
Tieni presente l'RTO e l'RPO e la loro correlazione con la tolleranza all'impatto prevista dai regolamenti finanziari nella tua giurisdizione.

Per saperne di più, consulta Progettare ripristino di emergenza per interruzioni dell'infrastruttura cloud.

Sfruttare i servizi gestiti

Quando possibile, utilizza i servizi gestiti per sfruttare le funzionalità integrate per backup, alta affidabilità e scalabilità. Prendi in considerazione i seguenti consigli per l'utilizzo dei servizi gestiti:

Utilizza i servizi gestiti in Google Cloud. Forniscono HA supportata da SLA. Offrono anche meccanismi di backup e funzionalità di resilienza integrati.
Per la gestione dei dati, valuta servizi come Cloud SQL, Cloud Storage e Spanner,
Per l'hosting di calcolo e applicazioni, valuta la possibilità di utilizzare i gruppi di istanze gestite (MIG) di Compute Engine e i cluster Google Kubernetes Engine (GKE). I MIG regionali e i cluster GKE regionali sono resilienti alle interruzioni di zona.
Per migliorare la resilienza contro le interruzioni di servizio a livello di regione, utilizza i servizi multiregionali gestiti.
Identifica la necessità di piani di uscita per i servizi con caratteristiche uniche e definisci i piani richiesti. Gli enti di regolamentazione finanziaria come FCA, PRA ed EBA richiedono alle aziende di disporre di strategie e piani di emergenza per il recupero dei dati e la continuità operativa in caso di interruzione del rapporto con un fornitore di servizi cloud. Le aziende devono valutare la fattibilità dell'uscita prima di stipulare contratti cloud e devono mantenere la capacità di cambiare provider senza interruzioni operative.
Verifica che i servizi che scegli supportino l'esportazione dei dati in un formato aperto come CSV, Parquet e Avro. Verifica se i servizi si basano su tecnologie aperte, come il supporto di GKE per il formato Open Container Initiative (OCI) o Managed Service for Apache Airflow basato su Apache Airflow.

Automatizza i processi di provisioning e ripristino dell'infrastruttura

L'Automation contribuisce a ridurre al minimo gli errori umani e a diminuire il tempo e le risorse necessari per rispondere agli incidenti. L'utilizzo dell'automazione può contribuire a garantire un ripristino più rapido dagli errori e risultati più coerenti. Considera i seguenti suggerimenti per automatizzare il provisioning e il recupero delle risorse:

Ridurre al minimo gli errori umani utilizzando strumenti Infrastructure as Code (IaC) come Terraform.
Riduci l'intervento manuale automatizzando le procedure di failover. Le risposte automatiche possono anche contribuire a ridurre l'impatto degli errori. Ad esempio, puoi utilizzare Eventarc o Workflows per attivare automaticamente azioni correttive in risposta ai problemi osservati tramite i log di controllo.
Aumenta la capacità delle risorse cloud durante il failover utilizzando la scalabilità automatica.
Applica automaticamente criteri e protezioni per i requisiti normativi nella topologia cloud durante il deployment del servizio adottando l'ingegneria della piattaforma.

Prospettiva dei servizi finanziari: ottimizzazione dei costi

Questo documento del Google Cloud Well-Architected Framework: prospettiva dei servizi finanziari (FS) fornisce una panoramica dei principi e dei suggerimenti per ottimizzare i costi dei tuoi carichi di lavoro FS in Google Cloud. I consigli contenuti in questo documento sono in linea con il pilastro dell'ottimizzazione dei costi del Well-Architected Framework.

L'ottimizzazione dei costi efficace per i carichi di lavoro dei servizi finanziari richiede i seguenti elementi fondamentali:

La possibilità di identificare l'utilizzo delle risorse che genera sprechi rispetto a quello che genera valore.
Una cultura integrata di responsabilità finanziaria.

Per ottimizzare i costi, devi comprendere in modo completo i fattori di costo e le esigenze di risorse in tutta l'organizzazione. In alcune grandi organizzazioni, soprattutto in quelle che si trovano all'inizio del percorso nel cloud, un singolo team è spesso responsabile dell'ottimizzazione della spesa in un gran numero di domini. Questo approccio presuppone che un team centrale sia nella posizione migliore per identificare opportunità di alto valore per migliorare l'efficienza.

L'approccio centralizzato potrebbe avere successo durante le fasi iniziali dell'adozione del cloud o per i carichi di lavoro non critici. Tuttavia, un singolo team non può ottimizzare i costi dell'intera organizzazione. Quando l'utilizzo delle risorse o il livello di controllo normativo aumenta, l'approccio centralizzato non è sostenibile. I team centralizzati devono affrontare sfide di scalabilità, in particolare quando gestiscono un numero elevato di prodotti e servizi finanziari. I team di progetto proprietari dei prodotti e dei servizi potrebbero opporsi alle modifiche apportate da un team esterno.

Per un'ottimizzazione efficace dei costi, i dati relativi alla spesa devono essere ben visibili e gli ingegneri e gli altri utenti cloud vicini ai carichi di lavoro devono essere motivati ad agire per ottimizzare i costi. Dal punto di vista organizzativo, la sfida per l'ottimizzazione dei costi consiste nell'identificare le aree da ottimizzare, identificare gli ingegneri responsabili di queste aree e convincerli a intraprendere l'azione di ottimizzazione richiesta. Questo documento fornisce consigli per affrontare questa sfida.

I consigli per l'ottimizzazione dei costi contenuti in questo documento sono mappati ai seguenti principi fondamentali:

Identificare gli sprechi utilizzando gli Google Cloud strumenti
Identificare il valore analizzando e arricchendo i dati sulla spesa
Assegnare la spesa per promuovere la responsabilizzazione
Promuovere la responsabilità e motivare gli ingegneri ad agire
Concentrati sul valore e sul TCO anziché sul costo

Identificare gli sprechi utilizzando gli Google Cloud strumenti

Google Cloud offre diversi prodotti, strumenti e funzionalità per aiutarti a identificare gli sprechi. Prendi in considerazione i seguenti consigli.

Utilizzare l'automazione e l'AI per identificare sistematicamente cosa ottimizzare

Active Assist fornisce consigli intelligenti per servizi come Cloud Run per i microservizi, BigQuery per l'analisi dei dati, Compute Engine per le applicazioni principali, e Cloud SQL per i database relazionali. I suggerimenti di Active Assist vengono forniti senza costi e senza alcuna configurazione da parte tua. I consigli ti aiutano a identificare le risorse inattive e gli impegni sottoutilizzati.

Centralizza il monitoraggio e il controllo di FinOps tramite un'interfaccia unificata

I report di fatturazione Cloud e l'hub FinOps ti consentono di implementare un monitoraggio completo dei costi. Questa visione completa è fondamentale per i revisori finanziari e i team finanziari interni per monitorare la spesa cloud, valutare la situazione finanziaria, valutare la maturità di FinOps in varie unità aziendali o centri di costo e fornire una narrativa finanziaria coerente.

Identificare il valore analizzando e arricchendo i dati sulla spesa

Active Assist è efficace nell'identificazione degli sprechi evidenti. Tuttavia, individuare il valore può essere più difficile, soprattutto quando i carichi di lavoro si trovano su prodotti non adatti o quando non sono chiaramente allineati al valore aziendale. Per i workload FS, il valore aziendale va oltre la riduzione dei costi. Il valore include la mitigazione del rischio, il rispetto delle normative e l'ottenimento di vantaggi competitivi.

Per comprendere la spesa e il valore del cloud in modo olistico, devi avere una comprensione completa a più livelli: da dove proviene la spesa, quale funzione aziendale la genera e la fattibilità tecnica del refactoring o dell'ottimizzazione del workload in questione.

Il seguente diagramma mostra come applicare la piramide dati-informazioni-conoscenza-saggezza (DIKW) e gli strumenti Google Cloud per ottenere una comprensione olistica dei costi e del valore del cloud.

La piramide dati-informazioni-conoscenza-saggezza (DIKW) mostra come utilizzare i dati di spesa sul cloud per prendere decisioni informate.

Il diagramma precedente mostra come utilizzare l'approccio DIKW per perfezionare i dati grezzi sulla spesa per il cloud in insight e decisioni strategici che aumentano il valore aziendale.

Dati: in questo livello, raccogli flussi grezzi e non elaborati di dati di utilizzo e costi per le tue risorse cloud. Il team FinOps centrale utilizza strumenti come fatture di fatturazione Cloud, esportazioni di fatturazione e Cloud Monitoring per ottenere dati granulari e dettagliati. Ad esempio, un punto dati potrebbe essere che una VM denominata app1-test-vmA è stata eseguita per 730 ore nella regione us-central1 e ha avuto un costo di 70 $.
Informazioni: in questo livello, il team FinOps centrale utilizza strumenti come i report di fatturazione Cloud e l'hub FinOps per strutturare i dati non elaborati in modo da rispondere a domande come "Su quali categorie di risorse le persone spendono denaro?". Ad esempio, potresti scoprire che sono stati spesi 1050 $ per le VM di tipo di macchina n4-standard-2 in due regioni degli Stati Uniti.
Conoscenza: in questo livello, il team FinOps centrale arricchisce le informazioni con il contesto aziendale appropriato su chi ha speso denaro e per quale scopo. Utilizzi meccanismi come tagging, etichettatura, gerarchia delle risorse, account di fatturazione e dashboard Looker personalizzate. Ad esempio, potresti determinare che il team di test app1 negli Stati Uniti ha speso 650 $ durante la seconda settimana di luglio nell'ambito di un esercizio di stress test.
Saggezza: in questo livello, i team di prodotto e applicazione utilizzano le conoscenze contestualizzate per valutare il valore aziendale della spesa per il cloud e per prendere decisioni strategiche e informate. I tuoi team potrebbero rispondere a domande come le seguenti:
- I 5000 $ spesi per una pipeline di analisi dei dati generano valore aziendale?
- Potremmo riprogettare la pipeline per renderla più efficiente senza ridurre le prestazioni?

Considera i seguenti suggerimenti per analizzare i dati sulla spesa per il cloud.

Analizza i dati di spesa forniti da Google Cloud

Inizia con i dati dettagliati di fatturazione Cloud esportati in BigQuery e con i dati disponibili nei log di Monitoring. Per ricavare insight strategici e prendere decisioni, devi strutturare questi dati e arricchirli con il contesto aziendale.

Visualizzare i dati tramite gli strumenti disponibili

Migliora le dashboard Google Cloud integrate con report personalizzati utilizzando strumenti come Data Studio sui dati esportati da BigQuery. I team finanziari possono creare dashboard personalizzate che contestualizzano la spesa per il cloud in base a metriche finanziarie, requisiti di reporting normativi e redditività delle unità aziendali. Possono quindi fornire una chiara narrativa finanziaria per l'analisi e il processo decisionale da parte degli stakeholder esecutivi.

Assegnare la spesa per promuovere la responsabilizzazione

Dopo aver compreso i fattori che determinano la spesa per il cloud, devi identificare chi spende denaro e perché. Questo livello di comprensione richiede una solida pratica di allocazione dei costi, che prevede l'allegato di metadati pertinenti per l'attività alle risorse cloud. Ad esempio, se una determinata risorsa viene utilizzata dal team Banking-AppDev, puoi collegare un tag come team=banking_appdev alla risorsa per monitorare il costo sostenuto dal team per quella risorsa. Idealmente, dovresti assegnare il 100% dei costi del cloud all'origine della spesa. In pratica, potresti iniziare con un target inferiore perché la creazione di una struttura di metadati che supporti l'allocazione dei costi al 100% è un'operazione complessa.

Considera i seguenti suggerimenti per sviluppare una strategia di metadati a supporto dell'allocazione dei costi:

Validità: assicurati che i tag aiutino a identificare gli indicatori chiave di prestazione (KPI) e i requisiti normativi correlati all'attività. Questa associazione è fondamentale per gli storni di addebito interni, i rapporti per la conformità normativa e l'allineamento della spesa cloud agli obiettivi delle unità aziendali. Ad esempio, i seguenti tag identificano chiaramente un team di spesa, la sua regione e il prodotto su cui lavora: team=banking_appdev, region=emea, product=frontend.
Automazione: per raggiungere un elevato livello di conformità del tagging, applica il tagging tramite l'automazione. Il tagging manuale è soggetto a errori e incoerenze, che sono inaccettabili negli ambienti FS in cui l'auditabilità e l'accuratezza finanziaria sono fondamentali. Il tagging automatico garantisce che le risorse vengano classificate correttamente al momento della creazione.
Semplicità: misura fattori semplici e non correlati. Gli ambienti FS sono complessi. Per garantire che le regole di allocazione dei costi in un ambiente di questo tipo siano facili da comprendere e applicare, devono essere il più semplici possibile. Evita di progettare regole troppo complesse per casi molto specifici (limite). Regole complesse possono generare confusione e resistenza da parte dei team operativi.

Dopo aver definito una strategia di allocazione utilizzando i tag, devi decidere il livello di granularità a cui deve essere implementata la strategia. La granularità richiesta dipende dalle esigenze della tua attività. Ad esempio, alcune organizzazioni potrebbero dover monitorare i costi a livello di prodotto, altre potrebbero aver bisogno di dati di costo per ogni centro di costo e altre ancora potrebbero aver bisogno di dati di costo per ambiente (sviluppo, staging e produzione).

Prendi in considerazione i seguenti approcci per ottenere il livello appropriato di granularità dell'allocazione dei costi per la tua organizzazione:

Utilizza la gerarchia di progetti in Google Cloud come punto di partenza naturale per l'allocazione dei costi. I progetti rappresentano punti di applicazione delle policy in Google Cloud. Per impostazione predefinita, le autorizzazioni IAM, le policy di sicurezza e i costi vengono attribuiti a progetti e cartelle. Quando esamini i dati di costo esportati da Fatturazione Cloud, puoi visualizzare la gerarchia delle cartelle e i progetti associati ai dati di costo. Se la tua gerarchia delle risorseGoogle Cloud riflette la struttura di responsabilità della tua organizzazione per le spese, questo è il modo più semplice per implementare l'allocazione dei costi.
Utilizza i tag e le etichette per una maggiore granularità. Offrono modi flessibili per classificare le risorse nelle esportazioni della fatturazione. Tag ed etichette facilitano la suddivisione dettagliata dei costi per applicazione e ambiente.

Spesso, per un'allocazione efficace dei costi, potrebbe essere necessario utilizzare la gerarchia dei progetti in combinazione con l'assegnazione di tag ed etichette. Indipendentemente dall'approccio di allocazione dei costi che scegli, segui i consigli descritti in precedenza per sviluppare una strategia di metadati solida: convalida, automazione e semplicità.

Promuovere la responsabilizzazione e motivare gli ingegneri ad agire

Il team Cloud FinOps è responsabile di guidare un'organizzazione a essere consapevole dei costi e del valore. I singoli team di prodotto e tecnici devono intraprendere le azioni necessarie per l'ottimizzazione dei costi. Questi team sono anche responsabili del comportamento dei costi dei workload dei servizi finanziari e di garantire che i loro workload forniscano il valore aziendale richiesto.

Prendi in considerazione i seguenti suggerimenti per promuovere la responsabilità e motivare i team a ottimizzare i costi.

Crea un team FinOps centralizzato per la governance

Le pratiche FinOps per il cloud non crescono in modo organico. Un team FinOps dedicato deve definire e stabilire le pratiche FinOps svolgendo le seguenti operazioni:

Crea i processi, gli strumenti e le indicazioni necessari.
Crea, comunica e applica le norme necessarie, ad esempio tagging obbligatorio, revisioni del budget e processi di ottimizzazione.
Incoraggia i team di ingegneri a essere responsabili dei costi.
Intervieni quando i team di ingegneria non si assumono la responsabilità dei costi.

Ottenere sponsorizzazione e mandati esecutivi

La leadership senior, inclusi CTO, CFO e CIO, deve promuovere attivamente un passaggio a una cultura FinOps a livello di organizzazione. Il loro supporto è fondamentale per dare la priorità alla responsabilità dei costi, allocare le risorse per il programma FinOps, garantire la partecipazione interfunzionale e promuovere la conformità ai requisiti FinOps.

Incentivare i team a ottimizzare i costi

Gli ingegneri e i team di ingegneria potrebbero non essere motivati a concentrarsi sull'ottimizzazione dei costi. È importante allineare gli obiettivi di team e individuali all'efficienza dei costi implementando incentivi come i seguenti:

Reinvesti una parte dei risparmi ottenuti dall'ottimizzazione dei costi nei team che hanno raggiunto l'ottimizzazione.
Riconosci pubblicamente e celebra gli sforzi e i successi nell'ottimizzazione dei costi.
Utilizza tecniche di gamification per premiare i team che ottimizzano i costi in modo efficace.
Integra le metriche di efficienza negli obiettivi di rendimento.

Implementare tecniche di showback e chargeback

Assicurati che i team abbiano una visibilità chiara delle risorse e dei costi cloud di loro proprietà. Assegna la responsabilità finanziaria alle persone appropriate all'interno dei team. Utilizza meccanismi formali per applicare un tagging rigoroso e implementare regole trasparenti per l'allocazione dei costi condivisi.

Concentrati sul valore e sul TCO anziché sul costo

Quando valuti le soluzioni cloud, considera il costo totale di proprietà (TCO) a lungo termine. Ad esempio, l'hosting autonomo di un database per un'applicazione potrebbe sembrare più economico rispetto all'utilizzo di un servizio di database gestito come Cloud SQL. Tuttavia, per valutare il valore a lungo termine e il TCO, devi considerare i costi nascosti associati ai database self-hosted. Questi costi includono l'impegno ingegneristico dedicato per l'applicazione di patch, lo scaling, l'hardening della sicurezza e il ripristino di emergenza, che sono requisiti fondamentali per i carichi di lavoro FS. I servizi gestiti offrono un valore a lungo termine significativamente più elevato, che compensa i costi dell'infrastruttura. I servizi gestiti forniscono solide funzionalità di conformità, dispongono di funzionalità di affidabilità integrate e possono contribuire a ridurre l'overhead operativo.

Considera i seguenti suggerimenti per concentrarti sul valore e sul TCO.

Utilizzare tecniche e strumenti specifici del prodotto per l'ottimizzazione delle risorse

Sfrutta gli strumenti e le funzionalità di ottimizzazione dei costi forniti dai prodotti Google Cloud, ad esempio:

Compute Engine: scalabilità automatica, tipi di macchine personalizzati e VM spot
GKE: Gestore della scalabilità automatica del cluster e provisioning automatico dei nodi
Cloud Storage: Gestione del ciclo di vita degli oggetti e Autoclass
BigQuery: Prezzi basati sulla capacità e tecniche di ottimizzazione dei costi
Google Cloud VMware Engine: sconti per impegno di utilizzo (CUD), spazio di archiviazione ottimizzato e altre strategie di ottimizzazione dei costi

Usufruisci degli sconti

Assicurati che la tariffa di fatturazione per le tue risorse cloud sia la più bassa possibile utilizzando gli sconti offerti da Google. I team di ingegneria e prodotto in genere gestiscono l'ottimizzazione delle risorse. Il team FinOps centrale è responsabile dell'ottimizzazione delle tariffe di fatturazione perché ha visibilità sui requisiti delle risorse in tutta l'organizzazione. Pertanto, possono aggregare i requisiti e massimizzare gli sconti basati sull'impegno.

Puoi usufruire dei seguenti tipi di sconti per le risorseGoogle Cloud :

Gli sconti aziendali sono sconti negoziati in base all'impegno della tua organizzazione a una spesa totale minima su Google Cloud a una tariffa di fatturazione ridotta.
Gli sconti per impegno di utilizzo basati sulle risorse vengono offerti in cambio dell'impegno a utilizzare una quantità minima di risorse Compute Engine per un periodo di uno o tre anni. Gli sconti per impegno di utilizzo (CUD) basati sulle risorse sono applicabili alle risorse che si trovano in una regione specifica. Per la maggior parte degli account di fatturazione Cloud, Google Cloud consente la condivisione del CUD basato sulle risorse e condivide i CUD in tutti i progetti associati a quell'account.
Gli sconti per impegno di utilizzo (CUD) basati sulla spesa vengono offerti in cambio dell'impegno a spendere un importo minimo di denaro per un determinato prodotto in un periodo di un anno o tre anni. Gli sconti basati sulla spesa sono applicabili a livello di account di fatturazione. Gli sconti vengono applicati a livello regionale o globale a seconda del prodotto.

Puoi ottenere risparmi significativi utilizzando i CUD in aggiunta agli sconti per le aziende.

Oltre agli sconti per impegno di utilizzo, utilizza i seguenti approcci per ridurre le tariffe di fatturazione:

Utilizza le VM spot per carichi di lavoro flessibili e a tolleranza di errore. Le VM spot hanno un costo inferiore di oltre l'80% rispetto alle VM standard.
BigQuery offre più modelli di prezzo, tra cui prezzi on demand e prezzi basati sulle versioni che si basano su impegni e requisiti di scalabilità automatica. Se utilizzi un volume significativo di risorse BigQuery, scegli una versione appropriata per ridurre il costo per slot per i carichi di lavoro analitici.
Valuta attentamente le regioni Google Cloud disponibili per i servizi che devi utilizzare. Scegli regioni in linea con i tuoi obiettivi di costo e fattori come la latenza e i requisiti di conformità. Per comprendere i compromessi tra costi, sostenibilità e latenza, utilizza lo Google Cloud strumento per la selezione della regione.

Prospettiva dei servizi finanziari: ottimizzazione del rendimento

Questo documento della Google Cloud Well-Architected Framework: prospettiva dei servizi finanziari fornisce una panoramica dei principi e dei consigli per ottimizzare le prestazioni dei tuoi carichi di lavoro di servizi finanziari in Google Cloud. I consigli contenuti in questo documento sono in linea con il pilastro dell'ottimizzazione del rendimento del Well-Architected Framework.

L'ottimizzazione del rendimento ha una lunga storia nei servizi finanziari. Ha aiutato le organizzazioni di servizi finanziari a superare le sfide tecniche ed è quasi sempre stato un fattore abilitante o acceleratore per la creazione di nuovi modelli aziendali. Ad esempio, i bancomat (introdotti nel 1967) hanno automatizzato la procedura di erogazione di contanti e hanno aiutato le banche a ridurre il costo della loro attività principale. Tecniche come l'elusione del kernel del sistema operativo e il blocco dei thread dell'applicazione sui core di calcolo hanno contribuito a ottenere una latenza deterministica e bassa per le applicazioni di trading. La riduzione della latenza ha facilitato una liquidità maggiore e più solida con spread più ristretti nei mercati finanziari.

Il cloud crea nuove opportunità per l'ottimizzazione del rendimento. Inoltre, mette in discussione alcuni pattern di ottimizzazione accettati storicamente. Nello specifico, i seguenti compromessi sono più trasparenti e controllabili nel cloud:

Time to market rispetto al costo.
Rendimento end-to-end a livello di sistema rispetto al rendimento a livello di nodo.
Disponibilità di talenti rispetto all'agilità del processo decisionale relativo alla tecnologia.

Ad esempio, adattare hardware e risorse IT a requisiti di competenze specifici è un'attività banale nel cloud. Per supportare la programmazione GPU, puoi creare VM basate su GPU. Puoi scalare la capacità nel cloud per far fronte ai picchi di domanda senza eseguire il provisioning eccessivo delle risorse. Questa funzionalità contribuisce a garantire che i tuoi carichi di lavoro possano gestire i picchi di carico, ad esempio nei giorni nonfarm payroll e quando i volumi di trading sono significativamente superiori ai livelli storici. Invece di concentrarti sulla scrittura di codice altamente ottimizzato a livello di singoli server (come codice ottimizzato nel linguaggio C) o sulla scrittura di codice per ambienti di computing ad alte prestazioni (HPC) convenzionali, puoi fare lo scale out in modo ottimale utilizzando un sistema distribuito basato su Kubernetes ben progettato.

I consigli per l'ottimizzazione del rendimento contenuti in questo documento sono mappati ai seguenti principi fondamentali:

Allineare le metriche di rendimento della tecnologia agli indicatori chiave dell'attività
Dai la priorità alla sicurezza senza sacrificare le prestazioni per rischi non dimostrati
Ripensa l'architettura per adattarla a nuove opportunità e requisiti
Tecnologia a prova di futuro per soddisfare le esigenze aziendali attuali e future

Allineare le metriche sul rendimento della tecnologia agli indicatori chiave di business

Puoi mappare l'ottimizzazione del rendimento ai risultati di valore aziendale in diversi modi. Ad esempio, in un ufficio di ricerca buy-side, un obiettivo aziendale potrebbe essere quello di ottimizzare l'output per ora di ricerca o di dare la priorità agli esperimenti dei team che hanno un track record comprovato, ad esempio con Sharpe ratio più elevati. Dal lato della vendita, puoi utilizzare l'analisi per monitorare l'interesse dei clienti e di conseguenza dare la priorità al throughput dei modelli di AI che supportano la ricerca più interessante.

Il collegamento degli obiettivi di rendimento agli indicatori chiave di prestazione (KPI) aziendali è importante anche per finanziare i miglioramenti del rendimento. Le iniziative di innovazione e trasformazione aziendale (a volte chiamate iniziative change-the-bank) hanno budget diversi e potenzialmente diversi gradi di accesso alle risorse rispetto alle operazioni business-as-usual (BAU) o run-the-bank. Ad esempio, Google Cloud ha aiutato i team di gestione del rischio e tecnologia di un G-SIFI a collaborare con gli analisti quantitativi del front office a una soluzione per eseguire calcoli di analisi del rischio (come XVA) in pochi minuti anziché in ore o giorni. Questa soluzione ha aiutato l'organizzazione a soddisfare i requisiti di conformità pertinenti. Inoltre, ha consentito ai trader di avere conversazioni di qualità superiore con i propri clienti, offrendo potenzialmente spread più ristretti, liquidità più solida e copertura più conveniente.

Quando allinei le metriche sul rendimento agli indicatori aziendali, tieni conto dei seguenti consigli:

Collega ogni iniziativa tecnologica agli obiettivi e risultati chiave (OKR) pertinenti, ad esempio aumentare le entrate o i profitti, ridurre i costi e mitigare i rischi in modo più efficiente o olistico.
Concentrati sull'ottimizzazione delle prestazioni a livello di sistema. Vai oltre la separazione convenzionale tra change-the-bank e run-the-bank e i silos front office e back office.

Dai la priorità alla sicurezza senza sacrificare le prestazioni per rischi non dimostrati

La sicurezza e la conformità legale nelle organizzazioni di servizi finanziari devono essere inequivocabilmente di standard elevati. Mantenere uno standard elevato è essenziale per evitare di perdere clienti e per prevenire danni irreparabili al brand di un'organizzazione. Spesso, il valore più elevato deriva da innovazioni tecnologiche come l'AI generativa e da servizi gestiti unici come Spanner. Non scartare automaticamente queste opzioni tecnologiche a causa di un'idea sbagliata generalizzata su un rischio operativo proibitivo o su un'inadeguata postura di conformità normativa.

Google Cloud ha collaborato a stretto contatto con i G-SIFI per garantire che un approccio basato sull'AI per l'antiriciclaggio (AML) possa essere utilizzato nelle giurisdizioni in cui gli istituti servono i clienti. Ad esempio, HSBC ha migliorato significativamente il rendimento della sua unità per i reati finanziari (Fincrime) con i seguenti risultati:

Quasi 2-4 volte in più le attività sospette confermate.
Costi operativi inferiori grazie all'eliminazione di oltre il 60% di falsi positivi e tempi di indagine concentrati solo su avvisi strategici ad alto rischio.
Output verificabili e spiegabili per supportare la conformità legale.

Prendi in considerazione i seguenti consigli:

Verifica che i prodotti che intendi utilizzare possano contribuire a soddisfare i requisiti di sicurezza, resilienza e conformità per le giurisdizioni in cui operi. Per raggiungere questo obiettivo, collabora con i team degli account, i team di gestione dei rischi e i team di prodotto. Google Cloud
Crea modelli più potenti e fornisci trasparenza ai clienti sfruttando l'interpretabilità dell'AI (ad esempio, l'attribuzione del valore di Shapley). Tecniche come l'attribuzione del valore di Shapley possono attribuire le decisioni del modello a caratteristiche particolari a livello di input.
Ottieni trasparenza per i carichi di lavoro di AI generativa utilizzando tecniche come citazioni delle fonti, fondatezza e RAG.
Quando la spiegabilità non è sufficiente, separa i passaggi decisionali nei tuoi flussi di valore e utilizza l'AI per automatizzare solo i passaggi non decisionali. In alcuni casi, l'AI spiegabile potrebbe non essere sufficiente o un processo potrebbe richiedere l'intervento umano a causa di problemi normativi (ad esempio, il GDPR, articolo 22). In questi casi, presenta tutte le informazioni necessarie all'agente umano per il processo decisionale in un unico pannello di controllo, ma automatizza le attività di raccolta, importazione, manipolazione e riepilogo dei dati.

Rimodella la tua architettura per adattarla a nuove opportunità e requisiti

L'integrazione delle architetture attuali con funzionalità basate su cloud può fornire un valore significativo. Per ottenere risultati più trasformativi, devi ripensare periodicamente la tua architettura utilizzando un approccio cloud-first.

Prendi in considerazione i seguenti consigli per ripensare periodicamente l'architettura dei tuoi workload per ottimizzare ulteriormente il rendimento.

Utilizza alternative basate su cloud ai sistemi e agli scheduler HPC on-premise

Per sfruttare una maggiore elasticità, una migliore strategia di sicurezza e ampie funzionalità di monitoraggio e governance, puoi eseguire i carichi di lavoro HPC nel cloud o trasferire i carichi di lavoro on-premise sul cloud. Tuttavia, per determinati casi d'uso di modellazione numerica, come la simulazione di strategie di investimento o la modellazione XVA, la combinazione di Kubernetes con Kueue potrebbe offrire una soluzione più potente.

Passare alla programmazione basata su grafici per le simulazioni

Le simulazioni Monte Carlo potrebbero essere molto più efficienti in un sistema di esecuzione basato su grafici come Dataflow. Ad esempio, HSBC utilizza Dataflow per eseguire i calcoli del rischio 16 volte più velocemente rispetto al suo approccio precedente.

Esegui piattaforme di scambio e trading basate sul cloud

Le conversazioni con i Google Cloud clienti rivelano che il principio di Pareto 80/20 si applica ai requisiti di rendimento dei mercati e delle applicazioni di trading.

Più dell'80% delle applicazioni di trading non richiede una latenza estremamente bassa. Tuttavia, ottengono vantaggi significativi dalle funzionalità di resilienza, sicurezza ed elasticità del cloud. Ad esempio, BidFX, una piattaforma multi-dealer di cambio valuta, utilizza il cloud per lanciare rapidamente nuovi prodotti e per aumentare significativamente la loro disponibilità e presenza senza aumentare le risorse.
Le applicazioni rimanenti (meno del 20%) richiedono bassa latenza (meno di un millisecondo), determinismo ed equità nella distribuzione dei messaggi. Tradizionalmente, questi sistemi vengono eseguiti in strutture di colocation rigide e costose. Sempre più spesso, anche questa categoria di applicazioni viene ripubblicata sul cloud, all'edge o come applicazioni cloud-first.

Rendere la tecnologia a prova di futuro per soddisfare le esigenze aziendali attuali e future

Storicamente, molte organizzazioni di servizi finanziari hanno creato tecnologie proprietarie per ottenere un vantaggio competitivo. Ad esempio, nei primi anni 2000, le banche di investimento e le società di trading di successo avevano le proprie implementazioni di tecnologie di base come i sistemi di pubblicazione/sottoscrizione e i broker di messaggi. Con l'evoluzione delle tecnologie open source e del cloud, queste tecnologie sono diventate commodity e non offrono un valore aziendale incrementale.

Tieni presente i seguenti consigli per preparare la tua tecnologia al futuro.

Adotta un approccio data-as-a-service (DaaS) per ridurre i tempi di commercializzazione e ottenere trasparenza dei costi

Le organizzazioni di servizi finanziari spesso si evolvono attraverso una combinazione di crescita organica e fusioni e acquisizioni. Di conseguenza, le organizzazioni devono integrare tecnologie disparate. Devono anche gestire le risorse duplicate, come fornitori di dati, licenze di dati e punti di integrazione. Google Cloud offre opportunità per creare valore differenziato nelle integrazioni post-fusione.

Ad esempio, puoi utilizzare servizi come BigQuery sharing per creare una piattaforma di dati come servizio (DaaS) pronta per l'analisi. La piattaforma può fornire dati di mercato e input da fonti alternative. Questo approccio elimina la necessità di creare pipeline di dati ridondanti e ti consente di concentrarti su iniziative più preziose. Inoltre, le società fuse o acquisite possono razionalizzare rapidamente e in modo efficiente le proprie esigenze di licenze e infrastrutture per i dati post-fusione. Invece di impegnarsi ad adattare e unire le proprietà e le operazioni di dati legacy, l'attività combinata può concentrarsi su nuove opportunità commerciali.

Crea un livello di astrazione per isolare i sistemi esistenti e gestire i modelli di business emergenti

Sempre più spesso, il vantaggio competitivo per le banche non è il sistema bancario di base, ma il livello di customer experience. Tuttavia, i sistemi bancari legacy spesso utilizzano applicazioni monolitiche sviluppate in linguaggi come Cobol e integrate nell'intera catena del valore bancario. Questa integrazione ha reso difficile separare i livelli della catena del valore, quindi era quasi impossibile eseguire l'upgrade e modernizzare questi sistemi.

Una soluzione per affrontare questa sfida è utilizzare un livello di isolamento come un sistema di gestione API o un livello di staging come Spanner che duplica il libro dei record e facilita la modernizzazione dei servizi con analisi avanzate e AI. Ad esempio, Deutsche Bank ha utilizzato Spanner per isolare il proprio sistema bancario principale legacy e iniziare il proprio percorso di innovazione.

Well-Architected Framework: prospettiva dei servizi finanziari (FS) Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Collaboratori

Prospettiva dei servizi finanziari: eccellenza operativa

Definisci SLA e SLO e SLI corrispondenti

Esempi di livelli di servizio

Definisci e testa le procedure di gestione degli incidenti

Stabilisci procedure di risposta agli incidenti chiare

Implementa regolarmente test di carico e delle prestazioni

Automatizzare i test all'interno delle pipeline CI/CD

Migliorare e innovare continuamente

Eseguire retrospettive regolari

Promuovere una cultura dell'apprendimento

Rimanere al passo con le tecnologie cloud

Prospettiva dei servizi finanziari: sicurezza, privacy e conformità

Implementare la sicurezza integrata

Implementa Zero Trust

Implementare la sicurezza shift left

Implementare una cyberdifesa preventiva

Utilizzare l'AI in modo sicuro e responsabile e utilizzare l'AI per la sicurezza

Soddisfa le esigenze normative, di conformità e di privacy

Dare la priorità alle iniziative di sicurezza

Prospettiva dei servizi finanziari: affidabilità

Requisiti normativi

Dai la priorità ai deployment multizona e multiregionali

Elimina i single point of failure

Comprendere e gestire la disponibilità aggregata

Implementa una solida strategia di RE

Sfruttare i servizi gestiti

Automatizza i processi di provisioning e ripristino dell'infrastruttura

Prospettiva dei servizi finanziari: ottimizzazione dei costi

Identificare gli sprechi utilizzando gli Google Cloud strumenti

Utilizzare l'automazione e l'AI per identificare sistematicamente cosa ottimizzare

Centralizza il monitoraggio e il controllo di FinOps tramite un'interfaccia unificata

Identificare il valore analizzando e arricchendo i dati sulla spesa

Analizza i dati di spesa forniti da Google Cloud

Visualizzare i dati tramite gli strumenti disponibili

Assegnare la spesa per promuovere la responsabilizzazione

Promuovere la responsabilizzazione e motivare gli ingegneri ad agire

Crea un team FinOps centralizzato per la governance

Ottenere sponsorizzazione e mandati esecutivi

Incentivare i team a ottimizzare i costi

Implementare tecniche di showback e chargeback

Concentrati sul valore e sul TCO anziché sul costo

Utilizzare tecniche e strumenti specifici del prodotto per l'ottimizzazione delle risorse

Usufruisci degli sconti

Prospettiva dei servizi finanziari: ottimizzazione del rendimento

Allineare le metriche sul rendimento della tecnologia agli indicatori chiave di business

Dai la priorità alla sicurezza senza sacrificare le prestazioni per rischi non dimostrati

Rimodella la tua architettura per adattarla a nuove opportunità e requisiti

Utilizza alternative basate su cloud ai sistemi e agli scheduler HPC on-premise

Passare alla programmazione basata su grafici per le simulazioni

Esegui piattaforme di scambio e trading basate sul cloud

Rendere la tecnologia a prova di futuro per soddisfare le esigenze aziendali attuali e future

Adotta un approccio data-as-a-service (DaaS) per ridurre i tempi di commercializzazione e ottenere trasparenza dei costi

Crea un livello di astrazione per isolare i sistemi esistenti e gestire i modelli di business emergenti

Well-Architected Framework: prospettiva dei servizi finanziari (FS)