Well-Architected Framework: pilastro affidabilità

Last reviewed 2024-12-30 UTC

Il pilastro dell'affidabilità del Google Cloud Well-Architected Framework fornisce principi e consigli per aiutarti a progettare, implementare e gestire carichi di lavoro affidabili in Google Cloud.

Questo documento è rivolto ad architetti cloud, sviluppatori, platform engineer, amministratori e site reliability engineer.

L'affidabilità è la capacità di un sistema di svolgere costantemente le funzioni previste nelle condizioni definite e di mantenere un servizio ininterrotto. Le best practice per l'affidabilità includono ridondanza, progettazione a tolleranza di errore, monitoraggio e processi di ripristino automatici.

Nell'ambito dell'affidabilità, la resilienza è la capacità del sistema di resistere e riprendersi da guasti o interruzioni impreviste, mantenendo al contempo le prestazioni.Google Cloud Le funzionalità, come le implementazioni multiregionali, i backup automatici e le soluzioni di ripristino di emergenza, possono aiutarti a migliorare la resilienza del sistema.

L'affidabilità è importante per la tua strategia cloud per molti motivi, tra cui i seguenti:

  • Tempi di inattività minimi: i tempi di inattività possono comportare una perdita di entrate, una riduzione della produttività e danni alla reputazione. Le architetture resilienti possono contribuire a garantire che i sistemi continuino a funzionare durante i guasti o a riprendersi in modo efficiente.
  • Esperienza utente migliorata: gli utenti si aspettano interazioni fluide con la tecnologia. I sistemi resilienti possono contribuire a mantenere prestazioni e disponibilità coerenti e forniscono un servizio affidabile anche in caso di elevata domanda o problemi imprevisti.
  • Integrità dei dati: i guasti possono causare la perdita o il danneggiamento dei dati. I sistemi resilienti implementano meccanismi come backup, ridondanza e replica per proteggere i dati e garantirne l'accuratezza e l'accessibilità.
  • Continuità operativa: la tua attività si basa sulla tecnologia per le operazioni critiche. Le architetture resilienti possono contribuire a garantire la continuità dopo un guasto catastrofico, consentendo alle funzioni aziendali di continuare senza interruzioni significative e supportando un rapido ripristino.
  • Conformità: molti settori hanno requisiti normativi per la disponibilità del sistema e la protezione dei dati. Le architetture resilienti possono aiutarti a soddisfare questi standard garantendo che i sistemi rimangano operativi e sicuri.
  • Costi a lungo termine inferiori: le architetture resilienti richiedono un investimento iniziale, ma la resilienza può contribuire a ridurre i costi nel tempo evitando tempi di inattività costosi, correzioni reattive e consentendo un utilizzo più efficiente delle risorse.

Mentalità organizzativa

Per rendere affidabili i tuoi sistemi, hai bisogno di un piano e di una strategia consolidata. Questa strategia deve includere la formazione e l'autorità per dare la priorità all'affidabilità insieme ad altre iniziative.

Stabilisci un'aspettativa chiara che l'intera organizzazione sia responsabile dell' affidabilità, inclusi sviluppo, gestione dei prodotti, operazioni, platform engineering e site reliability engineering (SRE). Anche i gruppi incentrati sull'attività, come marketing e vendite, possono influenzare l'affidabilità.

Ogni team deve comprendere i target di affidabilità e i rischi delle proprie applicazioni. I team devono essere responsabili di questi requisiti. I conflitti tra l'affidabilità e lo sviluppo regolare delle funzionalità del prodotto devono essere prioritizzati e sottoposti a escalation di conseguenza.

Pianifica e gestisci l'affidabilità in modo olistico, in tutte le funzioni e i team. Valuta la possibilità di configurare un Cloud Center of Excellence (CCoE) che includa un pilastro dell'affidabilità. Per saperne di più, consulta Ottimizzare il percorso cloud della tua organizzazione con un Cloud Center of Excellence.

Aspetti da migliorare per l'affidabilità

Le attività che esegui per progettare, implementare e gestire un sistema affidabile possono essere classificate nelle seguenti aree di interesse. Ciascuno dei principi e dei consigli sull'affidabilità in questo pilastro è pertinente a una di queste aree di interesse.

  • Definizione dell'ambito: per comprendere il tuo sistema, esegui un'analisi dettagliata della sua architettura. Devi comprendere i componenti, il loro funzionamento e le loro interazioni, il flusso di dati e azioni nel sistema e cosa potrebbe andare storto. Identifica potenziali guasti, colli di bottiglia e rischi, in modo da poter intraprendere azioni per mitigare questi problemi.
  • Osservazione: per evitare guasti al sistema, implementa un'osservazione e un monitoraggio completi e continui. Grazie a questa osservazione, puoi comprendere le tendenze e identificare in modo proattivo i potenziali problemi.
  • Risposta: per ridurre l'impatto dei guasti, rispondi in modo appropriato e ripristina in modo efficiente. Le risposte automatiche possono anche contribuire a ridurre l'impatto dei guasti. Anche con la pianificazione e i controlli, i guasti possono comunque verificarsi.
  • Apprendimento: per evitare che i guasti si ripetano, impara da ogni esperienza e intraprendi le azioni appropriate.

Principi fondamentali

I consigli del pilastro dell'affidabilità del Well-Architected Framework sono mappati ai seguenti principi fondamentali:

Collaboratori

Autori:

Altri collaboratori: