Questo principio del pilastro dell'affidabilità del Google Cloud Well-Architected Framework fornisce consigli per aiutarti a progettare ed eseguire test per il recupero dalla perdita di dati.
Questo principio è pertinente all'area di interesse apprendimento dell'affidabilità.
Panoramica del principio
Per assicurarti che il sistema possa ripristinarsi in situazioni in cui i dati vengono persi o danneggiati, devi eseguire test per questi scenari. Le istanze di perdita di dati potrebbero essere causate da un bug software o da qualche tipo di calamità naturale. Dopo questi eventi, devi ripristinare i dati dai backup e ripristinare tutti i servizi utilizzando i dati appena ripristinati.
Ti consigliamo di utilizzare tre criteri per valutare la riuscita o il fallimento di questo tipo di test di ripristino: integrità dei dati, Recovery Time Objective (RTO) e Recovery Point Objective (RPO). Per informazioni dettagliate sulle metriche RTO e RPO, consulta Nozioni di RE DR.
Lo scopo del test di ripristino dei dati è verificare periodicamente che la tua organizzazione possa continuare a soddisfare i requisiti di business continuity. Oltre a misurare RTO e RPO, un test di ripristino dei dati deve includere il test dell'intero stack di applicazioni e di tutti i servizi di infrastruttura critici con i dati ripristinati. Ciò è necessario per confermare che l'intera applicazione distribuita funzioni correttamente nell'ambiente di test.
Consigli
Quando progetti ed esegui test per il recupero dalla perdita di dati, tieni in considerazione i suggerimenti nelle seguenti sottosezioni.
Verifica la coerenza del backup e testa le procedure di ripristino
Devi verificare che i backup contengano snapshot coerenti e utilizzabili dei dati che puoi ripristinare per ripristinare immediatamente il servizio delle applicazioni. Per convalidare l'integrità dei dati, configura controlli di coerenza automatizzati da eseguire dopo ogni backup.
Per testare i backup, ripristinali in un ambiente non di produzione. Per assicurarti che i backup possano essere ripristinati in modo efficiente e che i dati ripristinati soddisfino i requisiti dell'applicazione, simula regolarmente scenari di recupero dei dati. Documenta i passaggi per il ripristino dei dati e forma i tuoi team per eseguirli in modo efficace in caso di errore.
Pianificare backup regolari e frequenti
Per ridurre al minimo la perdita di dati durante il ripristino e soddisfare gli obiettivi RPO, è essenziale disporre di backup pianificati regolarmente. Stabilisci una frequenza di backup che sia in linea con il tuo RPO. Ad esempio, se il tuo RPO è di 15 minuti, pianifica l'esecuzione dei backup almeno ogni 15 minuti. Ottimizza gli intervalli di backup per ridurre il rischio di perdita di dati.
Utilizza Google Cloud strumenti come Cloud Storage, backup automatici di Cloud SQL o backup di Spanner per pianificare e gestire i backup. Per le applicazioni critiche, utilizza soluzioni di backup quasi continue come il recupero point-in-time (PITR) per Cloud SQL o i backup incrementali per set di dati di grandi dimensioni.
Definisci e monitora l'RPO
Imposta un RPO chiaro in base alle esigenze della tua attività e monitora il rispetto dell'RPO. Se gli intervalli di backup superano l'RPO definito, utilizza Cloud Monitoring per configurare avvisi.
Monitorare l'integrità del backup
Utilizza il servizio di backup e DR Google Cloud o strumenti simili per monitorare l'integrità dei backup e verificare che siano archiviati in posizioni sicure e affidabili. Assicurati che i backup vengano replicati in più regioni per una maggiore resilienza.
Pianificare scenari oltre il backup
Combina i backup con strategie di ripristino di emergenza come configurazioni di failover active-active o replica tra regioni per migliorare il tempo di ripristino in casi estremi. Per ulteriori informazioni, consulta la Guida alla pianificazione del disaster recovery.