Crea sistemi ad alta disponibilità tramite la ridondanza delle risorse

Last reviewed 2024-12-30 UTC

Questo principio del pilastro dell'affidabilità del Google Cloud Well-Architected Framework fornisce consigli per pianificare, creare e gestire la ridondanza delle risorse, che può aiutarti a evitare errori.

Questo principio è pertinente all'ambito area di interesse dell'affidabilità.

Panoramica dei principi

Dopo aver deciso il livello di affidabilità di cui hai bisogno, devi progettare i tuoi sistemi in modo da evitare punti singoli di errore. Ogni componente critico del sistema deve essere replicato su più macchine, zone e regioni. Ad esempio, un database critico non può trovarsi in una sola regione e un server di metadati non può essere sottoposto a deployment in una sola zona o regione. In questi esempi, se la zona o la regione unica ha un'interruzione, il sistema ha un'interruzione globale.

Consigli

Per creare sistemi ridondanti, tieni presente i consigli nelle seguenti sottosezioni.

Identifica i domini di errore e replica i servizi

Mappa i domini di errore del tuo sistema, dalle singole VM alle regioni, e progetta la ridondanza tra i domini di errore.

Per garantire l'alta affidabilità, distribuisci e replica i servizi e le applicazioni in più zone e regioni. Configura il sistema per il failover automatico per assicurarti che i servizi e le applicazioni continuino a essere disponibili in caso di interruzioni di zone o regioni.

Per esempi di architetture multi-zona e multi-regione, consulta Progettare un'infrastruttura affidabile per i carichi di lavoro in Google Cloud.

Rileva e risolvi i problemi tempestivamente

Monitora continuamente lo stato dei domini di errore per rilevare e risolvere i problemi tempestivamente.

Puoi monitorare lo stato attuale dei Google Cloud servizi in tutte le regioni utilizzando la Google Cloud dashboard di Service Health. Puoi anche visualizzare gli incidenti pertinenti al tuo progetto utilizzando Personalized Service Health. Puoi utilizzare i bilanciatori del carico per rilevare l'integrità delle risorse e instradare automaticamente il traffico ai backend integri. Per saperne di più, consulta Panoramica dei controlli di integrità.

Testa gli scenari di failover

Come un'esercitazione antincendio, simula regolarmente gli errori per convalidare l'efficacia delle strategie di replica e failover.

Per saperne di più, consulta Simulare un'interruzione di zona per un gruppo di istanze gestite a livello regionale e Simulare un errore di zona nei cluster regionali GKE.