Questa pagina descrive le best practice per garantire l'alta disponibilità per l'installazione connessa di Google Distributed Cloud. Distributed Cloud Connected non offre un accordo sul livello del servizio (SLA) e fornisce solo l'obiettivo del livello di servizio (SLO) descritto in questa pagina.
Scegliere e implementare il livello di disponibilità
Devi scegliere il livello di disponibilità per i tuoi workload connessi a Distributed Cloud più adatto ai requisiti della tua attività. Ad esempio, un'applicazione self-checkout in un negozio al dettaglio ha un rischio di disponibilità molto inferiore rispetto a un deployment RAN edge di un operatore di rete mobile.
La disponibilità del target è direttamente proporzionale alla capacità di risorse di riserva di Distributed Cloud che prenoti per le emergenze. La tabella seguente descrive questa relazione. Queste stime non includono il tempo di inattività pianificato con una finestra di manutenzione.
Il software Distributed Cloud connected consuma alcune risorse su ogni macchina fisica. L'importo varia a seconda della configurazione specifica del deployment connesso a Distributed Cloud. Google consiglia di eseguire il benchmark del deployment di Distributed Cloud connected per misurare questo importo e tenerne conto quando pianifichi la distribuzione del carico di lavoro.
| Fattore di forma GDC Connected | Capacità in uso | Capacità riservata | Disponibilità del target |
|---|---|---|---|
| Rack GDC Connected (cluster singolo di 6 macchine) |
83,33% | 16,67% | 99,9% |
| Rack GDC Connected (cluster singolo di 6 macchine) |
100% | 0% | 93,5% |
| Server GDC Connected (cluster singolo di tre macchine) |
66,6% | 33,3% | 99,9% |
Potresti riscontrare un'improvvisa perdita di capacità a causa di un guasto hardware o di un nodo che richiede un riavvio. Per prepararti a questo, devi progettare i tuoi carichi di lavoro tenendo conto delle quote di risorse, in modo da avere sempre capacità disponibile su ogni nodo connesso di Distributed Cloud che soddisfi il livello di disponibilità scelto.
Ad esempio, per raggiungere una disponibilità target del 99,9% in un deployment di rack Distributed Cloud connesso, devi configurare i carichi di lavoro in modo che una delle sei macchine fisiche in ogni cluster Distributed Cloud connesso sia disponibile come backup.
Diversificare geograficamente le zone Distributed Cloud
Per ridurre al minimo l'impatto di potenziali guasti del piano di gestione, ti consigliamo vivamente di distribuire le zone Distributed Cloud in diverse regioni vicine.
Utilizzare la modalità di sopravvivenza
I cluster Distributed Cloud utilizzano un piano di controllo locale che viene eseguito sull'hardware connesso a Distributed Cloud. I tuoi workload continuano a essere eseguiti quando la connessione a Google Cloud viene interrotta. Per saperne di più, vedi Modalità di sopravvivenza di Distributed Cloud connected.
Informazioni su aggiornamenti software e periodi di manutenzione
Google aggiorna regolarmente il software Distributed Cloud connesso. Questi aggiornamenti software sono obbligatori e non puoi disattivarli. Distributed Cloud connesso ti consente di specificare singole finestre di manutenzione per ciascuno dei tuoi cluster Distributed Cloud connessi.
Per ridurre le potenziali interruzioni temporanee dei carichi di lavoro, i periodi di manutenzione ti consentono di controllare quando possono avvenire gli upgrade automatici dei control plane e dei nodi. I periodi di manutenzione sono utili per i seguenti tipi di scenari, tra gli altri:
- Ore non di punta: vuoi ridurre al minimo la possibilità di tempi di inattività pianificando gli upgrade automatici durante le ore non di punta, quando il traffico è ridotto.
- Su richiesta:vuoi assicurarti che gli upgrade vengano eseguiti durante l'orario di lavoro in modo che qualcuno possa monitorarli e gestire eventuali problemi imprevisti.
- Upgrade multi-cluster:vuoi eseguire il rollout degli upgrade su più cluster in diverse regioni uno alla volta a intervalli specificati.
Distributed Cloud connesso supporta i seguenti tipi di finestre di manutenzione:
- Periodo di manutenzione. Specifica un periodo di tempo durante il quale Google può eseguire la manutenzione e gli upgrade software sul tuo cluster connesso a Distributed Cloud.
- Finestra di esclusione dalla manutenzione. Specifica un periodo di tempo durante il quale Google non può eseguire la manutenzione o gli upgrade software sul tuo cluster Distributed Cloud connesso. Per configurare un periodo di esclusione della manutenzione, devi prima configurare un periodo di manutenzione. Un periodo di esclusione dalla manutenzione ha la precedenza sul periodo di manutenzione del cluster.
Oltre agli upgrade automatici, Google potrebbe occasionalmente dover eseguire altre attività di manutenzione. In questi casi, rispetta la periodo di manutenzione di un cluster, se possibile.
Se un aggiornamento software o un'attività di manutenzione non viene completato prima della fine di un periodo di manutenzione, Distributed Cloud connected mette in pausa l'aggiornamento o l'attività e lo riprende durante il successivo periodo di manutenzione pianificato. Se l'upgrade del software non va a buon fine, Distributed Cloud Connected interrompe l'upgrade. In questi casi, devi contattare l'Assistenza Google per riparare l'installazione del software.
Distributed Cloud connected si riserva il diritto di implementare aggiornamenti di emergenza non pianificati al di fuori dei periodi di manutenzione. Inoltre, gli upgrade obbligatori di software ritirati o obsoleti potrebbero essere eseguiti automaticamente al di fuori dei periodi di manutenzione.
Puoi anche eseguire l'upgrade manuale del cluster in qualsiasi momento. Gli upgrade avviati manualmente iniziano immediatamente e ignorano eventuali finestre di manutenzione.
Per scoprire come configurare un periodo di manutenzione per un cluster nuovo o esistente, consulta Configurare un periodo di manutenzione.
Aggiornamento software scaglionato
Per ridurre i tempi di inattività del workload, gli aggiornamenti del software Distributed Cloud connected sono scaglionati. In altre parole, Google esegue l'upgrade dei nodi worker in ogni cluster connesso a Distributed Cloud in più fasi. Tutti i nodi worker in una fase di upgrade software vengono disattivati contemporaneamente.
Il numero di nodi in una fase di upgrade del software è determinato come segue:
- Implementazioni fino a 3 rack: ogni fase corrisponde al numero totale di macchine in tutti i rack diviso per 6 e arrotondato per eccesso all'intero successivo.
- Deployment di 4 o più rack: ogni fase corrisponde al numero totale di macchine in tutti i rack del deployment diviso per il numero di rack nel deployment.
Hai anche la possibilità di impostare le dimensioni della fase di aggiornamento del software. In altre parole, puoi specificare il numero di nodi che possono essere disattivati per un upgrade software contemporaneamente in un cluster Distributed Cloud connected. Per le istruzioni, vedi Gestire il tempo di inattività dei nodi durante gli upgrade software.
Limitazioni
I periodi di manutenzione presentano le seguenti limitazioni:
Un periodo di manutenzione per cluster. Puoi configurare una sola periodo di manutenzionee per cluster. La configurazione di un nuovo periodo di manutenzione sovrascrive quello precedente.
Fusi orari per i periodi di manutenzione. Quando configuri e visualizzi le finestre di manutenzione, gli orari vengono visualizzati in modo diverso a seconda dello strumento che utilizzi, come descritto nelle sezioni seguenti.
Quando configuri i periodi di manutenzione
Quando utilizzi il flag più generico --maintenance-window per configurare una periodo di manutenzione, non puoi specificare un fuso orario. Quando utilizzi
Google Cloud CLI o l'API, l'ora UTC viene utilizzata per visualizzare gli orari. La
consoleGoogle Cloud utilizza il fuso orario locale per visualizzare gli orari.
Quando utilizzi flag più granulari, come --maintenance-window-start, puoi specificare il fuso orario come parte del valore. Se ometti il fuso orario, viene utilizzato il fuso orario locale. Gli orari vengono sempre memorizzati nel fuso orario UTC.
Quando visualizzi i periodi di manutenzione
Quando visualizzi le informazioni sul tuo cluster, i timestamp per le finestre di manutenzione possono essere visualizzati in formato UTC o nel tuo fuso orario locale, a seconda di come visualizzi le informazioni:
- Quando utilizzi la console Google Cloud per visualizzare le informazioni sul tuo cluster, gli orari vengono sempre visualizzati nel tuo fuso orario locale.
- Quando utilizzi gcloud CLI per visualizzare le informazioni sul tuo cluster, gli orari vengono sempre visualizzati in formato UTC.
In entrambi i casi, RRULE è sempre nel fuso orario UTC. Ciò significa che, se specifichi, ad esempio, i giorni della settimana, questi sono nel fuso orario UTC.
Configura periodi di manutenzione del cluster
Distributed Cloud connesso ti consente di specificare una periodo di manutenzione per ciascuno dei tuoi cluster Distributed Cloud connessi. Questa finestra indica a Google di aggiornare il software Distributed Cloud solo durante il periodo e alla frequenza specificati.
Le seguenti regole regolano le finestre di manutenzione del cluster Distributed Cloud connesso:
- Se specifichi un periodo di manutenzione per un cluster Distributed Cloud connesso, Google aggiorna il software Distributed Cloud connesso 48 ore dopo l'annuncio dell'aggiornamento tramite le note di rilascio di Distributed Cloud connesso. Nella pagina delle note di rilascio, puoi iscriverti al feed RSS delle note di rilascio di Distributed Cloud Connected per rimanere aggiornato sugli aggiornamenti software man mano che vengono rilasciati.
- La durata minima di un periodo di manutenzione è di cinque ore. Puoi specificare una finestra più lunga in base alla complessità dell'installazione connessa di Distributed Cloud e ai requisiti aziendali.
- La frequenza minima degli aggiornamenti software è una volta alla settimana. Puoi specificare periodi di manutenzione settimanali o giornalieri. Puoi includere ed escludere giorni specifici.
- Puoi modificare la pianificazione del periodo di manutenzione per un cluster in qualsiasi momento, tranne quando è già stato pianificato un periodo di manutenzione o quando un periodo di manutenzione è in corso.
- Se l'aggiornamento software non viene completato entro il periodo di tempo specificato, viene messo in pausa e riprende durante il successivo periodo di manutenzione pianificato.
Per istruzioni dettagliate, vedi Configurare una periodo di manutenzione per un cluster.
Riparazione dell'hardware non riuscito
Quando Google rileva un errore dell'hardware Distributed Cloud connesso, eseguiamo una delle seguenti operazioni:
Per l'hardware Distributed Cloud di proprietà di Google, Google tenta di pianificare una visita al sito entro tre giorni lavorativi. Per consentire a un tecnico autorizzato da Google di eseguire la diagnosi e le riparazioni necessarie, devi concedergli l'accesso all'hardware connesso a Distributed Cloud.
Per l'hardware Distributed Cloud di proprietà del cliente, Google comunica il problema a te e all'integratore di sistemi certificato da Google. Devi collaborare con l'integratore di sistemi che ha fornito l'hardware Distributed Cloud connesso per programmare la visita di un tecnico ed eseguire la diagnosi e le riparazioni necessarie.
Se si verifica un errore dell'hardware connesso a Distributed Cloud, si applica uno dei seguenti scenari a seconda che l'hardware connesso a Distributed Cloud utilizzi l'archiviazione Self-Encrypting Disk (SED):
I rack Google Distributed Cloud connesso archiviano i dati su unità non SED. Quando Google o un SI certificato da Google esegue riparazioni in loco, tutte le unità disco vengono rimosse dalla macchina Distributed Cloud connessa interessata prima dell'inizio dell'assistenza e vengono affidate alla tua custodia per tutta la durata della riparazione.
I server connessi a Distributed Cloud memorizzano i dati su unità SED. Quando una macchina non funziona, Google o un integratore di sistemi certificato da Google sostituisce l'intera macchina. Prima che la macchina venga rimossa dai tuoi locali, Google si assicura che i tuoi dati siano stati cancellati in modo sicuro da tutte le sue unità.
Altri punti di errore
Sei responsabile della manutenzione dei seguenti aspetti dell'installazione di Distributed Cloud che non sono sotto il controllo di Google e che possono influire sulla disponibilità di Distributed Cloud Connected:
- Tutti i dati che scegli di archiviare sull'hardware connesso a Distributed Cloud. Ciò include backup ridondanti funzionanti e l'esportazione dei dati prima di restituire a Google l'hardware connesso a Distributed Cloud.
- Alimentazione elettrica.
- Temperatura ambiente, umidità e raffreddamento.
- Sicurezza hardware fisica.
- Sicurezza della rete locale.
- Connettività a internet e alla rete locale. Distributed Cloud connesso deve riconnettersi a Google Cloud ogni 7 giorni per aggiornare i token di sicurezza, le chiavi di crittografia e sincronizzare i dati di logging e gestione.