Questa pagina descrive le best practice per garantire l'alta affidabilità dell'installazione di Google Distributed Cloud connesso. Distributed Cloud connesso non offre un contratto di servizio (SLA) e fornisce solo l'obiettivo del livello di servizio (SLO) descritto in questa pagina.
Scegliere e implementare il livello di disponibilità
Devi scegliere il livello di disponibilità per i carichi di lavoro di Distributed Cloud connesso che meglio si adatta alle tue esigenze aziendali. Ad esempio, un'applicazione di self-checkout in un negozio al dettaglio ha un rischio di disponibilità molto inferiore rispetto a un deployment RAN perimetrale di un operatore di rete mobile.
La disponibilità di destinazione è direttamente proporzionale alla capacità delle risorse di riserva di Distributed Cloud che riservi per le emergenze. La tabella seguente descrive questa relazione. Queste stime non includono i tempi di inattività pianificati con un periodo di manutenzione.
Il software Distributed Cloud connesso consuma alcune risorse su ogni macchina fisica. La quantità varia a seconda della configurazione specifica del deployment di Distributed Cloud connesso. Google consiglia di eseguire il benchmark del deployment di Distributed Cloud connesso per misurare questa quantità e tenerne conto durante la pianificazione della distribuzione dei carichi di lavoro.
| Capacità in uso | Capacità riservata | Disponibilità di destinazione |
|---|---|---|
| 66,6% | 33,3% | 99,9% |
Potresti riscontrare un'improvvisa perdita di capacità a causa di un guasto hardware o di un nodo che richiede un riavvio. Per prepararti a questo, devi progettare i carichi di lavoro tenendo conto delle quote di risorse in modo da avere sempre capacità disponibile su ogni nodo Distributed Cloud connesso che soddisfi il livello di disponibilità scelto.
Diversificare geograficamente le zone di Distributed Cloud
Per ridurre al minimo l'impatto di potenziali guasti del piano di gestione, ti consigliamo vivamente di distribuire le zone di Distributed Cloud in diverse regioni limitrofe.
Utilizzare la modalità di sopravvivenza
I cluster Distributed Cloud utilizzano un piano di controllo locale che viene eseguito sull'hardware Distributed Cloud connesso. I carichi di lavoro continuano a essere eseguiti quando la connessione a Google Cloud viene persa. Per ulteriori informazioni, vedi Modalità di sopravvivenza di Distributed Cloud connesso.
Comprendere gli aggiornamenti software e i periodi di manutenzione
Google aggiorna regolarmente il software Distributed Cloud connesso. Questi aggiornamenti software sono obbligatori e non puoi disattivarli. Distributed Cloud connesso ti consente di specificare singoli periodi di manutenzione per ciascuno dei tuoi cluster Distributed Cloud connesso.
Per ridurre le potenziali interruzioni temporanee dei carichi di lavoro, i periodi di manutenzione ti consentono di controllare quando possono avvenire gli upgrade automatici dei piani di controllo e dei nodi. I periodi di manutenzione sono utili, tra l'altro, per i seguenti tipi di scenari:
- Orari non di punta: vuoi ridurre al minimo la probabilità di tempi di inattività pianificando gli upgrade automatici durante gli orari non di punta, quando il traffico è ridotto.
- Reperibilità: vuoi assicurarti che gli upgrade avvengano durante l'orario di lavoro in modo che qualcuno possa monitorarli e gestire eventuali problemi imprevisti.
- Upgrade multi-cluster: vuoi implementare gli upgrade su più cluster in diverse regioni uno alla volta a intervalli specificati.
Distributed Cloud connesso supporta i seguenti tipi di periodi di manutenzione:
- Periodo di manutenzione. Specifica un periodo di tempo durante il quale Google può eseguire la manutenzione e gli upgrade software sul cluster Distributed Cloud connesso.
- Periodo di esclusione dalla manutenzione. Specifica un periodo di tempo durante il quale Google non può eseguire la manutenzione o gli upgrade software sul cluster Distributed Cloud connesso. Per configurare un periodo di esclusione dalla manutenzione, devi prima configurare un periodo di manutenzione. Un periodo di esclusione dalla manutenzione ha la precedenza sul periodo di manutenzione del cluster.
Oltre agli upgrade automatici, Google potrebbe occasionalmente dover eseguire altre attività di manutenzione. In questi casi, rispetta il periodo di manutenzione di un cluster, se possibile.
Se un upgrade software o un'attività di manutenzione non viene completato prima della fine di un periodo di manutenzione, Distributed Cloud connesso mette in pausa l'upgrade o l'attività e lo riprende durante il periodo di manutenzione pianificato successivo. Se un upgrade software non riesce, Distributed Cloud connesso interrompe l'upgrade; in questi casi, devi contattare l'assistenza Google per riparare l'installazione del software.
Distributed Cloud connesso si riserva il diritto di implementare upgrade di emergenza non pianificati al di fuori dei periodi di manutenzione. Inoltre, gli upgrade obbligatori da software ritirati o obsoleti potrebbero verificarsi automaticamente al di fuori dei periodi di manutenzione.
Puoi anche eseguire l'upgrade manuale del cluster in qualsiasi momento. Gli upgrade avviati manualmente iniziano immediatamente e ignorano eventuali periodi di manutenzione.
Per scoprire come configurare un periodo di manutenzione per un cluster nuovo o esistente, vedi Configurare un periodo di manutenzione.
Scaglionamento degli aggiornamenti software
Per ridurre i tempi di inattività dei carichi di lavoro, gli aggiornamenti software di Distributed Cloud connesso sono scaglionati. In altre parole, Google esegue l'upgrade dei nodi worker in ogni cluster Distributed Cloud connesso in fasi. Tutti i nodi worker in una fase di upgrade software vengono disattivati contemporaneamente.
Hai anche la possibilità di impostare le dimensioni della fase di upgrade software. In altre parole, puoi specificare il numero di nodi che possono essere disattivati contemporaneamente per un upgrade software in un cluster Distributed Cloud connesso. Per le istruzioni, vedi Gestire i tempi di inattività dei nodi durante gli upgrade software.
Limitazioni
I periodi di manutenzione presentano le seguenti limitazioni:
Un periodo di manutenzione per cluster. Puoi configurare un solo periodo di manutenzione per cluster. La configurazione di un nuovo periodo di manutenzione sovrascrive quello precedente.
Fusi orari per i periodi di manutenzione. Quando configuri e visualizzi i periodi di manutenzione, gli orari vengono visualizzati in modo diverso a seconda dello strumento che utilizzi, come descritto nelle sezioni seguenti.
Quando configuri i periodi di manutenzione
Quando utilizzi il flag più generico --maintenance-window per configurare un periodo di manutenzione, non puoi specificare un fuso orario. Quando utilizzi Google Cloud CLI o l'API, viene utilizzato il fuso orario UTC per visualizzare gli orari. La
Google Cloud console utilizza il fuso orario locale per visualizzare gli orari.
Quando utilizzi flag più granulari, come --maintenance-window-start, puoi specificare il fuso orario come parte del valore. Se ometti il fuso orario, viene utilizzato il fuso orario locale. Gli orari vengono sempre archiviati nel fuso orario UTC.
Quando visualizzi i periodi di manutenzione
Quando visualizzi le informazioni sul cluster, i timestamp dei periodi di manutenzione possono essere visualizzati nel fuso orario UTC o nel fuso orario locale, a seconda di come visualizzi le informazioni:
- Quando utilizzi la Google Cloud console per visualizzare le informazioni sul cluster, gli orari vengono sempre visualizzati nel fuso orario locale.
- Quando utilizzi gcloud CLI per visualizzare le informazioni sul cluster, gli orari vengono sempre visualizzati nel fuso orario UTC.
In entrambi i casi, RRULE è sempre nel fuso orario UTC. Ciò significa che se specifichi, ad esempio, i giorni della settimana, questi giorni sono nel fuso orario UTC.
Configurare i periodi di manutenzione del cluster
Distributed Cloud connesso ti consente di specificare un periodo di manutenzione per ciascuno dei tuoi cluster Distributed Cloud connesso. Questa finestra indica a Google di aggiornare il software Distributed Cloud solo durante l'orario e con la frequenza specificati.
Le seguenti regole regolano i periodi di manutenzione dei cluster Distributed Cloud connesso:
- Se specifichi un periodo di manutenzione per un cluster Distributed Cloud connesso, Google aggiorna il tuo software Distributed Cloud connesso 48 ore dopo che l' aggiornamento è stato annunciato tramite le note di rilascio di Distributed Cloud connesso. Nella pagina delle note di rilascio, puoi abbonarti al feed RSS delle note di rilascio di Distributed Cloud connesso per rimanere informato sugli aggiornamenti software man mano che vengono rilasciati.
- La durata minima di un periodo di manutenzione è di cinque ore. Puoi specificare un periodo più lungo in base alla complessità dell'installazione di Distributed Cloud connesso e alle tue esigenze aziendali.
- La frequenza minima degli aggiornamenti software è una volta alla settimana. Puoi specificare periodi di manutenzione settimanali o giornalieri. Puoi includere ed escludere giorni specifici.
- Puoi modificare la pianificazione del periodo di manutenzione per un cluster in qualsiasi momento, tranne quando è già stato pianificato un periodo di manutenzione o quando è in corso un periodo di manutenzione.
- Se l'aggiornamento software non viene completato entro il periodo di tempo specificato, viene messo in pausa e ripreso durante il periodo di manutenzione pianificato successivo.
Per istruzioni dettagliate, vedi Configurare un periodo di manutenzione per un cluster.
Riparazione dell'hardware non riuscita
Quando Google rileva un guasto dell'hardware Distributed Cloud connesso, esegue una delle seguenti operazioni:
Per l'hardware Distributed Cloud di proprietà di Google, Google tenta di pianificare una visita in loco entro tre giorni lavorativi. Affinché un tecnico autorizzato da Google possa eseguire la diagnosi e le riparazioni necessarie, devi concedergli l'accesso all'hardware Distributed Cloud connesso.
Per l'hardware Distributed Cloud di proprietà del cliente, Google ti avvisa e il SI certificato da Google del problema. Devi collaborare con il SI che ha fornito l'hardware Distributed Cloud connesso per pianificare la visita di un tecnico ed eseguire la diagnosi e le riparazioni necessarie.
In caso di guasto dell'hardware Distributed Cloud connesso, Google o un SI certificato da Google sostituisce l'intera macchina. Prima che la macchina venga rimossa dai tuoi locali, Google si assicura che i tuoi dati siano stati eliminati in modo sicuro da tutte le unità.
Altri punti di errore
Sei responsabile della manutenzione dei seguenti aspetti dell'installazione di Distributed Cloud che non sono sotto il controllo di Google e possono influire sulla disponibilità di Distributed Cloud connesso:
- Tutti i dati che scegli di archiviare sull'hardware Distributed Cloud connesso. Sono inclusi i backup ridondanti funzionanti e l'esportazione dei dati prima di restituire l'hardware Distributed Cloud connesso a Google.
- Alimentazione elettrica.
- Temperatura ambiente, umidità e raffreddamento.
- Sicurezza fisica dell'hardware.
- Sicurezza della rete locale.
- Connettività internet e di rete locale. Distributed Cloud connesso deve riconnettersi a Google Cloud ogni 7 giorni per aggiornare i token di sicurezza, le chiavi di crittografia, e sincronizzare i dati di logging e gestione.