Manutenzione e aggiornamenti del cloud privato

Gli ambienti cloud privati sono progettati nei seguenti modi per non avere un singolo punto di errore:

  • I cluster ESXi sono configurati con vSphere High Availability (HA). I cluster sono dimensionati in modo da avere almeno un nodo di riserva per la resilienza.
  • vSAN fornisce spazio di archiviazione primario ridondante, richiedendo almeno tre nodi per fornire protezione da un singolo errore. Per i cluster più grandi, puoi configurare vSAN per fornire una resilienza maggiore.
  • Le macchine virtuali (VM) vCenter, PSC e NSX Manager sono configurate con l'archiviazione RAID-10 per proteggersi da errori di archiviazione. Le VM sono inoltre protette da vSphere HA da errori di nodi e di rete.
  • Gli host ESXi dispongono di ventole e NIC ridondanti.
  • Gli switch TOR e spine sono configurati in coppie HA per garantire la resilienza.

VMware Engine monitora continuamente l'uptime, la disponibilità e fornisce SLA di disponibilità per i seguenti tipi di VM:

  • Host ESXi
  • vCenter
  • PSC
  • NSX Manager

VMware Engine monitora continuamente i seguenti elementi per rilevare eventuali errori:

  • Dischi rigidi
  • Porte NIC fisiche
  • Server
  • Fan
  • Alimentazione
  • Interruttori
  • Cambia porta

Se un disco o un nodo non funziona, VMware Engine aggiunge immediatamente e automaticamente un nuovo nodo al cluster VMware interessato per ripristinare l'operatività del servizio. Nel tuo cloud privato si svolgono i seguenti processi:

  • Monitoraggio e avvisi automatici: il nostro sistema di monitoraggio tiene costantemente traccia dell'integrità dei tuoi nodi. Quando viene rilevato un problema che indica un potenziale guasto hardware, viene attivato un avviso.
  • Intervento umano per la diagnosi: sebbene il sistema sia progettato per la sostituzione automatica, i nostri ingegneri esaminano questi avvisi per determinare rapidamente la causa principale. In questo modo, ci assicuriamo di risolvere il problema corretto ed evitiamo sostituzioni non necessarie dei nodi quando è consigliata una soluzione più semplice (come un riavvio). Ad esempio, problemi di rete temporanei o malfunzionamenti del software possono attivare avvisi simili a guasti hardware e vogliamo evitare di influire sul cluster con la sostituzione dei nodi quando potrebbe non essere l'azione consigliata. La sostituzione non necessaria di un nodo attiva una risincronizzazione completa di vSAN, che è un'operazione che richiede un'elevata intensità di I/O di archiviazione.
  • Sostituzione automatica dei nodi in caso di guasti hardware: se i nostri ingegneri confermano un guasto hardware, il processo di sostituzione automatica dei nodi inizia immediatamente. Al cluster viene aggiunto un nuovo nodo e vSAN avvia la risincronizzazione dei dati su quel nodo.

I seguenti elementi VMware nei cloud privati vengono sottoposti a backup, manutenzione e aggiornamento:

  • ESXi
  • vCenter Platform Services Controller
  • vSAN
  • NSX

Backup e ripristino

I backup includono:

  • Backup incrementali giornalieri di vCenter, PSC e regole DVS.
  • API integrate di vCenter per eseguire il backup dei componenti a livello di applicazione.
  • Backup automatico prima dell'aggiornamento o dell'upgrade del software di gestione VMware.

Manutenzione

Sono inclusi i seguenti tipi di manutenzione pianificata.

Manutenzione interna e di backend

La manutenzione interna e del backend in genere comporta la riconfigurazione degli asset fisici o l'installazione di patch software. Non influisce sul normale consumo degli asset in fase di pubblicazione. Con le NIC ridondanti che vanno a ogni rack fisico, il traffico di rete normale e le operazioni di cloud privato non vengono interessati. Potresti notare un impatto sulle prestazioni solo se la tua organizzazione prevede di utilizzare l'intera larghezza di banda ridondante durante l'intervallo di manutenzione.

Manutenzione del portale

È necessario un tempo di inattività limitato del servizio quando viene aggiornato il control plane o l'infrastruttura. Gli intervalli di manutenzione possono essere frequenti come una volta al mese e la frequenza dovrebbe diminuire nel tempo. VMware Engine ti informa della manutenzione imminente del portale e si impegna a mantenere l'intervallo di manutenzione il più breve possibile. Durante un intervallo di manutenzione del portale, i seguenti servizi continuano a funzionare senza alcun impatto:

  • Applicazioni e control plane VMware
  • Accesso a vCenter
  • Tutto il networking e lo spazio di archiviazione

Manutenzione dell'infrastruttura VMware

Di tanto in tanto è necessario apportare modifiche alla configurazione dell'infrastruttura VMware. Questi intervalli possono verificarsi ogni uno o due mesi, ma la frequenza dovrebbe diminuire nel tempo. Google può in genere eseguire questo tipo di manutenzione, inclusi gli aggiornamenti dei certificati, senza interrompere il normale consumo del cloud privato. Durante un intervallo di manutenzione VMware, i seguenti servizi continuano a funzionare senza alcun impatto:

  • Applicazioni e control plane VMware
  • Accesso a vCenter
  • Tutto il networking e lo spazio di archiviazione

Aggiornamenti e upgrade

VMware Engine è responsabile della gestione del ciclo di vita del software VMware (ESXi, vCenter, PSC e NSX) nei cloud privati.

Gli aggiornamenti software includono:

  • Patch:patch di sicurezza o correzioni di bug rilasciate da VMware
  • Aggiornamenti:modifica della versione secondaria di un componente dello stack VMware
  • Upgrade:modifica della versione principale di un componente dello stack VMware

VMware Engine testa le patch di sicurezza critiche non appena diventano disponibili da VMware. Google si impegnerà ad avviare l'implementazione delle patch critiche pertinenti negli ambienti cloud privati entro una settimana dalla loro disponibilità. La tempistica effettiva di completamento delle patch varia a seconda della disponibilità di pianificazione e della necessità di programmare l'applicazione delle patch per evitare tempi di inattività per i carichi di lavoro dei clienti.

Quando è disponibile una nuova versione principale del software VMware, VMware Engine collabora con i clienti per coordinare una finestra di manutenzione adatta per l'applicazione dell'upgrade. VMware Engine applica gli upgrade della versione principale almeno sei mesi dopo il rilascio della versione principale e avvisa i clienti un mese prima di applicare gli upgrade della versione principale.

VMware Engine collabora anche con i principali fornitori del settore per garantire che supportino l'ultima versione del software VMware prima di implementare un upgrade della versione principale. Per informazioni sul supporto di fornitori specifici, contatta l'assistenza clienti Google Cloud.

Responsabilità dell'aggiornamento del certificato

Gli aggiornamenti dei certificati sono una responsabilità di Google. Se viene visualizzato un errore di aggiornamento del certificato, non è richiesta alcuna azione e il certificato viene rinnovato prima della scadenza. Tuttavia, se LDAPS è configurato nel tuo cloud privato, sei l'unico responsabile del certificato specifico associato a questo errore. Gli aggiornamenti dei certificati possono verificarsi durante la manutenzione dell'infrastruttura VMware.

Preparazione

Google consiglia di eseguire i seguenti preparativi prima di iniziare un aggiornamento o un upgrade:

  • Controlla la capacità di archiviazione:assicurati che l'utilizzo dello spazio di archiviazione del cluster vSphere sia inferiore all'80% per mantenere lo SLA. Se l'utilizzo è superiore all'80%, gli upgrade potrebbero richiedere più tempo del normale o non riuscire completamente. Se l'utilizzo dello spazio di archiviazione è superiore al 70%, aggiungi un nodo per espandere il cluster ed evitare potenziali tempi di inattività durante gli upgrade.
  • Modifica delle policy di archiviazione vSAN con FTT pari a 0: modifica le VM configurate con una policy di archiviazione vSAN per errori da tollerare (FTT) pari a 0 in una policy di archiviazione vSAN con FTT pari a 1 per mantenere il contratto di servizio.
  • Rimuovi i montaggi di CD della VM:rimuovi tutti i CD montati sulle VM dei tuoi workload che non sono compatibili con vMotion.
  • Completa le installazioni degli strumenti VMware: completa le installazioni o gli upgrade degli strumenti VMware prima dell'inizio dell'upgrade pianificato.
  • Rimuovi la condivisione del bus SCSI sulle VM:rimuovi la condivisione del bus SCSI sulle VM se non vuoi che vengano spente.
  • Rimuovi VM e datastore inaccessibili:rimuovi le VM inutilizzate e inaccessibili dall'inventario vCenter. Rimuovi gli archivi dati esterni inaccessibili.
  • Disabilita le regole di Distributed Resource Scheduler (DRS):le regole DRS che bloccano una VM su un host impediscono a un nodo di entrare in modalità di manutenzione. Puoi disabilitare le regole DRS prima dell'upgrade e abilitarle al termine dell'upgrade.
  • Aggiorna i componenti aggiuntivi VMware e le soluzioni di terze parti:verifica che i componenti aggiuntivi VMware e le soluzioni di terze parti implementate in vCenter del tuo cloud privato siano compatibili con le versioni post-upgrade menzionate in precedenza. Esempi di strumenti includono quelli per il backup, il monitoraggio, l'orchestrazione del ripristino di emergenza e altre funzioni simili. Contatta il fornitore della soluzione e aggiorna in anticipo se necessario per garantire la compatibilità dopo l'upgrade.

Durata dell'upgrade e processi in background

I seguenti fattori possono influire sulla durata dell'upgrade:

  • Risincronizzazioni vSAN: la durata della procedura di upgrade, in particolare la rimozione dei nodi temporanei, varia in base ai requisiti di risincronizzazione dei dati vSAN. Le attività di risincronizzazione vSAN e di ribilanciamento del cluster potrebbero estendersi oltre il periodo di manutenzione designato. Si tratta di processi in background previsti e non interromperanno la disponibilità del workload.
  • Problemi hardware sottostanti: in rari casi, i riavvii dell'host durante l'upgrade potrebbero rivelare guasti hardware sottostanti. Per mantenere il contratto di servizio e l'integrità del cluster, il sistema dà la priorità alla sostituzione dell'hardware difettoso prima di procedere. Questo intervento necessario potrebbe prolungare la durata complessiva dell'upgrade.

Configurazioni che potrebbero influire sui processi di manutenzione

VMware Engine utilizza la modalità di manutenzione di VMware per eseguire upgrade, aggiornamenti e manutenzione dei nodi. Ciò contribuisce a garantire il funzionamento continuo dei tuoi workload Private Cloud. Tuttavia, le seguenti configurazioni potrebbero richiedere passaggi aggiuntivi prima che un nodo possa entrare in modalità di manutenzione:

  • Regole DRS:regole MUST che forzano le VM a rimanere su un nodo specifico.
  • Condivisione del bus SCSI:VM configurate per condividere i bus SCSI.
  • Montaggi CD-ROM:VM con CD-ROM collegati, soprattutto se questi CD-ROM non possono essere spostati in un altro nodo utilizzando vMotion.
  • Connessioni alla porta seriale: VM che utilizzano connessioni alla porta seriale che impediscono lo spostamento in un altro nodo utilizzando vMotion.
  • Mapping dei dispositivi non elaborati (RDM): VM che accedono direttamente ai dispositivi di archiviazione fisica.

Se è necessario intervenire

Se una di queste configurazioni esiste su un nodo, l'assistenza clienti Google Cloud ti invia una notifica almeno 24 ore prima di intraprendere i passaggi di correzione necessari per mantenere la disponibilità del tuo cloud privato. In alcuni casi, passaggi come lo spegnimento di una VM e il suo spostamento con vMotion e la successiva accensione o la rimozione di CD-ROM potrebbero interrompere brevemente il tuo workload.

Passaggi successivi