Gestione avanzata dei cluster HPC con le istanze H4D

Le funzionalità avanzate di gestione dei cluster HPC consentono di eseguire cluster HPC su larga scala e con deployment denso e forniscono le seguenti funzionalità di gestione dei cluster:

Colocation delle risorse dell'infrastruttura HPC

Quando utilizzi le istanze H4D con funzionalità di gestione avanzate, puoi richiedere a Compute Engine di eseguire il provisioning delle istanze il più vicino possibile. Queste macchine offrono le seguenti funzionalità:

  • Compute Engine esegue il provisioning delle macchine come blocchi di risorse.

  • Scalabilità dei workload migliorata grazie al networking a 200 Gbps abilitato per Cloud RDMA.

Questa disposizione delle risorse riduce al minimo gli hop di rete e ottimizza la latenza di rete più bassa. Per scoprire di più su come ottenere la capacità di eseguire il deployment di blocchi di macchine allocati in modo denso, consulta Crea un cluster HPC con funzionalità di gestione avanzate.

Posizionamento consapevole della topologia del cluster

Dopo aver creato VM o cluster di VM H4D, puoi ottenere informazioni sulla topologia a livello di nodo e cluster. Queste informazioni ti aiutano a:

  • Modifica la progettazione dell'applicazione o del workload per ridurre ulteriormente la latenza di rete.

  • Comprendi e risolvi i problemi di latenza e prestazioni di rete per le VM che comunicano spesso tra loro. Questi problemi possono verificarsi se le VM si trovano in posizioni molto distanti tra loro in modo imprevisto.

Per saperne di più, consulta Visualizzare la topologia delle VM.

Manutenzione e ripristino gestiti delle VM H4D

Quando prenoti la capacità per creare VM o cluster H4D, Google Cloud gestisce automaticamente la manutenzione e la procedura di ripristino delle VM dopo errori host o report di host difettosi. Questo approccio, denominato modalità gestita, è ideale quando il tuo carico di lavoro richiede un'elevata stabilità e ha bisogno di un processo automatizzato per ridurre al minimo i tempi di inattività.

La modalità gestita ha le seguenti funzionalità:

  • Utilizza la capacità riservata solo per il ripristino: Compute Engine utilizza la capacità riservata solo per riavviare le VM. Se non è disponibile capacità nelle prenotazioni, Compute Engine riavvia le VM solo dopo che hai ottenuto più capacità.

  • Riavvii automatici delle VM: Google Cloud gestisce l'intero processo di ripristino per una VM. Quando è necessaria la manutenzione dell'host, Compute Engine esegue automaticamente la migrazione delle VM su altre macchine disponibili all'interno della prenotazione e le riavvia.

  • Gestione e visibilità dei blocchi: puoi visualizzare la topologia, lo stato e lo stato di manutenzione delle singole prenotazioni e dei blocchi di prenotazioni. Puoi anche ricevere notifiche di manutenzione e, facoltativamente, avviare la manutenzione prima dell'orario previsto per queste risorse.

  • Potenziali limiti di frequenza API: le chiamate all'API Segnala host difettoso potrebbero essere limitate in base alla frequenza per prenotazione.

Pianificazione e controlli della manutenzione del cluster

Controlli la manutenzione delle istanze H4D utilizzando la pianificazione sensibile alla topologia in un blocco di risorse. Questa funzionalità consente di sincronizzare gli upgrade in modo che i tuoi workload siano più resilienti agli eventi host e riduce al minimo le interruzioni.

Per facilitare il controllo completo degli eventi di manutenzione, puoi utilizzare le seguenti funzionalità:

Tipo di pianificazione della manutenzione

Quando prenoti la capacità per creare VM o cluster di istanze VM H4D, puoi definire in che modo Compute Engine gestisce l'infrastruttura su cui vengono eseguite le VM. Puoi specificare se raggruppare le VM e avere una pianificazione della manutenzione sincronizzata (raggruppata) oppure se le VM possono essere a basso accoppiamento e avere una pianificazione della manutenzione indipendente (indipendente).

Pianificazione della manutenzione raggruppata

Il tipo di pianificazione della manutenzione raggruppata contribuisce a garantire che, indipendentemente da quando Compute Engine esegue il provisioning di una VM, tutte le VM che eseguono lo stesso carico di lavoro abbiano la stessa frequenza di manutenzione pianificata. Questa manutenzione strettamente accoppiata ti consente di ottimizzare le prestazioni del job offrendoti il controllo completo della capacità utilizzata e inutilizzata.

Un tipo di pianificazione della manutenzione di gruppo è utile nei seguenti casi:

  • Il tuo ambiente utilizza uno scheduler dei job, ad esempio Slurm o Google Kubernetes Engine.
  • Vuoi eseguire workload di computing altamente parallelizzati.

Pianificazione della manutenzione indipendente

Il tipo di pianificazione della manutenzione indipendente assegna alle VM pianificazioni della manutenzione diverse. Questa configurazione è ideale se hai carichi di lavoro che vengono eseguiti in modo più efficiente quando le VM hanno pianificazioni di manutenzione separate.

Gestire gli eventi dell'organizzatore

Dopo aver creato le VM H4D e avviato il workload, puoi configurare gli avvisi e ricevere notifiche quando la manutenzione delle VM o dei blocchi riservati è pianificata, inizia o viene completata. Puoi anche visualizzare e, se necessario, avviare manualmente la manutenzione di una VM o di un blocco riservato prima dell'orario pianificato. Queste opzioni ti aiutano a controllare e ridurre al minimo in modo proattivo i tempi di inattività dei tuoi workload.

Per ulteriori informazioni, consulta le seguenti risorse:

Strumenti di monitoraggio e diagnostica dei cluster

Per il monitoraggio e la risoluzione dei problemi, le istanze H4D includono un servizio di segnalazione di host difettosi, che puoi utilizzare per segnalare problemi relativi a singole macchine host.

Passaggi successivi