Funzionalità di gestione dei cluster

Le serie di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) sono progettate per consentirti di eseguire cluster di intelligenza artificiale (AI) e machine learning (ML) su larga scala e forniscono le seguenti funzionalità di gestione dei cluster:

Colocation delle risorse dell'infrastruttura AI

Quando utilizzi A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), puoi richiedere macchine host che Compute Engine esegue il provisioning il più vicino possibile. Queste macchine offrono le seguenti funzionalità:

Questa disposizione delle risorse riduce al minimo gli hop di rete e ottimizza la latenza di rete più bassa. Per scoprire di più su come ottenere la capacità di eseguire il deployment di blocchi di macchine ottimizzate per l'acceleratore allocati in modo denso, consulta la panoramica della capacità.

Posizionamento consapevole della topologia del cluster

Dopo aver creato istanze di calcolo utilizzando i tipi di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), puoi ottenere informazioni sulla topologia a livello di nodo e cluster. Queste informazioni ti aiutano a:

  • Modifica la progettazione dell'applicazione o del workload per ridurre ulteriormente la latenza di rete.

  • Comprendi e risolvi i problemi di latenza e prestazioni di rete per le istanze che comunicano frequentemente tra loro. Questi problemi possono verificarsi se le istanze si trovano in posizioni molto distanti tra loro.

Per saperne di più, vedi Visualizzare la topologia delle istanze di calcolo.

Modalità operativa dei cluster

Quando prenoti la capacità per creare istanze o cluster di calcolo utilizzando i tipi di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), il tipo di macchina che prenoti determina la modalità operativa del cluster per le istanze. Questa modalità specifica il comportamento delle istanze dopo errori host o report host difettosi. Le modalità operative disponibili per un'istanza sono la modalità gestita, in cui Compute Engine sostituisce automaticamente le macchine difettose, ma trattiene parte della capacità riservata per garantire che le istanze dispongano delle risorse necessarie per il riavvio. oppure la modalità con tutta la capacità, in cui hai accesso a tutta la capacità prenotata, ma sei responsabile della gestione di errori e manutenzione pianificata.

Per saperne di più, vedi Modalità operativa di prenotazione.

Pianificazione e controlli della manutenzione del cluster

Controlli la manutenzione delle macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) utilizzando la pianificazione in base alla topologia in un blocco di risorse. Questa funzionalità consente di sincronizzare gli upgrade in modo che i workload siano più resilienti agli eventi host e ridurre al minimo le interruzioni. Questo approccio contribuisce a migliorare il goodput del carico di lavoro.

Per facilitare il controllo completo degli eventi di manutenzione, puoi utilizzare le seguenti funzionalità:

Tipo di pianificazione della manutenzione

Quando prenoti capacità per creare istanze di computing o cluster di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), puoi definire in che modo Compute Engine gestisce l'infrastruttura su cui vengono eseguite le istanze. In base al tipo di macchina che vuoi utilizzare per le tue istanze, puoi scegliere tra la manutenzione sincronizzata tra le istanze (raggruppata) o pianificazioni di manutenzione diverse (indipendenti).

Per saperne di più, consulta Tipi di pianificazione della manutenzione.

Gestire gli eventi dell'organizzatore

Dopo aver creato le istanze A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) e aver avviato il workload, puoi configurare gli avvisi e ricevere notifiche quando la manutenzione delle istanze o dei blocchi riservati è pianificata, inizia o viene completata. Puoi anche visualizzare e, se necessario, avviare manualmente la manutenzione di un'istanza o di un blocco riservato prima dell'orario pianificato. Queste opzioni ti aiutano a controllare e ridurre al minimo in modo proattivo i tempi di inattività dei tuoi workload.

Per ulteriori informazioni, consulta le seguenti risorse:

Strumenti di monitoraggio e diagnostica dei cluster

Per il monitoraggio e la risoluzione dei problemi, le macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) includono i seguenti servizi:

Passaggi successivi