Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Funzionalità di gestione dei cluster

Le serie di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega, e A3 High (8 GPU) sono progettate per consentirti di eseguire cluster di intelligenza artificiale (AI) e machine learning (ML) su larga scala e forniscono le seguenti funzionalità di gestione dei cluster:

Collocazione delle risorse dell'infrastruttura AI
Posizionamento in base alla topologia del cluster
Modalità operativa dei cluster
Pianificazione e controlli della manutenzione dei cluster
Strumenti di monitoraggio e diagnostica dei cluster

Collocazione delle risorse dell'infrastruttura AI

Quando utilizzi A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), puoi richiedere macchine host di cui Compute Engine esegue il provisioning il più vicino possibile. Queste macchine offrono le seguenti funzionalità:

Compute Engine esegue il provisioning delle macchine come blocchi di risorse.
Una rete di interconnessione dinamica di machine learning (ML) interconnette le macchine.

Questa disposizione delle risorse riduce al minimo gli hop di rete e ottimizza la latenza di rete più bassa. Per saperne di più su come ottenere la capacità per eseguire il deployment di blocchi di macchine ottimizzate per l'acceleratore con allocazione densa, consulta la panoramica sulla capacità.

Posizionamento in base alla topologia del cluster

Dopo aver creato istanze di computing utilizzando i tipi di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), puoi ottenere informazioni sulla topologia a livello di nodo e cluster. Queste informazioni ti aiutano a:

Modificare la progettazione dell'applicazione o del workload per ridurre ulteriormente la latenza di rete.
Comprendere e risolvere i problemi di latenza e prestazioni di rete per le istanze che comunicano frequentemente tra loro. Questi problemi possono verificarsi se le istanze si trovano inaspettatamente a una distanza elevata.

Per saperne di più, consulta Visualizzare la topologia delle istanze di computing.

Modalità operativa dei cluster

Quando prenoti la capacità per creare istanze di computing o cluster utilizzando i tipi di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), il tipo di macchina che prenoti determina la modalità operativa del cluster per le istanze. Questa modalità specifica il comportamento delle istanze dopo gli errori dell'host o i report dell'host difettoso. Le modalità operative disponibili per un'istanza sono modalità gestita, in cui Compute Engine sostituisce automaticamente le macchine difettose , ma trattiene una parte della capacità prenotata per garantire che le istanze dispongano delle risorse necessarie per il riavvio. Oppure la modalità a capacità totale, in cui hai accesso alla capacità prenotata completa, ma sei responsabile della gestione di guasti e manutenzione pianificata.

Per saperne di più, consulta Modalità operativa della prenotazione.

Pianificazione e controlli della manutenzione dei cluster

Puoi controllare la manutenzione delle macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) utilizzando la pianificazione in base alla topologia in un blocco di risorse. Questa funzionalità consente di sincronizzare gli upgrade in modo che i workload siano più resilienti agli eventi host e di ridurre al minimo le interruzioni. Questo approccio contribuisce a migliorare il goodput del workload.

Per facilitare il controllo completo degli eventi di manutenzione, puoi utilizzare le seguenti funzionalità:

Tipo di pianificazione della manutenzione
Gestire gli eventi host

Tipo di pianificazione della manutenzione

Quando prenoti la capacità per creare istanze di computing o cluster di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), puoi definire in che modo Compute Engine gestisce l'infrastruttura su cui vengono eseguite le istanze. In base al tipo di macchina che vuoi utilizzare per le istanze, puoi scegliere tra la manutenzione sincronizzata tra le istanze (raggruppata) o pianificazioni di manutenzione diverse (indipendenti).

Per saperne di più, consulta Tipi di pianificazione della manutenzione.

Gestire gli eventi host

Dopo aver creato le istanze A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) e aver avviato il workload, puoi configurare gli avvisi e ricevere notifiche quando la manutenzione per le istanze o i blocchi prenotati è pianificata, inizia o viene completata. Puoi anche visualizzare e, se necessario, avviare manualmente la manutenzione su un'istanza o un blocco prenotato prima dell'orario previsto. Queste opzioni ti aiutano a controllare in modo proattivo e a ridurre al minimo i tempi di inattività dei workload.

Per ulteriori informazioni, consulta le seguenti risorse:

Strumenti di monitoraggio e diagnostica dei cluster

Per il monitoraggio e la risoluzione dei problemi, le macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) includono i seguenti servizi:

Previsione del degrado dello stato di integrità delle VM, che ti aiuta a identificare le VM che probabilmente subiranno un degrado nelle prossime cinque ore.
Report host difettoso, che puoi utilizzare per segnalare problemi con le singole macchine host.
Supporto per le metriche di Cloud Monitoring, che ti aiutano a monitorare le prestazioni di reti e GPU.