Le serie di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega, e A3 High (8 GPU) sono progettate per consentirti di eseguire cluster di intelligenza artificiale (AI) e machine learning (ML) su larga scala e forniscono le seguenti funzionalità di gestione dei cluster:
- Collocazione delle risorse dell'infrastruttura AI
- Posizionamento in base alla topologia del cluster
- Modalità operativa dei cluster
- Pianificazione e controlli della manutenzione dei cluster
- Strumenti di monitoraggio e diagnostica dei cluster
Collocazione delle risorse dell'infrastruttura AI
Quando utilizzi A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), puoi richiedere macchine host di cui Compute Engine esegue il provisioning il più vicino possibile. Queste macchine offrono le seguenti funzionalità:
Compute Engine esegue il provisioning delle macchine come blocchi di risorse.
Una rete di interconnessione dinamica di machine learning (ML) interconnette le macchine.
Questa disposizione delle risorse riduce al minimo gli hop di rete e ottimizza la latenza di rete più bassa. Per saperne di più su come ottenere la capacità per eseguire il deployment di blocchi di macchine ottimizzate per l'acceleratore con allocazione densa, consulta la panoramica sulla capacità.
Posizionamento in base alla topologia del cluster
Dopo aver creato istanze di computing utilizzando i tipi di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), puoi ottenere informazioni sulla topologia a livello di nodo e cluster. Queste informazioni ti aiutano a:
Modificare la progettazione dell'applicazione o del workload per ridurre ulteriormente la latenza di rete.
Comprendere e risolvere i problemi di latenza e prestazioni di rete per le istanze che comunicano frequentemente tra loro. Questi problemi possono verificarsi se le istanze si trovano inaspettatamente molto distanti tra loro.
Per saperne di più, consulta Visualizzare la topologia delle istanze di computing.
Modalità operativa dei cluster
Quando prenoti la capacità per creare istanze di computing o cluster utilizzando i tipi di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), il tipo di macchina che prenoti determina la modalità operativa del cluster per le istanze. Questa modalità specifica il comportamento delle istanze dopo errori dell'host o report di host difettosi. Le modalità operative disponibili per un'istanza sono modalità gestita, in cui Compute Engine sostituisce automaticamente le macchine difettose , ma trattiene una parte della capacità prenotata per garantire che le istanze dispongano delle risorse necessarie per il riavvio. Oppure la modalità di capacità totale, in cui hai accesso alla capacità prenotata completa, ma sei responsabile della gestione di guasti e manutenzione pianificata.
Per saperne di più, consulta Modalità operativa della prenotazione.
Pianificazione e controlli della manutenzione dei cluster
Puoi controllare la manutenzione delle macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) utilizzando la pianificazione in base alla topologia in un blocco di risorse. Questa funzionalità consente di sincronizzare gli upgrade in modo che i workload siano più resilienti agli eventi host e di ridurre al minimo le interruzioni. Questo approccio contribuisce a migliorare il goodput del workload.
Per facilitare il controllo completo degli eventi di manutenzione, puoi utilizzare le seguenti funzionalità:
Tipo di pianificazione della manutenzione
Quando prenoti la capacità per creare istanze di computing o cluster di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), puoi definire in che modo Compute Engine gestisce l'infrastruttura su cui vengono eseguite le istanze. In base al tipo di macchina che vuoi utilizzare per le istanze, puoi scegliere tra la manutenzione sincronizzata tra le istanze (raggruppata) o pianificazioni di manutenzione diverse (indipendenti).
Per saperne di più, consulta Tipi di pianificazione della manutenzione.
Gestire gli eventi host
Dopo aver creato le istanze A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) e aver avviato il workload, puoi configurare gli avvisi e ricevere notifiche quando la manutenzione delle istanze o dei blocchi prenotati è pianificata, inizia o viene completata. Puoi anche visualizzare e, se necessario, avviare manualmente la manutenzione di un'istanza o di un blocco prenotato prima dell'orario previsto. Queste opzioni ti aiutano a controllare in modo proattivo e a ridurre al minimo i tempi di inattività dei workload.
Per ulteriori informazioni, consulta le seguenti risorse:
Strumenti di monitoraggio e diagnostica dei cluster
Per il monitoraggio e la risoluzione dei problemi, le macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) includono i seguenti servizi:
Previsione del peggioramento dell'integrità delle VM, che ti aiuta a identificare le VM che probabilmente peggioreranno nelle prossime cinque ore.
Report host difettosi, che puoi utilizzare per segnalare problemi con le singole macchine host.
Supporto per le metriche di Cloud Monitoring, che ti aiutano a monitorare le prestazioni di reti e GPU.