Le serie di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) sono progettate per consentirti di eseguire cluster di intelligenza artificiale (AI) e machine learning (ML) su larga scala e forniscono le seguenti funzionalità di gestione dei cluster:
- Colocation delle risorse dell'infrastruttura AI
- Posizionamento consapevole della topologia del cluster
- Modalità operativa dei cluster
- Pianificazione e controlli per la manutenzione del cluster
- Strumenti di monitoraggio e diagnostica dei cluster
Colocation delle risorse dell'infrastruttura AI
Quando utilizzi A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), puoi richiedere macchine host che Compute Engine esegue il provisioning il più vicino possibile. Queste macchine offrono le seguenti funzionalità:
Compute Engine esegue il provisioning delle macchine come blocchi di risorse.
Una struttura di rete di machine learning (ML) dinamica interconnette le macchine.
Questa disposizione delle risorse riduce al minimo gli hop di rete e ottimizza la latenza di rete più bassa. Per scoprire di più su come ottenere la capacità di eseguire il deployment di blocchi di macchine ottimizzate per l'acceleratore allocati in modo denso, consulta la panoramica della capacità.
Posizionamento consapevole della topologia del cluster
Dopo aver creato istanze di calcolo utilizzando i tipi di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), puoi ottenere informazioni sulla topologia a livello di nodo e cluster. Queste informazioni ti aiutano a:
Modifica la progettazione dell'applicazione o del workload per ridurre ulteriormente la latenza di rete.
Comprendi e risolvi i problemi di latenza e prestazioni di rete per le istanze che comunicano frequentemente tra loro. Questi problemi possono verificarsi se le istanze si trovano in posizioni molto distanti tra loro.
Per saperne di più, vedi Visualizzare la topologia delle istanze di calcolo.
Modalità operativa dei cluster
Quando prenoti la capacità per creare istanze o cluster di calcolo utilizzando i tipi di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), il tipo di macchina che prenoti determina la modalità operativa del cluster per le istanze. Questa modalità specifica il comportamento delle istanze dopo errori host o report host difettosi. Le modalità operative disponibili per un'istanza sono la modalità gestita, in cui Compute Engine sostituisce automaticamente le macchine difettose, ma trattiene parte della capacità riservata per garantire che le istanze dispongano delle risorse necessarie per il riavvio. oppure la modalità con tutta la capacità, in cui hai accesso a tutta la capacità prenotata, ma sei responsabile della gestione di errori e manutenzione pianificata.
Per saperne di più, vedi Modalità operativa di prenotazione.
Pianificazione e controlli della manutenzione del cluster
Controlli la manutenzione delle macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) utilizzando la pianificazione in base alla topologia in un blocco di risorse. Questa funzionalità consente di sincronizzare gli upgrade in modo che i workload siano più resilienti agli eventi host e ridurre al minimo le interruzioni. Questo approccio contribuisce a migliorare il goodput del carico di lavoro.
Per facilitare il controllo completo degli eventi di manutenzione, puoi utilizzare le seguenti funzionalità:
Tipo di pianificazione della manutenzione
Quando prenoti capacità per creare istanze di computing o cluster di macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), puoi definire in che modo Compute Engine gestisce l'infrastruttura su cui vengono eseguite le istanze. In base al tipo di macchina che vuoi utilizzare per le tue istanze, puoi scegliere tra la manutenzione sincronizzata tra le istanze (raggruppata) o pianificazioni di manutenzione diverse (indipendenti).
Per saperne di più, consulta Tipi di pianificazione della manutenzione.
Gestire gli eventi dell'organizzatore
Dopo aver creato le istanze A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) e aver avviato il workload, puoi configurare gli avvisi e ricevere notifiche quando la manutenzione delle istanze o dei blocchi riservati è pianificata, inizia o viene completata. Puoi anche visualizzare e, se necessario, avviare manualmente la manutenzione di un'istanza o di un blocco riservato prima dell'orario pianificato. Queste opzioni ti aiutano a controllare e ridurre al minimo in modo proattivo i tempi di inattività dei tuoi workload.
Per ulteriori informazioni, consulta le seguenti risorse:
Strumenti di monitoraggio e diagnostica dei cluster
Per il monitoraggio e la risoluzione dei problemi, le macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) includono i seguenti servizi:
Previsione del peggioramento dell'integrità delle VM, che ti aiuta a identificare le VM che probabilmente peggioreranno nelle prossime cinque ore.
Segnalazione di host difettosi, che puoi utilizzare per segnalare problemi con singole macchine host.
Supporto delle metriche di Cloud Monitoring, che ti aiutano a monitorare le prestazioni di reti e GPU.