Questo documento spiega come configurare ed eseguire il deployment di un cluster Slurm completamente gestito che utilizza i tipi di macchine A4X, A4, A3 Ultra, A3 Mega o A3 High. Per saperne di più su questi tipi di macchine ottimizzate per l'acceleratore, consulta Tipi di macchine GPU.
I passaggi descritti in questo documento mostrano come creare un cluster Slurm utilizzando Cluster Director. Cluster Director è un prodotto Google Cloud che automatizza la configurazione e l'impostazione dei cluster Slurm. È progettato per amministratori IT e ricercatori di AI che vogliono evitare l'overhead della gestione di un cluster e concentrarsi sull'esecuzione dei workload. Se vuoi avere un maggiore controllo sul deployment e sulla gestione del cluster, crealo utilizzando Cluster Toolkit.
Limitazioni
A seconda del tipo di macchina utilizzato dalle istanze Compute Engine nel cluster, si applicano le seguenti limitazioni:
A4X
- Non sono previsti sconti per utilizzo sostenuto o per impegno di utilizzo flessibile per le istanze che utilizzano questo tipo di macchina.
- Puoi creare istanze solo in determinate regioni e zone.
- Non puoi utilizzare Persistent Disk (a livello di regione o di zona). Puoi utilizzare solo Google Cloud Hyperdisk.
- Questo tipo di macchina è disponibile solo sulla piattaforma NVIDIA Grace.
- Le modifiche al tipo di macchina non sono supportate per A4X. Per passare a questo tipo di macchina o viceversa, devi creare una nuova istanza.
- Non puoi eseguire sistemi operativi Windows su questo tipo di macchina. Per un elenco dei sistemi operativi Linux supportati, consulta i sistemi operativi supportati per le istanze GPU.
- Per le istanze A4X, quando utilizzi
ethtool -Sper monitorare il networking GPU, i contatori delle porte fisiche che terminano con_phynon vengono aggiornati. Questo è il comportamento previsto per le istanze che utilizzano l'architettura della funzione virtuale (VF) MRDMA. Per saperne di più, consulta Funzioni MRDMA e strumenti di monitoraggio della rete. - Le istanze A4X non supportano:
- Non puoi collegare dischi Hyperdisk ML creati prima del 4 febbraio 2026 ai tipi di macchina A4X.
A4
- Non sono previsti sconti per utilizzo sostenuto e per impegno di utilizzo flessibile per le istanze che utilizzano un tipo di macchina A4.
- Puoi utilizzare un tipo di macchina A4 solo in alcune regioni e zone.
- Non puoi utilizzare Persistent Disk (a livello di regione o di zona). Puoi utilizzare solo Google Cloud Hyperdisk.
- Il tipo di macchina A4 è disponibile solo sulla piattaforma CPU Emerald Rapids.
- Non puoi modificare il tipo di macchina di un'istanza in o da un tipo di macchina A4. Devi creare una nuova istanza con questo tipo di macchina.
- I tipi di macchine A4 non supportano la modalità single-tenancy.
- Non puoi eseguire sistemi operativi Windows su un tipo di macchina A4.
- Per le istanze A4, quando utilizzi
ethtool -Sper monitorare il networking GPU, i contatori delle porte fisiche che terminano con_phynon vengono aggiornati. Si tratta di un comportamento previsto per le istanze che utilizzano l'architettura della funzione virtuale (VF) MRDMA. Per saperne di più, consulta Funzioni MRDMA e strumenti di monitoraggio della rete. - Non puoi collegare dischi Hyperdisk ML creati prima del 4 febbraio 2026 ai tipi di macchina A4.
A3 Ultra
- Non sono previsti sconti per utilizzo sostenuto e per impegno di utilizzo flessibile per le istanze che utilizzano un tipo di macchina A3 Ultra.
- Puoi utilizzare un tipo di macchina A3 Ultra solo in alcune regioni e zone.
- Non puoi utilizzare Persistent Disk (a livello di regione o di zona). Puoi utilizzare solo Google Cloud Hyperdisk.
- Il tipo di macchina A3 Ultra è disponibile solo sulla piattaforma CPU Emerald Rapids.
- Le modifiche al tipo di macchina non sono supportate per il tipo di macchina A3 Ultra. Per passare a questo tipo di macchina o viceversa, devi creare una nuova istanza.
- Non puoi eseguire sistemi operativi Windows su un tipo di macchina A3 Ultra.
- I tipi di macchine A3 Ultra non supportano la modalità single-tenancy.
- Per le istanze A3 Ultra, quando utilizzi
ethtool -Sper monitorare il networking GPU, i contatori delle porte fisiche che terminano con_phynon vengono aggiornati. Questo è il comportamento previsto per le istanze che utilizzano l'architettura della funzione virtuale (VF) MRDMA. Per saperne di più, consulta Funzioni MRDMA e strumenti di monitoraggio della rete.
A3 Mega
- Non sono previsti sconti per utilizzo sostenuto e per impegno di utilizzo flessibile per le istanze che utilizzano un tipo di macchina A3 Mega.
- Puoi utilizzare un tipo di macchina A3 Mega solo in alcune regioni e zone.
- Non puoi utilizzare i Persistent Disk a livello di regione su un'istanza che utilizza un tipo di macchina A3 Mega.
- Il tipo di macchina A3 Mega è disponibile solo sulla piattaforma CPU Sapphire Rapids.
- Le modifiche al tipo di macchina non sono supportate per il tipo di macchina A3 Mega. Per passare a questo tipo di macchina o viceversa, devi creare una nuova istanza.
- Non puoi eseguire sistemi operativi Windows su un tipo di macchina A3 Mega.
A3 High
- Non sono previsti sconti per utilizzo sostenuto e per impegno di utilizzo flessibile per le istanze che utilizzano un tipo di macchina A3 High.
- Puoi utilizzare un tipo di macchina A3 High solo in alcune regioni e zone.
- Non puoi utilizzare i Persistent Disk a livello di regione su un'istanza che utilizza un tipo di macchina A3 High.
- Il tipo di macchina A3 High è disponibile solo sulla piattaforma CPU Sapphire Rapids.
- Le modifiche al tipo di macchina non sono supportate per il tipo di macchina A3 High. Per passare a questo tipo di macchina o viceversa, devi creare una nuova istanza.
- Non puoi eseguire sistemi operativi Windows su un tipo di macchina A3 High.
- Puoi utilizzare solo
a3-highgpu-8g. I tipi di macchine A3 High con meno di 8 GPU non sono supportati.
Prima di iniziare
Prima di creare un cluster Slurm, se non l'hai ancora fatto, completa i seguenti passaggi:
- Scegli un'opzione di consumo: l'opzione di consumo scelta determina come ottenere e utilizzare le risorse GPU. Per saperne di più, consulta Scegliere un'opzione di consumo.
- Ottenere capacità: la procedura per ottenere capacità varia a seconda dell'opzione di consumo. Per scoprire di più sulla procedura per ottenere la capacità per l'opzione di consumo scelta, consulta Panoramica della capacità.
- Verifica di disporre di una quota di capacità Filestore sufficiente: devi disporre di una quota Filestore sufficiente nella regione di destinazione prima del deployment. La capacità minima richiesta
dipende dai tipi di macchina nel cluster:
- A4X Max, A4X, A4, A3 Ultra e A3 Mega: richiedono un minimo di 10 TiB (10.240 GiB) di capacità HIGH_SCALE_SSD (zonale).
- A3 High: richiede un minimo di 2,5 TiB (2560 GiB) di capacità BASIC_SSD (standard).
Per controllare la quota o richiedere un aumento della quota, consulta quanto segue:
- Per controllare la quota nel tuo progetto, consulta Visualizza la quota specifica dell'API.
- Se non disponi di quota sufficiente, richiedi un aumento della quota.
- Verifica la policy per immagini attendibili: se l'organizzazione in cui esiste il tuo progetto ha una
criteri per l'utilizzo di immagini attendibili (
constraints/compute.trustedImageProjects), verifica che il progettoclusterdirector-public-imagessia incluso nell'elenco dei progetti consentiti. Per saperne di più, consulta Configurazione delle policy per immagini attendibili.
Ruoli obbligatori
Per creare un cluster Slurm, devi disporre dei seguenti ruoli e autorizzazioni IAM:
-
Per ottenere le autorizzazioni necessarie per completare questa guida rapida, chiedi all'amministratore di concederti i seguenti ruoli IAM nel tuo progetto:
-
Per creare e gestire un cluster:
Editor Cluster Director (
roles/hypercomputecluster.editor) -
Per creare e gestire le VM in un cluster:
Compute Instance Admin (v1) (
roles/compute.instanceAdmin.v1) -
Per connetterti al nodo di accesso in un cluster:
-
Compute OS Login (
roles/compute.osLogin) -
IAP-Secured Tunnel User (
roles/iap.tunnelResourceAccessor)
-
Compute OS Login (
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
-
Per creare e gestire un cluster:
Editor Cluster Director (
-
Per ottenere le autorizzazioni necessarie per completare questa guida rapida, chiedi all'amministratore di concederti i seguenti ruoli IAM sul account di servizio predefinito di Compute Engine:
-
Per creare un cluster:
Utente service account (
roles/iam.serviceAccountUser) -
Per gestire le risorse in un cluster:
-
Logs Writer (
roles/logging.logWriter) -
Monitoring Metric Writer (
roles/monitoring.metricWriter) -
Storage Object Viewer (
roles/storage.objectViewer)
-
Logs Writer (
-
Per creare un cluster:
Utente service account (
Crea un cluster Slurm
Per creare un cluster ottimizzato per l'AI utilizzando Cluster Director, completa i seguenti passaggi:
Configura le configurazioni delle risorse di calcolo
Per configurare le configurazioni delle risorse di calcolo durante la creazione di un cluster, completa i seguenti passaggi:
Nella console Google Cloud , vai alla pagina Cluster Director.
Fai clic su Crea cluster.
Nella finestra di dialogo visualizzata, fai clic su Architettura di riferimento. Viene visualizzata la pagina Crea un cluster.
Fai clic su uno dei modelli disponibili. Se vuoi, puoi modificare il modello per adattarlo alle esigenze del tuo workload.
Fai clic su Personalizza.
Nella sezione Compute, nel campo Nome cluster, inserisci un nome per il cluster. Il nome può contenere fino a 10 caratteri e può utilizzare solo numeri o lettere minuscole (
a-z).Per aggiungere informazioni alla configurazione preconfigurata delle risorse di calcolo o modificare il numero e il tipo di istanze di computing specificati dalle configurazioni, svolgi le seguenti operazioni:
Nella sezione Compute, fai clic su Modifica configurazione risorse. Viene visualizzato il riquadro Aggiungi configurazione delle risorse.
(Facoltativo) Per modificare il nome della configurazione della risorsa di calcolo, inserisci un nuovo nome nel campo Nome.
(Facoltativo) Per modificare il numero e il tipo di istanze di computing utilizzate dal cluster, nella sezione Configurazione macchina, segui le istruzioni per aggiornare le risorse di computing.
Nella sezione Opzioni di consumo, specifica l'opzione di consumo che vuoi utilizzare per ottenere le risorse:
Per creare istanze di computing utilizzando una prenotazione, segui questi passaggi:
Fai clic sulla scheda Utilizza prenotazione.
Fai clic su Seleziona prenotazione. Viene visualizzato il riquadro Scegli una prenotazione. Se vuoi utilizzare una prenotazione di VM A4X, puoi scegliere facoltativamente il blocco o il sottoblocco per controllare il posizionamento delle VM.
Seleziona la prenotazione che vuoi utilizzare. Poi, fai clic su Scegli. Questa azione imposta automaticamente la regione e la zona delle risorse di computing.
Per creare VM Flex-start, segui questi passaggi:
Fai clic sulla scheda Avvio flessibile.
Nella sezione Limite di tempo per la VM, specifica la durata di esecuzione delle istanze di computing. Il valore deve essere compreso tra 10 minuti e 7 giorni.
Nella sezione Località, seleziona la regione in cui vuoi creare le VM con avvio flessibile. La consoleGoogle Cloud filtra automaticamente le regioni disponibili in modo da mostrare solo quelle che supportano le VM con avvio flessibile per il tipo di macchina selezionato.
Per creare VM spot:
Fai clic sulla scheda Usa spot.
Nell'elenco Alla terminazione della VM, seleziona una delle seguenti opzioni:
Per eliminare le VM spot durante il prerilascio, seleziona Elimina.
Per arrestare le VM spot durante il prerilascio, seleziona Arresta.
Nella sezione Località, seleziona la Regione e la Zona in cui vuoi creare le VM spot. La consoleGoogle Cloud filtra automaticamente le regioni disponibili in modo da mostrare solo quelle che supportano le VM spot per il tipo di macchina selezionato.
Fai clic su Fine.
(Facoltativo) Per creare configurazioni di risorse di calcolo aggiuntive per una partizione, fai clic su Aggiungi configurazione risorsa, quindi segui le istruzioni per specificare le risorse di calcolo.
Fai clic su Continua.
Configura la rete
Per configurare la rete utilizzata dal cluster, completa i seguenti passaggi:
Nella sezione Scegli una rete Virtual Private Cloud (VPC), esegui una delle seguenti operazioni:
Consigliato: per consentire ad AI Hypercomputer di creare automaticamente una rete VPC preconfigurata per il tuo cluster, procedi nel seguente modo:
Seleziona Crea una nuova rete VPC.
Nel campo Nome rete, inserisci un nome per la rete VPC.
Per utilizzare una rete VPC o VPC condiviso esistente, procedi nel seguente modo:
Seleziona Utilizza una rete VPC nel progetto attuale o Utilizza una rete VPC condiviso ospitata in un altro progetto.
Nell'elenco Seleziona rete VPC o Rete VPC condivisa, seleziona una rete VPC o VPC condiviso che soddisfi le configurazioni richieste.
Nell'elenco Seleziona subnet, seleziona una subnet esistente.
Fai clic su Continua.
Configura le risorse di archiviazione
Per configurare le risorse di archiviazione utilizzate dal cluster, nella sezione Archiviazione, completa i seguenti passaggi:
(Facoltativo) Per modificare una risorsa di archiviazione, fai clic su Modifica piano di archiviazione, quindi segui le istruzioni per aggiornare la configurazione della risorsa di archiviazione.
(Facoltativo) Per aggiungere risorse di archiviazione al cluster, fai clic su Aggiungi configurazione dell'archiviazione e poi segui le istruzioni per specificare la configurazione delle risorse di archiviazione.
Fai clic su Continua.
Configura l'ambiente Slurm
Per configurare l'ambiente Slurm nel cluster, completa i seguenti passaggi:
(Facoltativo) Per modificare il numero e il tipo di istanze di calcolo utilizzate dal nodo di accesso, espandi la sezione Nodo di accesso e segui le istruzioni per aggiornare le risorse di calcolo.
(Facoltativo) Per modificare le partizioni del cluster per organizzare le risorse di calcolo, espandi la sezione Partizioni e poi segui una di queste operazioni:
Per aggiungere una partizione, fai clic su Aggiungi partizione e poi procedi nel seguente modo:
Nel campo Nome partizione, inserisci un nome per la partizione.
Per modificare un insieme di nodi, fai clic su Attiva/disattiva insieme di nodi. In caso contrario, per aggiungere un nodeset, fai clic su Aggiungi nodeset.
Nel campo Nome del set di nodi, inserisci un nome per il set di nodi.
Nel campo Configurazione risorse, seleziona una configurazione di risorse di calcolo che hai creato nei passaggi precedenti.
Nell'elenco Immagine di origine, seleziona una delle immagini del sistema operativo supportate per AI Hypercomputer.
Nel campo Numero di nodi statici, inserisci il numero minimo di istanze di calcolo che devono essere sempre in esecuzione nel cluster.
Nel campo Numero di nodi dinamico, inserisci un numero massimo di istanze di calcolo a cui AI Hypercomputer può aumentare il cluster durante gli aumenti di traffico.
Nell'elenco Tipo di disco di avvio e nel campo Dimensione del disco di avvio, inserisci il tipo e le dimensioni del disco di avvio da utilizzare per le istanze di Compute.
Fai clic su Fine.
Per rimuovere una partizione, fai clic su Elimina partizione.
(Facoltativo) Per aggiungere script di prologo o epilogo al tuo ambiente Slurm:
Espandi la sezione Impostazioni di orchestrazione avanzate.
Nella sezione Script, segui le istruzioni per aggiungere script.
Fai clic su Crea. Viene visualizzata la pagina Cluster. La creazione del cluster può richiedere un po' di tempo. Il tempo di completamento dipende dal numero di istanze di computing richieste e dalla disponibilità delle risorse nella zona delle istanze di computing. Se le risorse richieste non sono disponibili, AI Hypercomputer mantiene attiva la richiesta di creazione fino a quando non diventano disponibili. Per visualizzare lo stato dell'operazione di creazione del cluster, visualizza i dettagli del cluster.
Connettiti al cluster Slurm
Quando AI Hypercomputer crea il nodo di accesso, lo stato del cluster cambia in Pronto. Puoi quindi connetterti al cluster, ma puoi eseguire i carichi di lavoro solo dopo che AI Hypercomputer crea i nodi di calcolo nel cluster.
Per connetterti al nodo di accesso di un cluster tramite SSH utilizzando la consoleGoogle Cloud , completa i seguenti passaggi:
Nella console Google Cloud , vai alla pagina Cluster.
Nella tabella Cluster, nella colonna Nome, fai clic sul nome del cluster che hai creato nella sezione precedente. Viene visualizzata una pagina con i dettagli del cluster e viene selezionata la scheda Dettagli.
Fai clic sulla scheda Nodi.
Nella sezione Nodi di accesso, nella colonna Connetti, individua il nodo di accesso del cluster, il cui nome è
CLUSTER_NAME-login-001.Nella colonna Connetti del nodo di accesso, fai clic sul pulsante SSH. Si apre la finestra SSH nel browser.
Se richiesto, fai clic su Autorizza. La connessione al nodo può richiedere fino a un minuto.
Verifica l'integrità del cluster Slurm
Prima di eseguire un job su un nodo di calcolo, Slurm esegue automaticamente un rapido controllo di integrità della GPU sul nodo. Se il nodo non supera il controllo, Slurm lo svuota e impedisce la pianificazione di nuovi job.
Per testare in modo più approfondito l'integrità della GPU e la larghezza di banda di rete nei nodi di calcolo di una partizione del cluster, puoi eseguire manualmente i test NVIDIA Collective Communications Library (NCCL). Se un test NCCL identifica nodi non integri, puoi ripararli o modificare il cluster. I test NCCL ti aiutano a verificare l'integrità di un cluster prima di eseguire carichi di lavoro critici. Per saperne di più, consulta Verificare l'integrità del cluster.
Elimina il cluster Slurm
Per eliminare un cluster Slurm nel tuo progetto, seleziona una delle seguenti opzioni:
Nella console Google Cloud , vai alla pagina Cluster.
Nella tabella Cluster, nella colonna Nome, fai clic sul nome del cluster che vuoi eliminare. Viene visualizzata una pagina con i dettagli del cluster e viene selezionata la scheda Dettagli.
Fai clic su Elimina.
Nella finestra di dialogo visualizzata, inserisci il nome del cluster e fai clic su Elimina per confermare. Viene visualizzata la pagina Cluster. L'eliminazione del cluster potrebbe richiedere del tempo.