Crea un cluster Slurm autogestito con una VM A4
Questa pagina descrive come creare ed eseguire rapidamente il deployment di un cluster Slurm ottimizzato per l'AI utilizzando i tipi di macchine A4 ottimizzate per l'acceleratore con gcloud CLI e Cluster Toolkit.
I tipi di macchine A4 ottimizzate per l'acceleratore sono dotati di GPU NVIDIA B200 collegate e sono progettati specificamente per il calcolo intensivo dell'AI per aiutare il cluster Slurm a gestire in modo efficiente l'addestramento e l'inferenza di modelli su larga scala. Per ulteriori informazioni sui tipi di macchine A4 ottimizzati per l'acceleratore su Google Cloud, vedi Tipi di macchine GPU.
In alternativa, puoi utilizzare Cluster Director per creare un cluster Slurm basato su A4. Cluster Director è un servizio gestito che semplifica e automatizza il deployment dei cluster, riducendo il sovraccarico operativo. Per saperne di più, consulta Crea un cluster Slurm completamente gestito con due VM A4.
Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud , fai clic su Procedura guidata:
Panoramica sull'esercitazione
Questo tutorial descrive i passaggi per configurare un cluster Slurm ottimizzato per l'AI utilizzando tipi di macchine A4 ottimizzati per l'acceleratore. In particolare, hai configurato un cluster con macchine virtuali Compute Engine, creato un bucket Cloud Storage per archiviare i moduli Terraform necessari e configurato un'istanza Filestore per provisionare il cluster Slurm. Per completare i passaggi di questo tutorial, segui questa procedura:
- Configura il progetto Google Cloud con le autorizzazioni richieste per questa guida e le variabili di ambiente per prenotare la macchina.
- Creare un bucket Cloud Storage.
- Configura le variabili di ambiente di archiviazione.
- Configurare Cluster Toolkit.
- Passare alla directory di Cluster Toolkit.
- Creare un file YAML di deployment Slurm.
- Eseguire il provisioning di un cluster Slurm utilizzando un progetto iniziare.
- Connetterti al cluster Slurm.
Prima di iniziare
- Riserva un blocco di capacità per una macchina
a4-highgpu-8g. Assicurati di disporre di una quota Filestore sufficiente per eseguire il provisioning del cluster Slurm. È necessaria una capacità zonale minima di 10.240 GiB (nota anche come capacità SSD ad alta scalabilità).
Per controllare la quota Filestore, visualizza Quote e limiti di sistema nella console Google Cloud e filtra la tabella in modo da mostrare solo le risorse Filestore.
- Per istruzioni dettagliate su come controllare le quote Filestore, consulta Visualizza la quota della specifica API.
- Se non disponi di quota sufficiente, richiedi un aumento della quota.
Verifica che la fatturazione sia abilitata per il tuo progetto Google Cloud .
Abilita le API Compute Engine, Filestore, Cloud Storage, Service Usage e API Resource Manager:
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per eseguire il deployment di un cluster Slurm, chiedi all'amministratore di concederti i seguenti ruoli IAM:
- Storage Admin (
roles/storage.admin) sul progetto - Compute Instance Admin (v1) (
roles/compute.instanceAdmin.v1) nel tuo progetto - Service Account User (
roles/iam.serviceAccountUser) sull'account di servizio stesso
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Costi
Il costo dell'esecuzione di questo tutorial varia in base a ogni sezione completata, ad esempio la configurazione del tutorial o l'esecuzione dei job. Puoi calcolare il costo utilizzando il Calcolatore prezzi.
Per stimare il costo della configurazione di questo tutorial, utilizza le seguenti specifiche:
- Capacità Filestore (standard) per regione: 10.240 GiB.
- Standard Persistent Disk: 50 GB
pd-standardper il nodo di accesso Slurm. - Dischi permanenti prestazionali (SSD): 50 GB
pd-ssdper il controller Slurm. - Istanza VM: 1
a4-highgpu-8g.
Avvia Cloud Shell
In questo tutorial utilizzerai Cloud Shell, un ambiente shell per la gestione delle risorse ospitate su Google Cloud.
Cloud Shell è preinstallato con Google Cloud CLI. gcloud CLI fornisce l'interfaccia a riga di comando principale per Google Cloud. Avvia Cloud Shell:
Vai alla console Google Cloud .
Nell'angolo in alto a destra della console, fai clic sul pulsante Attiva Cloud Shell:

Viene avviata una sessione di Cloud Shell e viene visualizzato un prompt della riga di comando.
Utilizza questa shell per eseguire i comandi Cluster Toolkit e gcloud.
Imposta le variabili di capacità di prenotazione delle macchine
In Cloud Shell, imposta le seguenti variabili di ambiente per la capacità di prenotazione. Queste variabili di ambiente impostano valori segnaposto
per configurare il progetto in modo da accedere alla macchina a4-highgpu-8g prenotata.
export A4_RESERVATION_PROJECT_ID=A4_RESERVATION_PROJECT_ID export A4_RESERVATION_NAME=A4_RESERVATION_NAME export A4_DEPLOYMENT_NAME=A4_DEPLOYMENT_NAME export A4_REGION=A4_REGION export A4_ZONE=A4_ZONE export A4_DEPLOYMENT_FILE_NAME=A4_DEPLOYMENT_FILE_NAME
Sostituisci quanto segue:
A4_RESERVATION_PROJECT_ID: l' Google CloudID progetto a cui è stato concesso il blocco di prenotazione del tipo di macchina A4.A4_RESERVATION_NAME: il nome della prenotazione GPU utilizzata nel progetto. Ad esempio,a4high-exr.A4_DEPLOYMENT_NAME: un nome univoco per il deployment del cluster Slurm. Ad esempio,my-slurm-cluster-deployment.A4_REGION: la regione in cui è in esecuzione il blocco di prenotazione delle macchine A4 riservate. Ad esempio,us-central1.A4_ZONE: la zona che contiene le macchine riservate. Questa stringa deve contenere sia la regione che la zona. Ad esempio,us-central1-a.A4_DEPLOYMENT_FILE_NAME: un nome univoco per il file YAML del progetto iniziale Slurm. Se completi questo tutorial più di una volta, scegli ogni volta un nome di deployment univoco.
Passa al progetto approvato per A4
Passa al progetto Google Cloud che ha il blocco di prenotazione approvato per il tipo di macchina A4:
gcloud config set project ${A4_RESERVATION_PROJECT_ID}Crea un bucket Cloud Storage
Quando esegui il deployment di un blueprint e dei relativi moduli, Terraform crea un file di stato che mappa il blueprint alle risorse nel cloud. Per mantenere un record affidabile della tua infrastruttura, ti consigliamo di archiviare i file di stato di Terraform in una posizione remota abilitata per il controllo delle versioni, ad esempio un bucket Cloud Storage con il controllo delle versioni abilitato.
Per archiviare il file di stato, crea un bucket Cloud Storage con il controllo delle versioni attivato da Cloud Shell:
gcloud storage buckets create gs://${BUCKET_NAME} \
--project=${A4_RESERVATION_PROJECT_ID} \
--default-storage-class=STANDARD \
--location=${BUCKET_LOCATION} \
--uniform-bucket-level-access
gcloud storage buckets update gs://${BUCKET_NAME} --versioning
Sostituisci quanto segue:
BUCKET_NAME: il nome del nuovo bucket Cloud Storage, che deve soddisfare i requisiti di denominazione dei bucket.A4_RESERVATION_PROJECT_ID: l' Google CloudID progetto a cui è stato concesso il blocco di prenotazione del tipo di macchina A4.BUCKET_LOCATION: la Google Cloud regione in cui creare il bucket Cloud Storage, ad esempious-central1. Terraform memorizza il file di stato in questa posizione.
Imposta le variabili di capacità di archiviazione
In Cloud Shell, crea le variabili di ambiente per il bucket che hai creato nel passaggio precedente.
export BUCKET_NAME=BUCKET_NAME export BUCKET_LOCATION=BUCKET_LOCATION
Sostituisci quanto segue:
BUCKET_NAME: il nome del bucket.BUCKET_LOCATION: la regione in cui si trova il bucket.
Configura Cluster Toolkit
Per creare un cluster Slurm in un Google Cloud progetto, puoi utilizzare Cluster Toolkit per gestire il deployment e il provisioning del cluster. Cluster Toolkit è un software open source fornito da Google Cloudper semplificare il processo di deployment dei workload su Google Cloud.
Per configurare Cluster Toolkit, segui questi passaggi.
Installa Cluster Toolkit
Per installare Cluster Toolkit, scarica ed estrai il pacchetto di file binari predefinito. Sono disponibili gli archivi ZIP e TAR (.tgz).
Vai alla pagina delle release di Cluster Toolkit su GitHub.
Scarica il bundle corrispondente alla tua piattaforma e alla tua architettura. Ad esempio, se utilizzi Cloud Shell, scarica
gcluster_bundle_linux_amd64.zipogcluster_bundle_linux_amd64.tar.gz.Nel terminale, estrai i file del pacchetto in una nuova directory
cluster-toolkit:Se hai scaricato un bundle ZIP, estrai i file utilizzando il comando
unzip:unzip BUNDLE_FILENAME -d cluster-toolkit
Se hai scaricato un pacchetto TAR, estrai i file utilizzando il comando
tar:mkdir -p cluster-toolkit tar -xzf BUNDLE_FILENAME -C cluster-toolkit
Sostituisci
BUNDLE_FILENAMEcon il nome del bundle che hai scaricato.Vai alla directory
cluster-toolkit:cd cluster-toolkit
Verifica l'installazione:
./gcluster --version
Dopo aver installato il file binario, puoi eseguire il deployment dei cluster per eseguire i job o i workload.
Crea un file di deployment
Nella directory Cluster Toolkit, crea il file YAML di deployment di Slurm.
nano ${A4_DEPLOYMENT_FILE_NAME}.yamlIncolla i seguenti contenuti nel file YAML.
--- terraform_backend_defaults: type: gcs configuration: bucket: BUCKET_NAME vars: deployment_name: A4_DEPLOYMENT_FILE_NAME project_id: A4_RESERVATION_PROJECT_ID region: A4_REGION zone: A4_ZONE a4h_reservation_name: A4_RESERVATION_NAME a4h_cluster_size: 1Per salvare ed uscire dal file, premi Ctrl+O > Invio > Ctrl+X.
Esegui il provisioning del cluster Slurm
Per eseguire il provisioning del cluster Slurm, esegui questo comando di deployment. Questo comando esegue il provisioning del cluster Slurm con il file di progetto iniziale examples/machine-learning/a4-highgpu-8g/a4high-slurm-blueprint.yaml.
In Cloud Shell, avvia la creazione del cluster.
./gcluster deploy -d ${A4_DEPLOYMENT_FILE_NAME}.yaml examples/machine-learning/a4-highgpu-8g/a4high-slurm-blueprint.yaml --auto-approve
Connettiti al cluster
Dopo il deployment, connettiti alla Google Cloud console per visualizzare il cluster.
Vai alla pagina Compute Engine > Istanze VM nella consoleGoogle Cloud .
Individua il nodo di accesso (
a4high-login-001o simile).Fai clic su SSH per connetterti.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
Elimina il cluster Slurm
Ti consigliamo di eliminare le risorse quando non sono più necessarie.
Per impostazione predefinita, i progetti iniziali A4 High attivano la protezione da eliminazione sull'istanza Filestore. Quando elimini il cluster Slurm, devi disabilitare la protezione da eliminazione prima di eseguire il comando di eliminazione.
Disabilita la protezione da eliminazione
Per disabilitare la protezione da eliminazione quando aggiorni un'istanza, utilizza un comando simile al seguente:
gcloud filestore instances update INSTANCE_NAME \
--no-deletion-protection
Sostituisci INSTANCE_NAME con il nome dell'istanza
che vuoi modificare. Ad esempio, my-genomics-instance.
Per trovare INSTANCE_NAME, puoi eseguire gcloud filestore instances
list. Questo comando elenca tutte le istanze Filestore nel tuo progetto Google Cloud corrente, inclusi i relativi nomi, le località (zone), i livelli, la capacità e lo stato.
Dopo aver eseguito il comando, trova l'istanza Filestore corrispondente alla macchina a4-highgpu-8g in esecuzione in questo tutorial.
Elimina il cluster Slurm
Prima di eseguire il comando di eliminazione, vai alla directory root di Cluster Toolkit. Per impostazione predefinita,
DEPLOYMENT_FOLDERsi trova nella directory root di Cluster Toolkit.Elimina il cluster:
./gcluster destroy DEPLOYMENT_FOLDER --auto-approve
Sostituisci
DEPLOYMENT_FOLDERcon il nome della cartella di deployment. In genere, è uguale aDEPLOYMENT_NAME.
Al termine dell'eliminazione, viene visualizzato un messaggio simile al seguente:
Destroy complete! Resources: xx destroyed.
Elimina il bucket di archiviazione
Elimina il bucket Cloud Storage dopo aver verificato che il comando precedente sia terminato senza errori:
gcloud storage buckets delete gs://${BUCKET_NAME}
Risoluzione dei problemi
Errore: Cloud Shell non può eseguire il provisioning del cluster perché non c'è più spazio di archiviazione.
Potresti visualizzare questo errore se utilizzi spesso Cloud Shell e lo spazio di archiviazione è esaurito.
Per risolvere il problema, consulta Disabilita o reimposta Cloud Shell.
Errore: il nome del cluster o del progetto iniziale esiste già.
Potresti visualizzare questo errore se utilizzi un progetto che ha già usatoi nomi esatti dei file utilizzati in questo tutorial. Ad esempio, se un'altra persona della tua organizzazione ha completato questo tutorial end-to-end.
Per risolvere il problema, esegui di nuovo il tutorial, scegli un nome univoco per il file di deployment ed esegui di nuovo il comando provision the Slurm cluster (esegui il provisioning del cluster Slurm) con il nuovo file di deployment.
Passaggi successivi
- Attività Slurm avanzate:
- Scopri come gestire gli eventi sull'host:
- Visualizza la topologia di un'istanza di computing
- Monitora le istanze di computing nel cluster Slurm
- Segnala un host difettoso