Creare un cluster Slurm completamente gestito con due VM A4
Questa guida rapida spiega come creare e connettersi a un cluster Slurm utilizzando Cluster Director. Il cluster che crei utilizza due istanze di macchine virtuali (VM) A4, progettate per aiutare il cluster Slurm a gestire in modo efficiente i workload di addestramento e inferenza di modelli su larga scala.
Cluster Director è un servizio gestito che semplifica e automatizza il deployment dei cluster, riducendo l'overhead operativo e consentendoti di concentrarti sull'esecuzione del workload. Se vuoi avere un maggiore controllo sul deployment e sulla gestione del cluster, allora crea un cluster Slurm utilizzando Cluster Toolkit.
Per seguire le indicazioni dettagliate per questa attività direttamente nella Google Cloud console, fai clic su Procedura guidata:
Prima di iniziare
- Accedi al tuo Google Cloud account. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Abilita l'API Hypercompute Cluster, l'API Compute Engine, l'API Filestore, l'API Google Cloud Managed Lustre, l'API Cloud Logging e l'API Cloud Monitoring:
Abilita le API- Verifica che il progetto e il service account predefinito di Compute Engine dispongano dei seguenti ruoli Identity and Access Management (IAM):
-
Per ottenere le autorizzazioni necessarie per completare questa guida rapida, chiedi all'amministratore di concederti i seguenti ruoli IAM nel progetto:
-
Per creare e gestire un cluster:
Editor di Cluster Director (
roles/hypercomputecluster.editor) -
Per creare e gestire le VM in un cluster:
Compute Instance Admin (v1) (
roles/compute.instanceAdmin.v1) -
Per connetterti al nodo di accesso in un cluster:
- Compute OS Login (
roles/compute.osLogin) - IAP-Secured Tunnel User (
roles/iap.tunnelResourceAccessor)
- Compute OS Login (
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
-
Per creare e gestire un cluster:
Editor di Cluster Director (
-
Per ottenere le autorizzazioni necessarie per completare questa guida rapida, chiedi all'amministratore di concederti i seguenti ruoli IAM nel account di servizio predefinito di Compute Engine:
-
Per creare un cluster:
Utente Service Account (
roles/iam.serviceAccountUser) -
Per gestire le risorse in un cluster:
- Scrittore log (
roles/logging.logWriter) - Monitoring Metric Writer (
roles/monitoring.metricWriter) - Storage Object Viewer (
roles/storage.objectViewer)
- Scrittore log (
-
Per creare un cluster:
Utente Service Account (
-
- Se l'organizzazione in cui esiste il tuo progetto ha una criteri per l'utilizzo di immagini attendibili
(
constraints/compute.trustedImageProjects), verifica che ilclusterdirector-public-imagesprogetto sia incluso nell'elenco dei progetti consentiti. Per visualizzare le policy per immagini attendibili della tua organizzazione, consulta Imposta limitazioni di accesso alle immagini.
Costi
Questa guida rapida utilizza le seguenti risorsefatturabili Google Cloud :
Compute Engine:
Due VM con tipi di macchine A4
Un volume Persistent Disk per il nodo di accesso Slurm con 100 GB
Un volume Google Cloud Hyperdisk Balanced con 100 GB per le VM A4
Filestore: un'istanza Filestore con 10 TiB (10.240 GiB)
Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.
Creare un cluster Slurm
Per creare un cluster Slurm, completa i seguenti passaggi:
Nella Google Cloud console, vai alla pagina Cluster Director.
Fai clic su Crea un cluster.
Nella finestra di dialogo visualizzata, fai clic su Configurazione passo passo. Viene visualizzata la pagina Crea cluster.
Nel campo Nome del cluster, inserisci
cluster001.Nella sezione Computing, fai clic su Configura risorse. Nel riquadro Aggiungi configurazione delle risorse visualizzato, completa i seguenti passaggi:
Nell'elenco Tipo di GPU, seleziona NVIDIA B200 180GB.
Nel campo Numero di istanze, inserisci
2.Nella sezione Opzioni di consumo, seleziona l'opzione di consumo che vuoi utilizzare per ottenere le risorse.
Nella sezione Località , specifica la Regione e la Zona in cui vuoi creare le VM A4 o in cui esiste la prenotazione che vuoi utilizzare per creare le VM.
Fai clic su Fine.
Nel menu di navigazione, fai clic su Archiviazione.
Nella sezione Archiviazione, fai clic su Modifica configurazione dell'archiviazione. Nel riquadro Aggiungi configurazione dell'archiviazione visualizzato, completa i seguenti passaggi:
Nella sezione Capacità , seleziona 10-100 TiB, con incrementi di 2,5 TiB.
Fai clic su Fine.
Fai clic su Crea. Viene visualizzata la pagina Cluster.
La creazione del cluster può richiedere del tempo. Il tempo di completamento dipende dal numero di VM richieste e dalla disponibilità delle risorse nella zona delle VM. Se le risorse richieste non sono disponibili, Cluster Director mantiene attiva la richiesta di creazione fino a quando non diventano disponibili.
Visualizzare la richiesta di creazione del cluster
Per esaminare la richiesta di creazione del cluster, completa i seguenti passaggi:
Nella tabella Cluster, nella colonna Nome, fai clic su cluster001. Viene visualizzata una pagina con i dettagli del cluster e la scheda Dettagli è selezionata.
Nella sezione Computing, trova la riga Stato. Quando AI Hypercomputer imposta il valore su Pronto, puoi procedere alla sezione successiva.
Connettersi al cluster tramite SSH
Per connetterti al cluster tramite SSH, completa i seguenti passaggi:
Fai clic sulla scheda Nodi.
Nella tabella Nodi di accesso, individua la riga contenente il nodo cluster001-login-001. In quella riga, nella colonna Connetti, fai clic sul pulsante SSH. Viene visualizzata la finestra SSH nel browser.
Se richiesto, fai clic su Autorizza. La connessione al cluster può richiedere del tempo. Quando il terminale è pronto, vai alla sezione successiva.
Eseguire job di esempio
Nella finestra SSH nel browser, completa i seguenti passaggi:
Per verificare che Slurm sia in esecuzione, esegui questo comando:
sinfoPer inviare un job di test che restituisce il nome host del nodo, esegui questo comando:
srun hostnamePer inviare un job batch che rimane inattivo per 30 secondi, esegui questo comando:
sbatch --wrap="sleep 30"Per controllare lo stato dei job in coda, esegui questo comando:
squeuePer visualizzare i dati di quantità di utilizzo delle risorse per i job, esegui questo comando:
sacct
Hai creato un cluster Slurm, stabilito la connessione al cluster ed eseguito job di esempio. Se AI Hypercomputer non ha ancora creato le VM A4, puoi attendere che il cluster crei le VM, modificare il cluster per aggiungere o rimuovere VM oppure eliminare il cluster per evitare addebiti non necessari.
Libera spazio
Per evitare che al tuo Google Cloud account vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.
Per eliminare il progetto:
- Nella Google Cloud console, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID progetto, quindi fai clic su Chiudi per eliminare il progetto.
Elimina il cluster
Per eliminare il cluster e le risorse associate che hai creato nell'ambito di questa guida rapida, completa i seguenti passaggi:
Nella pagina contenente i dettagli del cluster, fai clic su Elimina.
Nella finestra di dialogo visualizzata, inserisci
cluster001, quindi fai clic su Elimina per confermare.