Creare un cluster Slurm completamente gestito con due VM A4

Questa guida rapida spiega come creare e connettersi a un cluster Slurm utilizzando Cluster Director. Il cluster che crei utilizza due istanze di macchine virtuali (VM) A4, progettate per aiutare il cluster Slurm a gestire in modo efficiente i workload di addestramento e inferenza di modelli su larga scala.

Cluster Director è un servizio gestito che semplifica e automatizza il deployment dei cluster, riducendo l'overhead operativo e consentendoti di concentrarti sull'esecuzione del workload. Se vuoi avere un maggiore controllo sul deployment e sulla gestione del cluster, allora crea un cluster Slurm utilizzando Cluster Toolkit.


Per seguire le indicazioni dettagliate per questa attività direttamente nella Google Cloud console, fai clic su Procedura guidata:

Procedura guidata


Prima di iniziare

  1. Accedi al tuo Google Cloud account. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Abilita l'API Hypercompute Cluster, l'API Compute Engine, l'API Filestore, l'API Google Cloud Managed Lustre, l'API Cloud Logging e l'API Cloud Monitoring:

    Abilita le API
  7. Verifica che il progetto e il service account predefinito di Compute Engine dispongano dei seguenti ruoli Identity and Access Management (IAM):
  8. Se l'organizzazione in cui esiste il tuo progetto ha una criteri per l'utilizzo di immagini attendibili (constraints/compute.trustedImageProjects), verifica che il clusterdirector-public-images progetto sia incluso nell'elenco dei progetti consentiti. Per visualizzare le policy per immagini attendibili della tua organizzazione, consulta Imposta limitazioni di accesso alle immagini.

Costi

Questa guida rapida utilizza le seguenti risorsefatturabili Google Cloud :

  • Compute Engine:

    • Due VM con tipi di macchine A4

    • Un volume Persistent Disk per il nodo di accesso Slurm con 100 GB

    • Un volume Google Cloud Hyperdisk Balanced con 100 GB per le VM A4

  • Filestore: un'istanza Filestore con 10 TiB (10.240 GiB)

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.

Creare un cluster Slurm

Per creare un cluster Slurm, completa i seguenti passaggi:

  1. Nella Google Cloud console, vai alla pagina Cluster Director.

    Vai a Cluster Director

  2. Fai clic su Crea un cluster.

  3. Nella finestra di dialogo visualizzata, fai clic su Configurazione passo passo. Viene visualizzata la pagina Crea cluster.

  4. Nel campo Nome del cluster, inserisci cluster001.

  5. Nella sezione Computing, fai clic su Configura risorse. Nel riquadro Aggiungi configurazione delle risorse visualizzato, completa i seguenti passaggi:

    1. Nell'elenco Tipo di GPU, seleziona NVIDIA B200 180GB.

    2. Nel campo Numero di istanze, inserisci 2.

    3. Nella sezione Opzioni di consumo, seleziona l'opzione di consumo che vuoi utilizzare per ottenere le risorse.

    4. Nella sezione Località , specifica la Regione e la Zona in cui vuoi creare le VM A4 o in cui esiste la prenotazione che vuoi utilizzare per creare le VM.

    5. Fai clic su Fine.

  6. Nel menu di navigazione, fai clic su Archiviazione.

  7. Nella sezione Archiviazione, fai clic su Modifica configurazione dell'archiviazione. Nel riquadro Aggiungi configurazione dell'archiviazione visualizzato, completa i seguenti passaggi:

    1. Nella sezione Capacità , seleziona 10-100 TiB, con incrementi di 2,5 TiB.

    2. Fai clic su Fine.

  8. Fai clic su Crea. Viene visualizzata la pagina Cluster.

    La creazione del cluster può richiedere del tempo. Il tempo di completamento dipende dal numero di VM richieste e dalla disponibilità delle risorse nella zona delle VM. Se le risorse richieste non sono disponibili, Cluster Director mantiene attiva la richiesta di creazione fino a quando non diventano disponibili.

Visualizzare la richiesta di creazione del cluster

Per esaminare la richiesta di creazione del cluster, completa i seguenti passaggi:

  1. Nella tabella Cluster, nella colonna Nome, fai clic su cluster001. Viene visualizzata una pagina con i dettagli del cluster e la scheda Dettagli è selezionata.

  2. Nella sezione Computing, trova la riga Stato. Quando AI Hypercomputer imposta il valore su Pronto, puoi procedere alla sezione successiva.

Connettersi al cluster tramite SSH

Per connetterti al cluster tramite SSH, completa i seguenti passaggi:

  1. Fai clic sulla scheda Nodi.

  2. Nella tabella Nodi di accesso, individua la riga contenente il nodo cluster001-login-001. In quella riga, nella colonna Connetti, fai clic sul pulsante SSH. Viene visualizzata la finestra SSH nel browser.

  3. Se richiesto, fai clic su Autorizza. La connessione al cluster può richiedere del tempo. Quando il terminale è pronto, vai alla sezione successiva.

Eseguire job di esempio

Nella finestra SSH nel browser, completa i seguenti passaggi:

  1. Per verificare che Slurm sia in esecuzione, esegui questo comando:

    sinfo
    
  2. Per inviare un job di test che restituisce il nome host del nodo, esegui questo comando:

    srun hostname
    
  3. Per inviare un job batch che rimane inattivo per 30 secondi, esegui questo comando:

    sbatch --wrap="sleep 30"
    
  4. Per controllare lo stato dei job in coda, esegui questo comando:

    squeue
    
  5. Per visualizzare i dati di quantità di utilizzo delle risorse per i job, esegui questo comando:

    sacct
    

Hai creato un cluster Slurm, stabilito la connessione al cluster ed eseguito job di esempio. Se AI Hypercomputer non ha ancora creato le VM A4, puoi attendere che il cluster crei le VM, modificare il cluster per aggiungere o rimuovere VM oppure eliminare il cluster per evitare addebiti non necessari.

Libera spazio

Per evitare che al tuo Google Cloud account vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. Nella Google Cloud console, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID progetto, quindi fai clic su Chiudi per eliminare il progetto.

Elimina il cluster

Per eliminare il cluster e le risorse associate che hai creato nell'ambito di questa guida rapida, completa i seguenti passaggi:

  1. Nella pagina contenente i dettagli del cluster, fai clic su Elimina.

  2. Nella finestra di dialogo visualizzata, inserisci cluster001, quindi fai clic su Elimina per confermare.

Passaggi successivi