Vollständig verwalteten Slurm-Cluster mit zwei A4-VMs erstellen

In dieser Kurzanleitung wird erläutert, wie Sie mit Cluster Director einen Slurm-Cluster erstellen und eine Verbindung zu ihm herstellen. Der von Ihnen erstellte Cluster verwendet zwei A4-VM-Instanzen, die so konzipiert sind, dass Ihr Slurm-Cluster große Modell trainings- und Inferenzarbeitslasten effizient verarbeiten kann.

Cluster Director ist ein verwalteter Dienst, der die Clusterbereitstellung vereinfacht und automatisiert. Dadurch wird der betriebliche Aufwand reduziert und Sie können sich auf die Ausführung Ihrer Arbeitslast konzentrieren. Wenn Sie mehr Kontrolle über die Bereitstellung und Verwaltung Ihres Clusters haben möchten, dann erstellen Sie einen Slurm-Cluster mit dem Cluster Toolkit.


Eine detaillierte Anleitung dazu finden Sie direkt in der Google Cloud Console. Klicken Sie dazu einfach auf Anleitung:

Anleitung


Hinweis

  1. Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie noch kein Google Cloud-Konto haben, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Aktivieren Sie die Hypercompute Cluster API, die Compute Engine API, die Filestore API, die Google Cloud Managed Lustre API, die Cloud Logging API und die Cloud Monitoring API:

    APIs aktivieren
  7. Prüfen Sie, ob Ihr Projekt und das Compute Engine-Standarddienstkonto die folgenden IAM-Rollen (Identity and Access Management) haben:
  8. Wenn die Organisation, in der sich Ihr Projekt befindet, eine Trusted Image-Richtlinie (constraints/compute.trustedImageProjects) hat, prüfen Sie, ob das clusterdirector-public-images Projekt in der Liste der zulässigen Projekte enthalten ist. Informationen zum Aufrufen der Trusted Image-Richtlinien für Ihre Organisation, siehe Einschränkungen für den Image-Zugriff festlegen.

Kosten

In dieser Kurzanleitung werden die folgenden kostenpflichtigen Google Cloud Ressourcen verwendet:

  • Compute Engine:

    • Zwei VMs mit A4-Maschinentypen

    • Ein nichtflüchtiges Speicher-Volume für den Slurm-Anmeldeknoten mit 100 GB

    • Ein Google Cloud Hyperdisk Balanced-Volume mit 100 GB für die A4-VMs

  • Filestore: Eine Filestore-Instanz mit 10 TiB (10.240 GiB)

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.

Slurm-Cluster erstellen

Führen Sie die folgenden Schritte aus, um einen Slurm-Cluster zu erstellen:

  1. Rufen Sie in der Google Cloud Console die Cluster Director Seite auf.

    Zu Cluster Director

  2. Klicken Sie auf Cluster erstellen.

  3. Klicken Sie im angezeigten Dialogfeld auf Schrittweise Konfiguration. Die Seite Cluster erstellen wird angezeigt.

  4. Geben Sie im Feld Clustername cluster001 ein.

  5. Klicken Sie im Bereich Compute auf Ressourcen konfigurieren. Führen Sie im angezeigten Bereich Ressourcenkonfiguration hinzufügen die folgenden Schritte aus:

    1. Wählen Sie in der Liste GPU-Typ die Option NVIDIA B200 180 GB aus.

    2. Geben Sie im Feld Anzahl der Instanzen 2 ein.

    3. Wählen Sie im Abschnitt Aufnahmeoptionen die Aufnahmeoption aus, die Sie zum Abrufen von Ressourcen verwenden möchten.

    4. Geben Sie im Abschnitt Standort die Region und Zone an, in der Sie Ihre A4-VMs erstellen möchten oder in der sich die Reservierung befindet, die Sie zum Erstellen Ihrer VMs verwenden möchten.

    5. Klicken Sie auf Fertig.

  6. Klicken Sie im Navigationsmenü auf Speicher.

  7. Klicken Sie im Bereich Speicher auf Speicherkonfiguration bearbeiten. Führen Sie im angezeigten Bereich Speicherkonfiguration hinzufügen die folgenden Schritte aus:

    1. Wählen Sie im Abschnitt Kapazität die Option 10–100 TiB in Schritten von 2,5 TiB aus.

    2. Klicken Sie auf Fertig.

  8. Klicken Sie auf Erstellen. Die Seite Cluster wird angezeigt.

    Das Erstellen des Clusters kann einige Zeit dauern. Die Dauer hängt von der Anzahl der angeforderten VMs und der Ressourcenverfügbarkeit in der Zone der VMs ab. Sind die angeforderten Ressourcen nicht verfügbar, behält Cluster Director die Erstellungsanfrage bei, bis die Ressourcen verfügbar werden.

Anfrage zur Clustererstellung aufrufen

Führen Sie die folgenden Schritte aus, um die Anfrage zur Clustererstellung zu prüfen:

  1. Klicken Sie in der Tabelle Cluster in der Spalte Name auf cluster001. Eine Seite mit den Details des Clusters wird angezeigt, wobei der Tab Details ausgewählt ist.

  2. Suchen Sie im Bereich Compute die Zeile Status. Wenn AI Hypercomputer den Wert auf Bereit setzt, können Sie mit dem nächsten Abschnitt fortfahren.

Über SSH eine Verbindung zum Cluster herstellen

Führen Sie die folgenden Schritte aus, um über SSH eine Verbindung zum Cluster herzustellen:

  1. Klicken Sie auf den Tab Knoten.

  2. Suchen Sie in der Tabelle Anmeldeknoten die Zeile mit dem Knoten cluster001-login-001. Klicken Sie in dieser Zeile in der Spalte Verbinden auf die Schaltfläche SSH. Das Fenster SSH im Browser wird angezeigt.

  3. Klicken Sie auf Autorisieren, wenn Sie dazu aufgefordert werden. Die Verbindung zum Cluster kann einige Zeit dauern. Wenn das Terminal bereit ist, fahren Sie mit dem nächsten Abschnitt fort.

Beispieljobs ausführen

Führen Sie im Fenster SSH im Browser die folgenden Schritte aus:

  1. Führen Sie folgenden Befehl aus, um zu prüfen, ob Slurm ausgeführt wird:

    sinfo
    
  2. Führen Sie den folgenden Befehl aus, um einen Testjob zu senden, der den Hostnamen des Knotens zurückgibt:

    srun hostname
    
  3. Führen Sie den folgenden Befehl aus, um einen Batchjob zu senden, der 30 Sekunden lang inaktiv ist:

    sbatch --wrap="sleep 30"
    
  4. Führen Sie den folgenden Befehl aus, um den Status von Jobs in der Warteschlange zu prüfen:

    squeue
    
  5. Führen Sie den folgenden Befehl aus, um Ressourcenerfassungsdaten für Jobs aufzurufen:

    sacct
    

Sie haben einen Slurm-Cluster erstellt, eine Verbindung zu ihm hergestellt und Beispieljobs ausgeführt. Wenn AI Hypercomputer die A4-VMs noch nicht erstellt hat, können Sie warten, bis der Cluster die VMs erstellt hat, den Cluster ändern, um VMs hinzuzufügen oder zu entfernen, oder den Cluster löschen, um unnötige Kosten zu vermeiden.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten, wenn Sie das zum Ausführen der Anleitung erstellte Projekt löschen.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Google Cloud -Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Herunterfahren), um das Projekt zu löschen.

Cluster löschen

Führen Sie die folgenden Schritte aus, um den Cluster und die zugehörigen Ressourcen zu löschen, die Sie im Rahmen dieser Kurzanleitung erstellt haben:

  1. Klicken Sie auf der Seite mit den Details Ihres Clusters auf Löschen.

  2. Geben Sie im angezeigten Dialogfeld cluster001 ein und klicken Sie dann auf Löschen , um den Vorgang zu bestätigen.

Nächste Schritte