Vollständig verwalteten Slurm-Cluster für KI-Arbeitslasten erstellen

In diesem Dokument wird beschrieben, wie Sie einen vollständig verwalteten Slurm-Cluster konfigurieren und bereitstellen, der die Maschinentypen A4X, A4, A3 Ultra, A3 Mega oder A3 High verwendet. Weitere Informationen zu diesen beschleunigungsoptimierten Maschinentypen finden Sie unter GPU-Maschinentypen.

In diesem Dokument wird beschrieben, wie Sie einen Slurm-Cluster mit Cluster Director erstellen. Cluster Director ist ein Google CloudProdukt, mit dem die Einrichtung und Konfiguration von Slurm-Clustern automatisiert wird. Sie wurde für IT-Administratoren und KI-Forscher entwickelt, die den Aufwand für die Verwaltung eines Clusters vermeiden und sich auf die Ausführung ihrer Arbeitslasten konzentrieren möchten. Wenn Sie mehr Kontrolle über die Bereitstellung und Verwaltung Ihres Clusters haben möchten, erstellen Sie Ihren Cluster mit dem Cluster Toolkit.

Beschränkungen

Je nach Maschinentyp, der von den Compute Engine-Instanzen in Ihrem Cluster verwendet wird, gelten die folgenden Einschränkungen:

A4X

A4

  • Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A4-Maschinentyp verwenden.
  • Sie können einen A4-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
  • Sie können keinen nichtflüchtigen Speicher (regional oder zonenbasiert) verwenden. Sie können nur Google Cloud Hyperdisk verwenden.
  • Der A4-Maschinentyp ist nur auf der Emerald Rapids-CPU-Plattform verfügbar.
  • Sie können den Maschinentyp einer Instanz nicht in einen A4-Maschinentyp ändern oder umgekehrt. Sie müssen eine neue Instanz mit diesem Maschinentyp erstellen.
  • A4-Maschinentypen unterstützen keine einzelnen Mandanten.
  • Sie können Windows-Betriebssysteme nicht auf einem A4-Maschinentyp ausführen.
  • Bei A4-Instanzen werden die Zähler für physische Ports, die mit _phy enden, nicht aktualisiert, wenn Sie ethtool -S verwenden, um das GPU-Netzwerk zu überwachen. Dies ist das erwartete Verhalten für Instanzen, die die MRDMA-Architektur für virtuelle Funktionen (VF) verwenden. Weitere Informationen finden Sie unter MRDMA-Funktionen und Tools zur Netzwerküberwachung.
  • Sie können Hyperdisk ML-Laufwerke, die vor dem 4. Februar 2026 erstellt wurden, nicht an A4-Maschinentypen anhängen.

A3 Ultra

  • Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A3-Ultra-Maschinentyp verwenden.
  • Sie können einen A3-Ultra-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
  • Sie können keinen nichtflüchtigen Speicher (regional oder zonenbasiert) verwenden. Sie können nur Google Cloud Hyperdisk verwenden.
  • Der A3-Ultra-Maschinentyp ist nur auf der Emerald Rapids-CPU-Plattform verfügbar.
  • Änderungen des Maschinentyps werden für den A3-Ultra-Maschinentyp nicht unterstützt. Wenn Sie zu diesem Maschinentyp wechseln oder ihn verlassen möchten, müssen Sie eine neue Instanz erstellen.
  • Sie können Windows-Betriebssysteme nicht auf einem A3-Ultra-Maschinentyp ausführen.
  • A3-Ultra-Maschinentypen unterstützen keine einzelnen Mandanten.
  • Wenn Sie bei A3 Ultra-Instanzen ethtool -S verwenden, um das GPU-Netzwerk zu überwachen, werden die Zähler für physische Ports, die mit _phy enden, nicht aktualisiert. Das ist das erwartete Verhalten für Instanzen, die die MRDMA-Architektur für virtuelle Funktionen (VF) verwenden. Weitere Informationen finden Sie unter MRDMA-Funktionen und Tools zur Netzwerküberwachung.

A3 Mega

A3 High

  • Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A3-High-Maschinentyp verwenden.
  • Sie können einen A3-High-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
  • Sie können keinen regionalen nichtflüchtigen Speicher auf einer Instanz verwenden, die einen A3-High-Maschinentyp verwendet.
  • Der Maschinentyp „A3 High“ ist nur auf der Sapphire Rapids-CPU-Plattform verfügbar.
  • Änderungen des Maschinentyps werden für den A3-High-Maschinentyp nicht unterstützt. Wenn Sie zu diesem Maschinentyp wechseln oder ihn verlassen möchten, müssen Sie eine neue Instanz erstellen.
  • Sie können Windows-Betriebssysteme nicht auf einem A3-High-Maschinentyp ausführen.
  • Sie können nur a3-highgpu-8g verwenden. A3 High-Maschinentypen mit weniger als 8 GPUs werden nicht unterstützt.

Hinweis

Führen Sie vor dem Erstellen eines Slurm-Clusters die folgenden Schritte aus, falls Sie dies noch nicht getan haben:

  1. Nutzungsoption auswählen: Die von Ihnen gewählte Nutzungsoption bestimmt, wie Sie GPU-Ressourcen beziehen und nutzen. Weitere Informationen finden Sie unter Nutzungsoption auswählen.
  2. Kapazität abrufen: Der Prozess zum Abrufen von Kapazität unterscheidet sich für jede Verbrauchsoption. Informationen zum Erhalten von Kapazität für die von Ihnen gewählte Verbrauchsoption finden Sie unter Kapazitätsübersicht.
  3. Prüfen Sie, ob Sie genügend Filestore-Kapazitätskontingent haben: Sie benötigen genügend Filestore-Kontingent in Ihrer Zielregion, bevor Sie die Bereitstellung vornehmen. Die erforderliche Mindestkapazität hängt von den Maschinentypen in Ihrem Cluster ab:
    • A4X Max, A4X, A4, A3 Ultra und A3 Mega: Erfordert mindestens 10 TiB (10.240 GiB) an HIGH_SCALE_SSD-Kapazität (zonal).
    • A3 High: Erfordert mindestens 2,5 TiB (2.560 GiB) an BASIC_SSD-Kapazität (Standard).

    So prüfen Sie das Kontingent oder fordern eine Kontingenterhöhung an:

  4. Trusted Image-Richtlinie prüfen: Wenn die Organisation, in der sich Ihr Projekt befindet, eine Trusted Image-Richtlinie (constraints/compute.trustedImageProjects) hat, prüfen Sie, ob das Projekt clusterdirector-public-images in der Liste der zulässigen Projekte enthalten ist. Weitere Informationen finden Sie unter Trusted Image-Richtlinien einrichten.

Erforderliche Rollen

Zum Erstellen eines Slurm-Clusters benötigen Sie die folgenden IAM-Rollen und -Berechtigungen:

Slurm-Cluster erstellen

Führen Sie die folgenden Schritte aus, um einen KI-optimierten Cluster mit Cluster Director zu erstellen:

  1. Konfigurationen für Rechenressourcen konfigurieren

  2. Netzwerk konfigurieren

  3. Speicherressourcen konfigurieren

  4. Slurm-Umgebung konfigurieren

Konfigurationen für Rechenressourcen konfigurieren

Führen Sie die folgenden Schritte aus, um Compute-Ressourcenkonfigurationen beim Erstellen eines Clusters zu konfigurieren:

  1. Rufen Sie in der Google Cloud Console die Seite Cluster Director auf.

    Zu Cluster Director

  2. Klicken Sie auf  Cluster erstellen.

  3. Klicken Sie im angezeigten Dialogfeld auf Referenzarchitektur. Die Seite Cluster erstellen wird geöffnet.

  4. Klicken Sie auf eine der verfügbaren Vorlagen. Sie können die Vorlage optional bearbeiten, um sie an die Anforderungen Ihrer Arbeitslast anzupassen.

  5. Klicken Sie auf Anpassen.

  6. Geben Sie im Bereich Compute im Feld Clustername einen Namen für den Cluster ein. Der Name darf maximal 10 Zeichen lang sein und darf nur Zahlen oder Kleinbuchstaben (az) enthalten.

  7. So fügen Sie der vorkonfigurierten Konfiguration von Rechenressourcen Informationen hinzu oder bearbeiten die Anzahl und den Typ der Recheninstanzen, die in der Konfiguration angegeben sind:

    1. Klicken Sie im Bereich Compute auf  Ressourcenkonfiguration bearbeiten. Der Bereich Ressourcenkonfiguration hinzufügen wird angezeigt.

    2. Optional: Wenn Sie den Namen der Konfiguration der Rechenressource ändern möchten, geben Sie im Feld Name einen neuen Namen ein.

    3. Optional: Wenn Sie die Anzahl und den Typ der Compute-Instanzen ändern möchten, die von Ihrem Cluster verwendet werden, folgen Sie im Abschnitt Maschinenkonfiguration der Anleitung, um die Compute-Ressourcen zu aktualisieren.

    4. Geben Sie im Abschnitt Nutzungsoptionen die Nutzungsoption an, die Sie zum Abrufen von Ressourcen verwenden möchten:

      • So erstellen Sie Compute-Instanzen mit einer Reservierung:

        1. Klicken Sie auf den Tab Reservierung verwenden.

        2. Klicken Sie auf Reservierung auswählen. Der Bereich Reservierung auswählen wird angezeigt. Wenn Sie eine Reservierung von A4X-VMs verwenden möchten, können Sie optional den Block oder Unterblock auswählen, um die Platzierung Ihrer VMs zu steuern.

        3. Wählen Sie die Reservierung aus, die Sie verwenden möchten. Klicken Sie dann auf Auswählen. Bei dieser Aktion werden die Region und Zone Ihrer Compute-Ressourcen automatisch festgelegt.

      • So erstellen Sie Flex-Start-VMs:

        1. Klicken Sie auf den Tab Flexibler Start.

        2. Geben Sie im Abschnitt Zeitlimit für die VM die Ausführungsdauer für die Compute-Instanzen an. Der Wert muss zwischen 10 Minuten und 7 Tagen liegen.

        3. Wählen Sie im Bereich Standort die Region aus, in der Sie Flex-Start-VMs erstellen möchten. In derGoogle Cloud Console werden die verfügbaren Regionen automatisch so gefiltert, dass nur die Regionen angezeigt werden, die Flex-Start-VMs für den ausgewählten Maschinentyp unterstützen.

      • So erstellen Sie Spot-VMs:

        1. Klicken Sie auf den Tab Spot verwenden.

        2. Wählen Sie in der Liste Bei VM-Beendigung eine der folgenden Optionen aus:

          • Wenn Spot-VMs bei vorzeitigem Beenden gelöscht werden sollen, wählen Sie Löschen aus.

          • Wählen Sie Beenden aus, um Spot-VMs bei vorzeitiger Beendigung zu beenden.

        3. Wählen Sie im Bereich Standort die Region und Zone aus, in der Sie Spot-VMs erstellen möchten. In derGoogle Cloud Console werden die verfügbaren Regionen automatisch so gefiltert, dass nur die Regionen angezeigt werden, die Spot-VMs für den ausgewählten Maschinentyp unterstützen.

    5. Klicken Sie auf Fertig.

    6. Optional: Wenn Sie zusätzliche Konfigurationen für Compute-Ressourcen für eine Partition erstellen möchten, klicken Sie auf  Ressourcenkonfiguration hinzufügen und folgen Sie der Anleitung, um die Compute-Ressourcen anzugeben.

  8. Klicken Sie auf Weiter.

Netzwerk konfigurieren

Führen Sie die folgenden Schritte aus, um das Netzwerk zu konfigurieren, das Ihr Cluster verwendet:

  1. Führen Sie im Bereich VPC-Netzwerk (Virtual Private Cloud) auswählen einen der folgenden Schritte aus:

    • Empfohlen: Wenn AI Hypercomputer automatisch ein vorkonfiguriertes VPC-Netzwerk für Ihren Cluster erstellen soll, gehen Sie so vor:

      1. Wählen Sie Neues VPC-Netzwerk erstellen aus.

      2. Geben Sie im Feld Network name (Netzwerkname) einen Namen für das VPC-Netzwerk ein.

    • So verwenden Sie ein vorhandenes VPC- oder freigegebene VPC-Netzwerk:

      1. Wählen Sie VPC-Netzwerk im aktuellen Projekt verwenden oder Gemeinsam freigegebene VPC-Netzwerk verwenden, das in einem anderen Projekt gehostet wird aus.

      2. Wählen Sie in der Liste VPC-Netzwerk auswählen oder Gemeinsam genutztes VPC-Netzwerk ein VPC- oder freigegebene VPC-Netzwerk aus, das den erforderlichen Konfigurationen entspricht.

      3. Wählen Sie in der Liste Subnetzwerk auswählen ein vorhandenes Subnetzwerk aus.

  2. Klicken Sie auf Weiter.

Speicherressourcen konfigurieren

Führen Sie im Bereich Speicher die folgenden Schritte aus, um die Speicherressourcen zu konfigurieren, die von Ihrem Cluster verwendet werden:

  1. Optional: Wenn Sie eine Speicherressource bearbeiten möchten, klicken Sie auf  Speicherplatzabo bearbeiten und folgen Sie der Anleitung, um die Konfiguration der Speicherressource zu aktualisieren.

  2. Optional: Wenn Sie Ihrem Cluster Speicherressourcen hinzufügen möchten, klicken Sie auf  Speicherkonfiguration hinzufügen und folgen Sie der Anleitung, um die Konfiguration für die Speicherressourcen anzugeben.

  3. Klicken Sie auf Weiter.

Slurm-Umgebung konfigurieren

Führen Sie die folgenden Schritte aus, um die Slurm-Umgebung in Ihrem Cluster zu konfigurieren:

  1. Optional: Wenn Sie die Anzahl und den Typ der Compute-Instanzen bearbeiten möchten, die der Anmeldeknoten verwendet, maximieren Sie den Bereich Anmeldeknoten und folgen Sie der Anleitung, um die Computeressourcen zu aktualisieren.

  2. Optional: Wenn Sie Partitionen Ihres Clusters bearbeiten möchten, um Ihre Rechenressourcen zu organisieren, maximieren Sie den Abschnitt Partitionen und führen Sie einen der folgenden Schritte aus:

    • Wenn Sie eine Partition hinzufügen möchten, klicken Sie auf Partition hinzufügen und gehen Sie dann so vor:

      1. Geben Sie im Feld Partitionsname einen Namen für die Partition ein.

      2. Klicken Sie auf Nodeset umschalten, um ein Nodeset zu bearbeiten. Klicken Sie andernfalls auf Knotensatz hinzufügen, um einen Knotensatz hinzuzufügen.

      3. Geben Sie im Feld Nodeset name (Nodeset-Name) einen Namen für den Nodeset ein.

      4. Wählen Sie im Feld Ressourcenkonfiguration eine Konfiguration für die Compute-Ressource aus, die Sie in den vorherigen Schritten erstellt haben.

      5. Wählen Sie in der Liste Quell-Image eines der unterstützten Betriebssystem-Images für AI Hypercomputer aus.

      6. Geben Sie im Feld Statische Knotenzahl die Mindestanzahl von Recheninstanzen ein, die immer im Cluster ausgeführt werden müssen.

      7. Geben Sie im Feld Dynamische Knotenzahl die maximale Anzahl von Compute-Instanzen ein, auf die AI Hypercomputer den Cluster bei erhöhtem Traffic vergrößern kann.

      8. Wählen Sie in der Liste Typ des Bootlaufwerks und im Feld Größe des Bootlaufwerks den Typ und die Größe des Bootlaufwerks für die zu verwendenden Compute-Instanzen aus.

      9. Klicken Sie auf Fertig.

    • Wenn Sie eine Partition entfernen möchten, klicken Sie auf  Partition löschen.

  3. Optional: So fügen Sie Ihrer Slurm-Umgebung Prolog- oder Epilog-Scripts hinzu:

    1. Maximieren Sie den Bereich Erweiterte Orchestrierungseinstellungen.

    2. Folgen Sie im Abschnitt Scripts (Skripts) der Anleitung, um Skripts hinzuzufügen.

  4. Klicken Sie auf Erstellen. Die Seite Cluster wird angezeigt. Das Erstellen des Clusters kann einige Zeit dauern. Die Fertigstellungszeit hängt von der Anzahl der Compute-Instanzen ab, die Sie anfordern, und von der Ressourcenverfügbarkeit in der Zone der Compute-Instanzen. Sind die angeforderten Ressourcen nicht verfügbar, behält AI Hypercomputer die Erstellungsanfrage bei, bis die Ressourcen verfügbar werden. Wenn Sie den Status des Clustererstellungsvorgangs aufrufen möchten, sehen Sie sich die Details Ihres Clusters an.

Verbindung zum Slurm-Cluster herstellen

Wenn AI Hypercomputer den Anmeldeknoten erstellt, ändert sich der Clusterstatus in Bereit. Sie können dann eine Verbindung zu Ihrem Cluster herstellen. Arbeitslasten können Sie jedoch erst ausführen, wenn AI Hypercomputer die Rechenknoten im Cluster erstellt hat.

So stellen Sie über dieGoogle Cloud -Konsole eine SSH-Verbindung zum Anmeldeknoten eines Clusters her:

  1. Rufen Sie in der Google Cloud Console die Seite Cluster auf.

    Zu den Clustern

  2. Klicken Sie in der Tabelle Cluster in der Spalte Name auf den Namen des Clusters, den Sie im vorherigen Abschnitt erstellt haben. Eine Seite mit den Details des Clusters wird angezeigt, wobei der Tab Details ausgewählt ist.

  3. Klicken Sie auf den Tab Knoten.

  4. Suchen Sie im Abschnitt Anmeldenknoten in der Spalte Verbinden nach dem Anmeldenknoten des Clusters, dessen Name CLUSTER_NAME-login-001 ist.

  5. Klicken Sie in der Spalte Verbinden des Knotens des Logins auf den Button SSH. Das Fenster SSH im Browser wird geöffnet.

  6. Wenn Sie dazu aufgefordert werden, klicken Sie auf Autorisieren. Das Herstellen der Verbindung zu Ihrem Knoten kann bis zu einer Minute dauern.

Slurm-Clusterstatus prüfen

Bevor Sie einen Job auf einem Rechenknoten ausführen, führt Slurm automatisch eine schnelle GPU-Integritätsprüfung auf dem Knoten aus. Wenn der Knoten die Prüfung nicht besteht, leert Slurm den Knoten und verhindert, dass neue Jobs darauf geplant werden.

Um den GPU-Zustand und die Netzwerkbandbreite auf den Rechenknoten in einer Clusterpartition gründlicher zu testen, können Sie NCCL-Tests (NVIDIA Collective Communications Library) manuell ausführen. Wenn bei einem NCCL-Test fehlerhafte Knoten erkannt werden, können Sie die Knoten reparieren oder Ihren Cluster ändern. Mit NCCL-Tests können Sie den Zustand eines Clusters überprüfen, bevor Sie kritische Arbeitslasten ausführen. Weitere Informationen finden Sie unter Clusterstatus prüfen.

Slurm-Cluster löschen

Wählen Sie eine der folgenden Optionen aus, um einen Slurm-Cluster in Ihrem Projekt zu löschen:

  1. Rufen Sie in der Google Cloud Console die Seite Cluster auf.

    Zu den Clustern

  2. Klicken Sie in der Tabelle Cluster in der Spalte Name auf den Namen des Clusters, den Sie löschen möchten. Eine Seite mit den Details des Clusters wird angezeigt, wobei der Tab Details ausgewählt ist.

  3. Klicken Sie auf  Löschen.

  4. Geben Sie im angezeigten Dialogfeld den Namen des Clusters ein und klicken Sie zur Bestätigung auf Löschen. Die Seite Cluster wird angezeigt. Das Löschen des Clusters kann einige Zeit dauern.

Nächste Schritte