In diesem Dokument wird beschrieben, wie Sie einen vollständig verwalteten Slurm-Cluster konfigurieren und bereitstellen, der die Maschinentypen A4X, A4, A3 Ultra, A3 Mega oder A3 High verwendet. Weitere Informationen zu diesen beschleunigungsoptimierten Maschinentypen finden Sie unter GPU-Maschinentypen.
In diesem Dokument wird beschrieben, wie Sie einen Slurm-Cluster mit Cluster Director erstellen. Cluster Director ist ein Google CloudProdukt, mit dem die Einrichtung und Konfiguration von Slurm-Clustern automatisiert wird. Sie wurde für IT-Administratoren und KI-Forscher entwickelt, die den Aufwand für die Verwaltung eines Clusters vermeiden und sich auf die Ausführung ihrer Arbeitslasten konzentrieren möchten. Wenn Sie mehr Kontrolle über die Bereitstellung und Verwaltung Ihres Clusters haben möchten, erstellen Sie Ihren Cluster mit dem Cluster Toolkit.
Beschränkungen
Je nach Maschinentyp, der von den Compute Engine-Instanzen in Ihrem Cluster verwendet wird, gelten die folgenden Einschränkungen:
A4X
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die diesen Maschinentyp verwenden.
- Sie können Instanzen nur in bestimmten Regionen und Zonen erstellen.
- Sie können keinen nichtflüchtigen Speicher (regional oder zonenbasiert) verwenden. Sie können nur Google Cloud Hyperdisk verwenden.
- Dieser Maschinentyp ist nur auf der NVIDIA Grace-Plattform verfügbar.
- Änderungen des Maschinentyps werden für A4X nicht unterstützt. Wenn Sie zu diesem Maschinentyp wechseln oder ihn verlassen möchten, müssen Sie eine neue Instanz erstellen.
- Sie können Windows-Betriebssysteme nicht auf diesem Maschinentyp ausführen. Eine Liste der unterstützten Linux-Betriebssysteme finden Sie unter Unterstützte Betriebssysteme für GPU-Instanzen.
- Bei A4X-Instanzen werden die Zähler für physische Ports, die mit
_phyenden, nicht aktualisiert, wenn Sieethtool -Sverwenden, um das GPU-Netzwerk zu überwachen. Das ist das erwartete Verhalten für Instanzen, die die MRDMA-Architektur für virtuelle Funktionen (VF) verwenden. Weitere Informationen finden Sie unter MRDMA-Funktionen und Tools zur Netzwerküberwachung. - A4X-Instanzen unterstützen Folgendes nicht:
- Sie können Hyperdisk ML-Laufwerke, die vor dem 4. Februar 2026 erstellt wurden, nicht an A4X-Maschinentypen anhängen.
A4
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A4-Maschinentyp verwenden.
- Sie können einen A4-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
- Sie können keinen nichtflüchtigen Speicher (regional oder zonenbasiert) verwenden. Sie können nur Google Cloud Hyperdisk verwenden.
- Der A4-Maschinentyp ist nur auf der Emerald Rapids-CPU-Plattform verfügbar.
- Sie können den Maschinentyp einer Instanz nicht in einen A4-Maschinentyp ändern oder umgekehrt. Sie müssen eine neue Instanz mit diesem Maschinentyp erstellen.
- A4-Maschinentypen unterstützen keine einzelnen Mandanten.
- Sie können Windows-Betriebssysteme nicht auf einem A4-Maschinentyp ausführen.
- Bei A4-Instanzen werden die Zähler für physische Ports, die mit
_phyenden, nicht aktualisiert, wenn Sieethtool -Sverwenden, um das GPU-Netzwerk zu überwachen. Dies ist das erwartete Verhalten für Instanzen, die die MRDMA-Architektur für virtuelle Funktionen (VF) verwenden. Weitere Informationen finden Sie unter MRDMA-Funktionen und Tools zur Netzwerküberwachung. - Sie können Hyperdisk ML-Laufwerke, die vor dem 4. Februar 2026 erstellt wurden, nicht an A4-Maschinentypen anhängen.
A3 Ultra
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A3-Ultra-Maschinentyp verwenden.
- Sie können einen A3-Ultra-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
- Sie können keinen nichtflüchtigen Speicher (regional oder zonenbasiert) verwenden. Sie können nur Google Cloud Hyperdisk verwenden.
- Der A3-Ultra-Maschinentyp ist nur auf der Emerald Rapids-CPU-Plattform verfügbar.
- Änderungen des Maschinentyps werden für den A3-Ultra-Maschinentyp nicht unterstützt. Wenn Sie zu diesem Maschinentyp wechseln oder ihn verlassen möchten, müssen Sie eine neue Instanz erstellen.
- Sie können Windows-Betriebssysteme nicht auf einem A3-Ultra-Maschinentyp ausführen.
- A3-Ultra-Maschinentypen unterstützen keine einzelnen Mandanten.
- Wenn Sie bei A3 Ultra-Instanzen
ethtool -Sverwenden, um das GPU-Netzwerk zu überwachen, werden die Zähler für physische Ports, die mit_phyenden, nicht aktualisiert. Das ist das erwartete Verhalten für Instanzen, die die MRDMA-Architektur für virtuelle Funktionen (VF) verwenden. Weitere Informationen finden Sie unter MRDMA-Funktionen und Tools zur Netzwerküberwachung.
A3 Mega
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A3-Mega-Maschinentyp verwenden.
- Sie können einen A3-Mega-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
- Sie können keinen regionalen nichtflüchtigen Speicher auf einer Instanz verwenden, die einen A3-Mega-Maschinentyp verwendet.
- Der Maschinentyp „A3 Mega“ ist nur auf der Sapphire Rapids-CPU-Plattform verfügbar.
- Änderungen des Maschinentyps werden für den A3 Mega-Maschinentyp nicht unterstützt. Wenn Sie zu diesem Maschinentyp wechseln oder ihn verlassen möchten, müssen Sie eine neue Instanz erstellen.
- Sie können Windows-Betriebssysteme nicht auf einem A3 Mega-Maschinentyp ausführen.
A3 High
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A3-High-Maschinentyp verwenden.
- Sie können einen A3-High-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
- Sie können keinen regionalen nichtflüchtigen Speicher auf einer Instanz verwenden, die einen A3-High-Maschinentyp verwendet.
- Der Maschinentyp „A3 High“ ist nur auf der Sapphire Rapids-CPU-Plattform verfügbar.
- Änderungen des Maschinentyps werden für den A3-High-Maschinentyp nicht unterstützt. Wenn Sie zu diesem Maschinentyp wechseln oder ihn verlassen möchten, müssen Sie eine neue Instanz erstellen.
- Sie können Windows-Betriebssysteme nicht auf einem A3-High-Maschinentyp ausführen.
- Sie können nur
a3-highgpu-8gverwenden. A3 High-Maschinentypen mit weniger als 8 GPUs werden nicht unterstützt.
Hinweis
Führen Sie vor dem Erstellen eines Slurm-Clusters die folgenden Schritte aus, falls Sie dies noch nicht getan haben:
- Nutzungsoption auswählen: Die von Ihnen gewählte Nutzungsoption bestimmt, wie Sie GPU-Ressourcen beziehen und nutzen. Weitere Informationen finden Sie unter Nutzungsoption auswählen.
- Kapazität abrufen: Der Prozess zum Abrufen von Kapazität unterscheidet sich für jede Verbrauchsoption. Informationen zum Erhalten von Kapazität für die von Ihnen gewählte Verbrauchsoption finden Sie unter Kapazitätsübersicht.
- Prüfen Sie, ob Sie genügend Filestore-Kapazitätskontingent haben: Sie benötigen genügend Filestore-Kontingent in Ihrer Zielregion, bevor Sie die Bereitstellung vornehmen. Die erforderliche Mindestkapazität hängt von den Maschinentypen in Ihrem Cluster ab:
- A4X Max, A4X, A4, A3 Ultra und A3 Mega: Erfordert mindestens 10 TiB (10.240 GiB) an HIGH_SCALE_SSD-Kapazität (zonal).
- A3 High: Erfordert mindestens 2,5 TiB (2.560 GiB) an BASIC_SSD-Kapazität (Standard).
So prüfen Sie das Kontingent oder fordern eine Kontingenterhöhung an:
- Informationen zum Prüfen des Kontingents in Ihrem Projekt finden Sie unter API-spezifische Kontingente aufrufen.
- Wenn Sie nicht genügend Kontingent haben, fordern Sie eine Kontingenterhöhung an.
- Trusted Image-Richtlinie prüfen: Wenn die Organisation, in der sich Ihr Projekt befindet, eine Trusted Image-Richtlinie (
constraints/compute.trustedImageProjects) hat, prüfen Sie, ob das Projektclusterdirector-public-imagesin der Liste der zulässigen Projekte enthalten ist. Weitere Informationen finden Sie unter Trusted Image-Richtlinien einrichten.
Erforderliche Rollen
Zum Erstellen eines Slurm-Clusters benötigen Sie die folgenden IAM-Rollen und -Berechtigungen:
-
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für Ihr Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Ausführen der Kurzanleitung benötigen:
-
So erstellen und verwalten Sie einen Cluster:
Cluster Director Editor (
roles/hypercomputecluster.editor) -
So erstellen und verwalten Sie VMs in einem Cluster:
Compute Instance Admin (v1) (
roles/compute.instanceAdmin.v1) -
So stellen Sie eine Verbindung zum Anmeldeknoten in einem Cluster her:
-
Compute OS Login (
roles/compute.osLogin) -
Nutzer IAP-gesicherter Tunnel (
roles/iap.tunnelResourceAccessor)
-
Compute OS Login (
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
-
So erstellen und verwalten Sie einen Cluster:
Cluster Director Editor (
-
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Compute Engine-Standarddienstkonto zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Ausführen dieser Kurzanleitung benötigen:
-
So erstellen Sie einen Cluster:
Dienstkontonutzer (
roles/iam.serviceAccountUser) -
So verwalten Sie Ressourcen in einem Cluster:
-
Log-Autor (
roles/logging.logWriter) -
Monitoring-Messwert-Autor (
roles/monitoring.metricWriter) -
Storage-Objekt-Betrachter (
roles/storage.objectViewer)
-
Log-Autor (
-
So erstellen Sie einen Cluster:
Dienstkontonutzer (
Slurm-Cluster erstellen
Führen Sie die folgenden Schritte aus, um einen KI-optimierten Cluster mit Cluster Director zu erstellen:
Konfigurationen für Rechenressourcen konfigurieren
Führen Sie die folgenden Schritte aus, um Compute-Ressourcenkonfigurationen beim Erstellen eines Clusters zu konfigurieren:
Rufen Sie in der Google Cloud Console die Seite Cluster Director auf.
Klicken Sie auf Cluster erstellen.
Klicken Sie im angezeigten Dialogfeld auf Referenzarchitektur. Die Seite Cluster erstellen wird geöffnet.
Klicken Sie auf eine der verfügbaren Vorlagen. Sie können die Vorlage optional bearbeiten, um sie an die Anforderungen Ihrer Arbeitslast anzupassen.
Klicken Sie auf Anpassen.
Geben Sie im Bereich Compute im Feld Clustername einen Namen für den Cluster ein. Der Name darf maximal 10 Zeichen lang sein und darf nur Zahlen oder Kleinbuchstaben (
a–z) enthalten.So fügen Sie der vorkonfigurierten Konfiguration von Rechenressourcen Informationen hinzu oder bearbeiten die Anzahl und den Typ der Recheninstanzen, die in der Konfiguration angegeben sind:
Klicken Sie im Bereich Compute auf Ressourcenkonfiguration bearbeiten. Der Bereich Ressourcenkonfiguration hinzufügen wird angezeigt.
Optional: Wenn Sie den Namen der Konfiguration der Rechenressource ändern möchten, geben Sie im Feld Name einen neuen Namen ein.
Optional: Wenn Sie die Anzahl und den Typ der Compute-Instanzen ändern möchten, die von Ihrem Cluster verwendet werden, folgen Sie im Abschnitt Maschinenkonfiguration der Anleitung, um die Compute-Ressourcen zu aktualisieren.
Geben Sie im Abschnitt Nutzungsoptionen die Nutzungsoption an, die Sie zum Abrufen von Ressourcen verwenden möchten:
So erstellen Sie Compute-Instanzen mit einer Reservierung:
Klicken Sie auf den Tab Reservierung verwenden.
Klicken Sie auf Reservierung auswählen. Der Bereich Reservierung auswählen wird angezeigt. Wenn Sie eine Reservierung von A4X-VMs verwenden möchten, können Sie optional den Block oder Unterblock auswählen, um die Platzierung Ihrer VMs zu steuern.
Wählen Sie die Reservierung aus, die Sie verwenden möchten. Klicken Sie dann auf Auswählen. Bei dieser Aktion werden die Region und Zone Ihrer Compute-Ressourcen automatisch festgelegt.
So erstellen Sie Flex-Start-VMs:
Klicken Sie auf den Tab Flexibler Start.
Geben Sie im Abschnitt Zeitlimit für die VM die Ausführungsdauer für die Compute-Instanzen an. Der Wert muss zwischen 10 Minuten und 7 Tagen liegen.
Wählen Sie im Bereich Standort die Region aus, in der Sie Flex-Start-VMs erstellen möchten. In derGoogle Cloud Console werden die verfügbaren Regionen automatisch so gefiltert, dass nur die Regionen angezeigt werden, die Flex-Start-VMs für den ausgewählten Maschinentyp unterstützen.
So erstellen Sie Spot-VMs:
Klicken Sie auf den Tab Spot verwenden.
Wählen Sie in der Liste Bei VM-Beendigung eine der folgenden Optionen aus:
Wenn Spot-VMs bei vorzeitigem Beenden gelöscht werden sollen, wählen Sie Löschen aus.
Wählen Sie Beenden aus, um Spot-VMs bei vorzeitiger Beendigung zu beenden.
Wählen Sie im Bereich Standort die Region und Zone aus, in der Sie Spot-VMs erstellen möchten. In derGoogle Cloud Console werden die verfügbaren Regionen automatisch so gefiltert, dass nur die Regionen angezeigt werden, die Spot-VMs für den ausgewählten Maschinentyp unterstützen.
Klicken Sie auf Fertig.
Optional: Wenn Sie zusätzliche Konfigurationen für Compute-Ressourcen für eine Partition erstellen möchten, klicken Sie auf Ressourcenkonfiguration hinzufügen und folgen Sie der Anleitung, um die Compute-Ressourcen anzugeben.
Klicken Sie auf Weiter.
Netzwerk konfigurieren
Führen Sie die folgenden Schritte aus, um das Netzwerk zu konfigurieren, das Ihr Cluster verwendet:
Führen Sie im Bereich VPC-Netzwerk (Virtual Private Cloud) auswählen einen der folgenden Schritte aus:
Empfohlen: Wenn AI Hypercomputer automatisch ein vorkonfiguriertes VPC-Netzwerk für Ihren Cluster erstellen soll, gehen Sie so vor:
Wählen Sie Neues VPC-Netzwerk erstellen aus.
Geben Sie im Feld Network name (Netzwerkname) einen Namen für das VPC-Netzwerk ein.
So verwenden Sie ein vorhandenes VPC- oder freigegebene VPC-Netzwerk:
Wählen Sie VPC-Netzwerk im aktuellen Projekt verwenden oder Gemeinsam freigegebene VPC-Netzwerk verwenden, das in einem anderen Projekt gehostet wird aus.
Wählen Sie in der Liste VPC-Netzwerk auswählen oder Gemeinsam genutztes VPC-Netzwerk ein VPC- oder freigegebene VPC-Netzwerk aus, das den erforderlichen Konfigurationen entspricht.
Wählen Sie in der Liste Subnetzwerk auswählen ein vorhandenes Subnetzwerk aus.
Klicken Sie auf Weiter.
Speicherressourcen konfigurieren
Führen Sie im Bereich Speicher die folgenden Schritte aus, um die Speicherressourcen zu konfigurieren, die von Ihrem Cluster verwendet werden:
Optional: Wenn Sie eine Speicherressource bearbeiten möchten, klicken Sie auf Speicherplatzabo bearbeiten und folgen Sie der Anleitung, um die Konfiguration der Speicherressource zu aktualisieren.
Optional: Wenn Sie Ihrem Cluster Speicherressourcen hinzufügen möchten, klicken Sie auf Speicherkonfiguration hinzufügen und folgen Sie der Anleitung, um die Konfiguration für die Speicherressourcen anzugeben.
Klicken Sie auf Weiter.
Slurm-Umgebung konfigurieren
Führen Sie die folgenden Schritte aus, um die Slurm-Umgebung in Ihrem Cluster zu konfigurieren:
Optional: Wenn Sie die Anzahl und den Typ der Compute-Instanzen bearbeiten möchten, die der Anmeldeknoten verwendet, maximieren Sie den Bereich Anmeldeknoten und folgen Sie der Anleitung, um die Computeressourcen zu aktualisieren.
Optional: Wenn Sie Partitionen Ihres Clusters bearbeiten möchten, um Ihre Rechenressourcen zu organisieren, maximieren Sie den Abschnitt Partitionen und führen Sie einen der folgenden Schritte aus:
Wenn Sie eine Partition hinzufügen möchten, klicken Sie auf Partition hinzufügen und gehen Sie dann so vor:
Geben Sie im Feld Partitionsname einen Namen für die Partition ein.
Klicken Sie auf Nodeset umschalten, um ein Nodeset zu bearbeiten. Klicken Sie andernfalls auf Knotensatz hinzufügen, um einen Knotensatz hinzuzufügen.
Geben Sie im Feld Nodeset name (Nodeset-Name) einen Namen für den Nodeset ein.
Wählen Sie im Feld Ressourcenkonfiguration eine Konfiguration für die Compute-Ressource aus, die Sie in den vorherigen Schritten erstellt haben.
Wählen Sie in der Liste Quell-Image eines der unterstützten Betriebssystem-Images für AI Hypercomputer aus.
Geben Sie im Feld Statische Knotenzahl die Mindestanzahl von Recheninstanzen ein, die immer im Cluster ausgeführt werden müssen.
Geben Sie im Feld Dynamische Knotenzahl die maximale Anzahl von Compute-Instanzen ein, auf die AI Hypercomputer den Cluster bei erhöhtem Traffic vergrößern kann.
Wählen Sie in der Liste Typ des Bootlaufwerks und im Feld Größe des Bootlaufwerks den Typ und die Größe des Bootlaufwerks für die zu verwendenden Compute-Instanzen aus.
Klicken Sie auf Fertig.
Wenn Sie eine Partition entfernen möchten, klicken Sie auf Partition löschen.
Optional: So fügen Sie Ihrer Slurm-Umgebung Prolog- oder Epilog-Scripts hinzu:
Maximieren Sie den Bereich Erweiterte Orchestrierungseinstellungen.
Folgen Sie im Abschnitt Scripts (Skripts) der Anleitung, um Skripts hinzuzufügen.
Klicken Sie auf Erstellen. Die Seite Cluster wird angezeigt. Das Erstellen des Clusters kann einige Zeit dauern. Die Fertigstellungszeit hängt von der Anzahl der Compute-Instanzen ab, die Sie anfordern, und von der Ressourcenverfügbarkeit in der Zone der Compute-Instanzen. Sind die angeforderten Ressourcen nicht verfügbar, behält AI Hypercomputer die Erstellungsanfrage bei, bis die Ressourcen verfügbar werden. Wenn Sie den Status des Clustererstellungsvorgangs aufrufen möchten, sehen Sie sich die Details Ihres Clusters an.
Verbindung zum Slurm-Cluster herstellen
Wenn AI Hypercomputer den Anmeldeknoten erstellt, ändert sich der Clusterstatus in Bereit. Sie können dann eine Verbindung zu Ihrem Cluster herstellen. Arbeitslasten können Sie jedoch erst ausführen, wenn AI Hypercomputer die Rechenknoten im Cluster erstellt hat.
So stellen Sie über dieGoogle Cloud -Konsole eine SSH-Verbindung zum Anmeldeknoten eines Clusters her:
Rufen Sie in der Google Cloud Console die Seite Cluster auf.
Klicken Sie in der Tabelle Cluster in der Spalte Name auf den Namen des Clusters, den Sie im vorherigen Abschnitt erstellt haben. Eine Seite mit den Details des Clusters wird angezeigt, wobei der Tab Details ausgewählt ist.
Klicken Sie auf den Tab Knoten.
Suchen Sie im Abschnitt Anmeldenknoten in der Spalte Verbinden nach dem Anmeldenknoten des Clusters, dessen Name
CLUSTER_NAME-login-001ist.Klicken Sie in der Spalte Verbinden des Knotens des Logins auf den Button SSH. Das Fenster SSH im Browser wird geöffnet.
Wenn Sie dazu aufgefordert werden, klicken Sie auf Autorisieren. Das Herstellen der Verbindung zu Ihrem Knoten kann bis zu einer Minute dauern.
Slurm-Clusterstatus prüfen
Bevor Sie einen Job auf einem Rechenknoten ausführen, führt Slurm automatisch eine schnelle GPU-Integritätsprüfung auf dem Knoten aus. Wenn der Knoten die Prüfung nicht besteht, leert Slurm den Knoten und verhindert, dass neue Jobs darauf geplant werden.
Um den GPU-Zustand und die Netzwerkbandbreite auf den Rechenknoten in einer Clusterpartition gründlicher zu testen, können Sie NCCL-Tests (NVIDIA Collective Communications Library) manuell ausführen. Wenn bei einem NCCL-Test fehlerhafte Knoten erkannt werden, können Sie die Knoten reparieren oder Ihren Cluster ändern. Mit NCCL-Tests können Sie den Zustand eines Clusters überprüfen, bevor Sie kritische Arbeitslasten ausführen. Weitere Informationen finden Sie unter Clusterstatus prüfen.
Slurm-Cluster löschen
Wählen Sie eine der folgenden Optionen aus, um einen Slurm-Cluster in Ihrem Projekt zu löschen:
Rufen Sie in der Google Cloud Console die Seite Cluster auf.
Klicken Sie in der Tabelle Cluster in der Spalte Name auf den Namen des Clusters, den Sie löschen möchten. Eine Seite mit den Details des Clusters wird angezeigt, wobei der Tab Details ausgewählt ist.
Klicken Sie auf Löschen.
Geben Sie im angezeigten Dialogfeld den Namen des Clusters ein und klicken Sie zur Bestätigung auf Löschen. Die Seite Cluster wird angezeigt. Das Löschen des Clusters kann einige Zeit dauern.