In diesem Dokument wird zusammengefasst, wie Sie einen Cluster für Ihre KI-Arbeitslasten in AI Hypercomputer erstellen. In diesem Dokument wird beschrieben, wie Sie einen Cluster starten und welche Entscheidungen Sie dabei treffen müssen.
Hinweis
Sie müssen eine vorhandene Arbeitslast haben, die Sie unterstützen möchten.
Sie müssen mit der gängigen Terminologie für KI- und ML-Arbeitslasten wie Modelltraining und ‑inferenz vertraut sein.
Cluster starten
Das Starten eines Clusters umfasst die folgenden Schritte:
- Arbeitslast ermitteln und Maschinentyp auswählen
- Nutzungsoption auswählen und Kapazität erhalten
- Bereitstellungsoption auswählen
- Orchestrator auswählen
- Betriebssystem und Cluster-Image auswählen
- Cluster erstellen
- Speicher für Ihre Arbeitslast bereitstellen
Arbeitslast ermitteln und Maschinentyp auswählen
Wählen Sie einen Maschinentyp für Ihre KI-Arbeitslast aus. AI Hypercomputer unterstützt die Clustererstellung mit den Maschinenserien A4X Max, A4X, A4 und A3. Beachten Sie die folgenden Empfehlungen zur Maschinennutzung:
Für Foundation Model-Training und ‑Inferenz: A4X Max oder A4X
Für Training, Feinabstimmung und Inferenz großer Modelle: A4 oder A3 Ultra
Für die Inferenz und Feinabstimmung von Mainstream-Modellen: A3 Mega oder A3 High (8 GPUs)
Für die Bereitstellung von Inferenz: A3 Edge
Ausführliche Informationen zu den einzelnen Maschinenreihen finden Sie unter GPU-Maschinentypen. Ausführliche Informationen zu Arbeitslastempfehlungen für die einzelnen Maschinen finden Sie unter Empfohlene Konfigurationen.
Nutzungsoption auswählen und Kapazität erhalten
Wählen Sie eine Nutzungsoption für Ihre GPU-Ressourcen basierend auf der Verfügbarkeit Ihrer Arbeitslast und dem gewählten Maschinentyp aus. Wenn Sie beispielsweise die Maschinentypen A4X Max oder A4X verwenden möchten, müssen Sie Kapazität für einen bestimmten Zeitpunkt mit dem Verbrauchsmodell für zukünftige Reservierungen reservieren. Die folgenden Optionen fassen die Verbrauchsmodelle zusammen:
Zukünftige Reservierungen: Verfügbar für die Maschinentypen A4X Max, A4X, A4 und A3 Ultra mit dichter Ressourcenzuweisung und bis zu 53% Rabatt für vCPUs und GPUs. Vorausschauende Reservierungen sind ideal für Arbeitslasten, die über einen längeren Zeitraum Stabilität erfordern, z. B. das Vortraining von Foundation Models oder die Inferenz von Foundation Models über mehrere Hosts. Wenn Sie diese Nutzungsoption verwenden möchten, müssen Sie Kapazität über Ihr Account-Management-Team für ein zukünftiges Startdatum und eine zukünftige Startzeit anfordern.
Zukünftige Reservierungen im Kalendermodus: Verfügbar für die Maschinentypen A4, A3 Ultra, A3 Mega und A3 High (nur VMs mit 8 GPUs) mit dichter Ressourcenzuweisung und bis zu 53% Rabatt für vCPUs und GPUs. Mit vorausschauenden Reservierungen im Kalendermodus können Sie Ressourcen für Arbeitslasten reservieren, die bis zu 90 Tage lang ausgeführt werden und Stabilität erfordern, z. B. das Vortraining oder die Feinabstimmung von Modellen. Wenn Sie diese Verbrauchsoption verwenden möchten, müssen Sie jedoch eine Reservierungsanfrage erstellen, um Ressourcen für ein zukünftiges Datum und eine zukünftige Uhrzeit zu reservieren. Google Cloud muss Ihre Anfrage genehmigen.
Flex-Start: Für alle GPU-Maschinentypen verfügbar, außer A4X Max und A4X. Mit Flex-Start können Sie kurzlebige, dichte Cluster erstellen, die bis zu sieben Tage lang bestehen und Rabatte von bis zu 53% für vCPUs und GPUs für A2-Maschinentypen und höher bieten. Sie können Flex-Start-Cluster direkt über Compute Engine, Cluster Director, Cluster Toolkit oder GKE erstellen. Cluster sind jedoch nicht sofort verfügbar. Google erstellt sie, sobald Ressourcen verfügbar sind.
Spot: Für alle GPU-Maschinentypen verfügbar, außer A4X Max und A4X. Mit Spot-VMs können Sie sofort Compute-Ressourcen basierend auf der Verfügbarkeit erstellen. Compute Engine kann jedoch Instanzen virtueller Maschinen (VMs) jederzeit vorzeitig beenden. Spot-VMs werden mit dem größtmöglichen Rabatt in Compute Engine angeboten (zwischen 61% und 90%).
Weitere Informationen zu den Verbrauchsoptionen finden Sie unter Vergleich der Verbrauchsoptionen.
Bereitstellungsoption auswählen
Je nachdem, wie viel Kontrolle Sie über die Clusterbereitstellung benötigen, können Sie zwischen einer stark verwalteten oder einer weniger verwalteten Bereitstellung wählen, die Ihnen mehr Kontrolle über Ihre Infrastruktur gibt.
Stark verwaltet
Wenn Google Ihre Infrastruktur bereitstellen und einrichten soll, verwenden Sie Cluster Director, Cluster Toolkit oder GKE.
Cluster Director: einGoogle Cloud -Produkt, das die komplexe Einrichtung und Konfiguration von Clustern automatisiert. So können Sie Rechen-, Netzwerk- und Speicherressourcen für Ihre Cluster konfigurieren, um die Leistung zu maximieren und Ausfallzeiten zu minimieren. Cluster Director wurde für IT-Administratoren und KI-Forscher entwickelt, die den Aufwand für die Verwaltung eines Clusters vermeiden und sich stattdessen auf die Ausführung ihrer Arbeitslasten konzentrieren möchten.
Cluster Toolkit: Ein Open-Source-Tool von Google, das die Clusterkonfiguration und -bereitstellung für GKE oder Compute Engine vereinfacht. Sie verwenden vordefinierte Blueprints, um gängige Konfigurationen wie A4-Maschinentypen mit Slurm bereitzustellen. Sie können Blueprints ändern, um Bereitstellungen und Ihren Software-Stack anzupassen.
GKE: Ein verwalteter Kubernetes-Dienst und eine Open-Source-Plattform zur Orchestrierung von Containern. GKE bietet Funktionen wie Autoscaling und hohe Verfügbarkeit. Außerdem kann es containerisierte Anwendungen orchestrieren, spezielle Hardware unterstützen und ist mit dem Google Cloud-Ökosystem kompatibel. Damit eignet es sich gut für die Bereitstellung und Verwaltung von KI- oder ML-Arbeitslasten. Sie können GKE-Cluster direkt mit GKE oder mit dem Cluster-Toolkit bereitstellen. Sie können zwischen dem GKE Standard- und dem Autopilot-Modus wählen.
Weniger verwaltet, mehr Kontrolle
Wenn Sie Ihre Cluster und die darauf installierte Software genauer steuern möchten, erstellen Sie einen Compute Engine-Cluster mit verwalteten Compute Engine-Instanzgruppen (MIGs) oder durch das Erstellen von Instanzen im Bulk. Installieren Sie dann alle wichtigen Softwarekomponenten, die Sie benötigen, manuell auf den Instanzen.
Orchestrator auswählen
Ein Orchestrator automatisiert die Verwaltung Ihrer Cluster. Mit einem Orchestrator müssen Sie nicht jede Compute-Instanz im Cluster verwalten. Ein Orchestrator wie Slurm oder GKE übernimmt Aufgaben wie das Einreihen von Jobs in die Warteschlange, die Ressourcenzuweisung, das Autoscaling (bei GKE) und andere alltägliche Clusterverwaltungsaufgaben.
Slurm: Slurm ist ein Open-Source-Orchestrator, der häufig für HPC-, KI- oder ML-Arbeitslasten verwendet wird. Wenn Sie Slurm verwenden möchten, können Sie das Cluster Toolkit verwenden, das Cluster-Blueprints bietet, mit denen Slurm automatisch auf Ihren Clustern installiert wird. Alternativ können Sie Slurm manuell auf einem Compute Engine-Cluster installieren.
GKE: GKE ist ein verwalteter Dienst, der auf Kubernetes basiert, einer Open-Source-Plattform zur Containerorchestrierung. GKE ist ideal für die Bereitstellung und Verwaltung von KI- oder ML-Arbeitslasten, da containerisierte Anwendungen orchestriert werden können, spezielle Hardware unterstützt wird und GKE Teil des Google Cloud-Ökosystems ist. Sie können GKE-Cluster direkt oder mit dem Cluster Toolkit bereitstellen.
Eigenen Orchestrator verwenden: Wenn Sie andere Orchestratoren verwenden möchten, müssen Sie sie in Ihren Compute Engine-Clustern verwenden. Das Erstellen eines Compute Engine-Clusters ist jedoch die am wenigsten verwaltete Option, die aufGoogle Cloudangeboten wird. Wenn Sie sich für diese Option entscheiden, sind Sie für die Einrichtung, Wartung und Aktualisierung Ihrer Instanzen verantwortlich.
Systemimage auswählen
Je nachdem, ob Sie GKE oder Compute Engine verwenden, wählen Sie ein Image aus, das das ausgewählte Betriebssystem enthält, z. B. Container-Optimized OS für GKE-Cluster oder ein Accelerator-Betriebssystem-Image für Compute Engine-Cluster. Außerdem können Sie auch ein DSLS-Image (Deep Learning Software Layer) für Ihre Container auswählen.
Ausführliche Informationen finden Sie unter AI Hypercomputer-Bilder.
Images für GKE-Cluster
Wir empfehlen, zum Erstellen von GKE-Clustern die Standard-Container-Betriebssystem-Images für die Modi „Standard“ und „Autopilot“ zu verwenden. Im Standardmodus können Sie jedoch auch andere verfügbare Images wie Ubuntu verwenden.
Wenn Sie Cluster Toolkit zum Bereitstellen Ihres Clusters verwenden, können Sie nur Container-Betriebssystem-Images verwenden, da diese in die Cluster-Blueprints integriert sind. Weitere Informationen zu den einzelnen Knoten-Images finden Sie in der GKE-Dokumentation unter Knoten-Images.
GKE bietet auch DLSL-Container-Images (Deep Learning Software Layer), mit denen Pakete wie NVIDIA CUDA und NCCL sowie ML-Frameworks wie PyTorch installiert werden. So wird eine sofort einsatzbereite Umgebung für Deep-Learning-Arbeitslasten bereitgestellt. Diese vorgefertigten DLSL-Container-Images wurden getestet und verifiziert, um nahtlos in GKE-Clustern zu funktionieren.
Betriebssystem-Images für Compute Engine-Cluster
AI Hypercomputer bietet Images, die für die Ausführung von KI- und ML-Arbeitslasten mit Compute Engine optimiert sind. Wählen Sie das Betriebssystem aus, mit dem Sie sich am besten auskennen:
- Rocky Linux 9-Beschleuniger
- Rocky Linux 8-Beschleuniger
- Ubuntu 24.04 LTS-Beschleuniger
- Ubuntu 22.04 LTS-Beschleuniger
Wenn Sie Cluster Toolkit verwenden, sind diese Beschleuniger-Images bereits in Cluster Toolkit-Blaupausen enthalten, da Cluster Toolkit benutzerdefinierte Images erstellt, die die Ubuntu LTS-Beschleuniger-Betriebssystem-Images erweitern.
Weitere Informationen zu den einzelnen Betriebssystem-Images finden Sie in der Compute Engine-Dokumentation unter Details zu Betriebssystemen.
Cluster erstellen
Nachdem Sie den Clustererstellungsprozess überprüft und vorläufige Entscheidungen für Ihre Arbeitslast getroffen haben, erstellen Sie den Cluster mit einer der folgenden Optionen:
- GKE-Cluster erstellen:
- Slurm-Cluster erstellen:
- So erstellen Sie einen Cluster mit Compute Engine:
Speicher für Ihre Arbeitslast bereitstellen
Wählen Sie einen Speicherdienst aus, der bereitgestellt werden soll. Die Auswahl richtet sich nach den Anforderungen an Leistung, Kosten und Speicherarchitektur.