In diesem Dokument wird zusammengefasst, wie Sie einen Cluster für Ihre KI-Arbeitslasten auf AI Hypercomputer erstellen. In diesem Dokument wird beschrieben, wie Sie einen Cluster starten und welche Entscheidungen Sie dabei treffen müssen.
Hinweise
Sie müssen eine vorhandene Arbeitslast haben, die Sie unterstützen möchten.
Sie müssen mit der gängigen Terminologie für KI- und ML-Arbeitslasten wie Modelltraining und ‑inferenz vertraut sein.
Cluster starten
Das Starten eines Clusters umfasst die folgenden Schritte:
- Arbeitslast ermitteln und Maschinentyp auswählen
- Nutzungsoption auswählen und Kapazität erhalten
- Bereitstellungsoption auswählen
- Orchestrator auswählen
- Betriebssystem und Cluster-Image auswählen
- Cluster erstellen
Arbeitslast ermitteln und Maschinentyp auswählen
Wählen Sie einen Maschinentyp für Ihre KI-Arbeitslast aus. AI Hypercomputer unterstützt die Clustererstellung mit den Maschinenserien A4X Max, A4X, A4 und A3. Beachten Sie die folgenden Empfehlungen zur Maschinennutzung:
Für das Training und die Inferenz von Foundation Models: A4X Max oder A4X
Für das Training, die Feinabstimmung und die Inferenz großer Modelle: A4 oder A3 Ultra
Für die Inferenz und Feinabstimmung von Mainstream-Modellen: A3 Mega oder A3 High (8 GPUs)
Für die Bereitstellung von Inferenz: A3 Edge
Ausführliche Informationen zu den einzelnen Maschinenserien finden Sie unter GPU-Maschinentypen. Ausführliche Informationen zu Arbeitslastempfehlungen für die einzelnen Maschinen finden Sie unter Empfohlene Konfigurationen.
Nutzungsoption auswählen und Kapazität erhalten
Wählen Sie eine Verbrauchsoption für Ihre GPU-Ressourcen basierend auf der Verfügbarkeit Ihrer Arbeitslast und dem ausgewählten Maschinentyp aus. Wenn Sie beispielsweise die Maschinentypen A4X Max oder A4X verwenden möchten, müssen Sie Kapazität für ein bestimmtes Datum und eine bestimmte Uhrzeit mit dem Verbrauchsmodell für vorausschauende Reservierungen reservieren. Die folgenden Optionen fassen die Verbrauchsmodelle zusammen:
Zukünftige Reservierungen: Verfügbar für die Maschinentypen A4X Max, A4X, A4 und A3 Ultra mit dichter Ressourcenzuweisung und bis zu 53% Rabatt für vCPUs und GPUs. Vorausschauende Reservierungen sind ideal für Arbeitslasten, die über einen längeren Zeitraum Stabilität erfordern, z. B. für das Vortraining von Foundation Models oder für Foundation Model-Inferenz über mehrere Hosts. Wenn Sie diese Nutzungsoption verwenden möchten, müssen Sie Kapazität über Ihr Account-Management-Team für ein zukünftiges Startdatum und eine zukünftige Startzeit anfordern.
Zukünftige Reservierungen im Kalendermodus: Verfügbar für die Maschinentypen A4, A3 Ultra, A3 Mega und A3 High (nur VMs mit 8 GPUs) mit dichter Ressourcenzuweisung und bis zu 53% Rabatt für vCPUs und GPUs. Mit vorausschauenden Reservierungen im Kalendermodus können Sie Ressourcen für Arbeitslasten reservieren, die bis zu 90 Tage lang ausgeführt werden und Stabilität erfordern, z. B. für das Vortraining oder die Feinabstimmung von Modellen. Wenn Sie diese Verbrauchsoption verwenden möchten, müssen Sie eine Reservierungsanfrage erstellen, um Ressourcen für ein zukünftiges Datum und eine zukünftige Uhrzeit zu reservieren. Google Cloud muss Ihre Anfrage genehmigen.
Flex-Start: Für alle GPU-Maschinentypen verfügbar, außer A4X Max und A4X. Mit Flex-Start können Sie kurzlebige, dichte Cluster erstellen, die bis zu sieben Tage lang aktiv sind und Rabatte von bis zu 53% für vCPUs und GPUs für A2-Maschinentypen und höher bieten. Sie können Flex-Start-Cluster direkt über Compute Engine, Cluster Director, Cluster Toolkit oder GKE erstellen. Cluster sind jedoch nicht sofort verfügbar. Google erstellt sie, sobald Ressourcen verfügbar sind.
Spot: Für alle GPU-Maschinentypen verfügbar, außer A4X Max und A4X. Mit Spot-VMs können Sie sofort Rechenressourcen basierend auf der Verfügbarkeit erstellen. Compute Engine kann jedoch VM-Instanzen jederzeit vorzeitig beenden. Spot-VMs werden mit dem höchstmöglichen Rabatt für Compute Engine (zwischen 61% und 90%) berechnet.
Weitere Informationen zu den Verbrauchsoptionen finden Sie unter Vergleich der Verbrauchsoptionen.
Bereitstellungsoption auswählen
Je nachdem, wie viel Kontrolle Sie über die Clusterbereitstellung benötigen, können Sie zwischen einer stark verwalteten oder einer weniger verwalteten Bereitstellung wählen, die Ihnen mehr Kontrolle über Ihre Infrastruktur gibt.
Stark verwaltet
Wenn Google Ihre Infrastruktur bereitstellen und einrichten soll, verwenden Sie Cluster Director, Cluster Toolkit oder GKE.
Cluster Director: EinGoogle Cloud -Produkt, das die komplexe Einrichtung und Konfiguration von Clustern automatisiert. So können Sie Rechen-, Netzwerk- und Speicherressourcen für Ihre Cluster konfigurieren, um die Leistung zu maximieren und Ausfallzeiten zu minimieren. Cluster Director wurde für IT-Administratoren und KI-Forscher entwickelt, die den Aufwand für die Verwaltung eines Clusters vermeiden und sich stattdessen auf die Ausführung ihrer Arbeitslasten konzentrieren möchten.
Cluster Toolkit: Ein Open-Source-Tool von Google, das die Clusterkonfiguration und -bereitstellung für GKE oder Compute Engine vereinfacht. Sie verwenden vordefinierte Blueprints, um gängige Konfigurationen wie A4-Maschinentypen mit Slurm bereitzustellen. Sie können Blueprints ändern, um Bereitstellungen und Ihren Software-Stack anzupassen.
GKE: Ein verwalteter Kubernetes-Dienst und eine Open-Source-Plattform zur Containerorchestrierung. GKE bietet Funktionen wie Autoscaling und Hochverfügbarkeit. Außerdem kann es containerisierte Anwendungen orchestrieren, spezielle Hardware unterstützen und ist mit dem Google Cloud-Ökosystem kompatibel. Daher eignet es sich gut für die Bereitstellung und Verwaltung von KI- oder ML-Arbeitslasten. Sie können GKE-Cluster direkt mit GKE oder mit dem Cluster Toolkit bereitstellen. Sie können zwischen GKE Standard- und Autopilot-Modus wählen.
Weniger verwaltet, mehr Kontrolle
Wenn Sie Ihre Cluster und die darauf installierte Software genauer steuern möchten, erstellen Sie einen Compute Engine-Cluster mit verwalteten Compute Engine-Instanzgruppen (MIGs) oder durch das Erstellen von Instanzen im Bulk. Installieren Sie dann alle wichtigen Softwarekomponenten, die Sie benötigen, manuell auf den Instanzen.
Orchestrator auswählen
Ein Orchestrator automatisiert die Verwaltung Ihrer Cluster. Mit einem Orchestrator müssen Sie nicht jede Compute-Instanz im Cluster verwalten. Ein Orchestrator wie Slurm oder GKE übernimmt Aufgaben wie das Einreihen von Jobs in die Warteschlange, die Ressourcenzuweisung, das automatische Skalieren (bei GKE) und andere alltägliche Clusterverwaltungsaufgaben.
Slurm: Slurm ist ein Open-Source-Orchestrator, der häufig für HPC-, KI- oder ML-Arbeitslasten verwendet wird. Wenn Sie Slurm verwenden möchten, können Sie das Cluster Toolkit verwenden, das Cluster-Blueprints bietet, mit denen Slurm automatisch auf Ihren Clustern installiert wird. Alternativ können Sie Slurm manuell auf einem Compute Engine-Cluster installieren.
GKE: GKE ist ein verwalteter Dienst, der auf Kubernetes basiert, einer Open-Source-Plattform zur Containerorchestrierung. GKE ist ideal für die Bereitstellung und Verwaltung von KI- oder ML-Arbeitslasten, da es containerisierte Anwendungen orchestrieren kann, spezielle Hardware unterstützt und Teil des Google CloudÖkosystems ist. Sie können GKE-Cluster direkt oder mit dem Cluster Toolkit bereitstellen.
Eigenen Orchestrator verwenden: Wenn Sie andere Orchestratoren verwenden möchten, müssen Sie sie in Ihren Compute Engine-Clustern verwenden. Das Erstellen eines Compute Engine-Clusters ist jedoch die am wenigsten verwaltete Option, die aufGoogle Cloudangeboten wird. Wenn Sie sich für diese Option entscheiden, sind Sie für die Einrichtung, Wartung und Aktualisierung Ihrer Instanzen verantwortlich.
Betriebssystem-Image auswählen
Je nachdem, ob Sie GKE oder Compute Engine verwenden, wählen Sie ein Image aus, das das ausgewählte Betriebssystem enthält, z. B. Container-Optimized OS für GKE-Cluster oder ein Accelerator-Betriebssystem-Image für Compute Engine-Cluster. Außerdem können Sie auch ein DSLS-Image (Deep Learning Software Layer) für Ihre Container auswählen.
Ausführliche Informationen finden Sie unter AI Hypercomputer-Bilder.
Images für GKE-Cluster
Zum Erstellen von GKE-Clustern empfehlen wir, die Standard-Container-Betriebssystem-Images sowohl für den Standard- als auch für den Autopilot-Modus zu verwenden. Im Standardmodus können Sie jedoch auch andere verfügbare Images wie Ubuntu verwenden.
Wenn Sie Cluster Toolkit zum Bereitstellen Ihres Clusters verwenden, können Sie nur Container-Betriebssystem-Images verwenden, da diese in die Cluster-Blueprints integriert sind. Weitere Informationen zu den einzelnen Knoten-Images finden Sie in der GKE-Dokumentation unter Knoten-Images.
GKE bietet auch DLSL-Container-Images (Deep Learning Software Layer), mit denen Pakete wie NVIDIA CUDA und NCCL sowie ML-Frameworks wie PyTorch installiert werden. So wird eine sofort einsatzbereite Umgebung für Deep-Learning-Arbeitslasten bereitgestellt. Diese vorgefertigten DLSL-Container-Images wurden getestet und funktionieren nahtlos in GKE-Clustern.
Betriebssystem-Images für Compute Engine-Cluster
AI Hypercomputer bietet Images, die für die Ausführung von KI- und ML-Arbeitslasten mit Compute Engine optimiert sind. Wählen Sie das Betriebssystem aus, mit dem Sie am besten vertraut sind:
- Rocky Linux 9-Beschleuniger
- Rocky Linux 8-Beschleuniger
- Ubuntu 24.04 LTS-Beschleuniger
- Ubuntu 22.04 LTS-Beschleuniger
Wenn Sie das Cluster Toolkit verwenden, sind diese Beschleuniger-Images bereits in Cluster Toolkit-Blaupausen enthalten, da mit dem Cluster Toolkit benutzerdefinierte Images erstellt werden, die die Ubuntu LTS-Beschleuniger-Betriebssystem-Images erweitern.
Weitere Informationen zu den einzelnen Betriebssystem-Images finden Sie in der Compute Engine-Dokumentation unter Details zu Betriebssystemen.
Cluster erstellen
Nachdem Sie den Clustererstellungsprozess durchlaufen und vorläufige Entscheidungen für Ihre Arbeitslast getroffen haben, können Sie den Cluster mit einer der folgenden Optionen erstellen:
- GKE-Cluster erstellen:
- Slurm-Cluster mit dem Cluster Toolkit erstellen
- So erstellen Sie einen Cluster mit Compute Engine: