In diesem Dokument wird zusammengefasst, wie Sie einen Cluster für Ihre KI-Arbeitslasten auf AI Hypercomputer erstellen. Außerdem werden Sie durch den Prozess geführt und erhalten Informationen zu den Entscheidungen, die Sie beim Starten eines Clusters treffen müssen.
Hinweis
Sie müssen eine vorhandene Arbeitslast haben, die Sie unterstützen möchten.
Sie müssen mit der gängigen Terminologie für KI- und ML-Arbeitslasten vertraut sein, z. B. Modelltraining und Inferenz.
Cluster starten
Das Starten eines Clusters umfasst die folgenden Schritte:
- Arbeitslast bestimmen und Maschinentyp auswählen
- Nutzungsoption auswählen und Kapazität abrufen
- Bereitstellungsoption auswählen
- Orchestrator auswählen
- Betriebssystem- und Cluster-Image auswählen
- Cluster erstellen
Arbeitslast bestimmen und Maschinentyp auswählen
Wählen Sie einen Maschinentyp für Ihre KI-Arbeitslast aus. AI Hypercomputer unterstützt die Clustererstellung mit den Maschinenserien A4X Max, A4X, A4 und A3. Beachten Sie die folgenden Empfehlungen zur Maschinennutzung:
Für das Training und die Inferenz von Foundation Models: A4X Max oder A4X
Für das Training, die Feinabstimmung und die Inferenz großer Modelle: A4 oder A3 Ultra
Für die Mainstream-Modellinferenz und -Feinabstimmung: A3 Mega oder A3 High (8 GPUs)
Für die Bereitstellung von Inferenz: A3 Edge
Ausführliche Informationen zu den einzelnen Maschinenserien finden Sie unter GPU-Maschinen typen. Ausführliche Informationen zu den Arbeitslast empfehlungen für die einzelnen Maschinen finden Sie unter Empfohlene Konfigurationen.
Nutzungsoption auswählen und Kapazität abrufen
Wählen Sie eine Nutzungsoption für Ihre GPU-Ressourcen basierend auf der Verfügbarkeit Ihrer Arbeitslast und dem gewählten Maschinentyp aus. Wenn Sie beispielsweise die Maschinentypen A4X Max oder A4X verwenden möchten, müssen Sie mit dem Nutzungsmodell für zukünftige Reservierungen Kapazität für ein bestimmtes Datum und eine bestimmte Uhrzeit reservieren. Die folgenden Optionen fassen die Nutzungsmodelle zusammen:
Zukünftige Reservierungen: Verfügbar für die Maschinentypen A4X Max, A4X, A4 und A3 Ultra, mit dichter Ressourcenzuweisung und bis zu 53% Rabatt für vCPUs und GPUs. Zukünftige Reservierungen eignen sich ideal für Arbeitslasten, die über einen längeren Zeitraum Stabilität erfordern, z. B. das Vortraining von Foundation Models oder die Inferenz von Foundation Models mit mehreren Hosts. Wenn Sie diese Nutzungsoption verwenden möchten, müssen Sie über Ihr Account-Management-Team Kapazität für ein zukünftiges Startdatum und eine zukünftige Startzeit anfordern.
Zukünftige Reservierungen im Kalendermodus: Verfügbar für die Maschinentypen A4, A3 Ultra, A3 Mega und A3 High (nur 8-GPU-VMs) mit dichter Ressourcenzuweisung und bis zu 53% Rabatt für vCPUs und GPUs. Mit zukünftigen Reservierungen im Kalendermodus können Sie Ressourcen für Arbeitslasten reservieren, die bis zu 90 Tage ausgeführt werden und Stabilität erfordern, z. B. das Vortraining oder die Feinabstimmung von Modellen. Wenn Sie diese Nutzungsoption verwenden möchten, müssen Sie jedoch eine Reservierungsanfrage erstellen, um Ressourcen für ein zukünftiges Datum und eine zukünftige Uhrzeit zu reservieren, und Google Cloud Ihre Anfrage genehmigen.
Flex-Start: Verfügbar für alle GPU-Maschinentypen außer A4X Max und A4X. Mit Flex-Start können Sie kurzlebige, dichte Cluster erstellen, die bis zu sieben Tage laufen und Rabatte von bis zu 53% für vCPUs und GPUs für A2-Maschinentypen und höher bieten. Sie können Flex-Start-Cluster direkt über Compute Engine, Cluster Director, Cluster Toolkit oder GKE erstellen. Cluster sind jedoch nicht sofort verfügbar. Google erstellt sie, sobald Ressourcen verfügbar sind.
Spot: Verfügbar für alle GPU-Maschinentypen außer A4X Max und A4X. Mit Spot-VMs können Sie sofort Compute-Ressourcen basierend auf der Verfügbarkeit erstellen. Compute Engine kann VM-Instanzen jedoch jederzeit vorzeitig beenden. Spot-VMs werden mit dem größtmöglichen Rabatt in Compute Engine angeboten (zwischen 61% und 90 % Rabatt).
Weitere Informationen zu Nutzungsoptionen finden Sie unter Vergleich von Nutzungs optionen.
Bereitstellungsoption auswählen
Je nachdem, wie viel Kontrolle Sie über die Clusterbereitstellung benötigen, wählen Sie zwischen einer stark verwalteten oder einer weniger verwalteten Bereitstellung, die Ihnen mehr Kontrolle über Ihre Infrastruktur bietet.
Stark verwaltet
Wenn Sie möchten, dass Google Ihre Infrastruktur bereitstellt und einrichtet, verwenden Sie Cluster Director, Cluster Toolkit oder GKE.
**Cluster Director**: Ein Google Cloud Produkt, das die komplexe Einrichtung und Konfiguration von Clustern automatisiert. Damit können Sie Compute-, Netzwerk- und Speicherressourcen für Ihre Cluster konfigurieren, um die Leistung zu maximieren und Ausfallzeiten zu minimieren. Cluster Director wurde für IT-Administratoren und KI-Forscher entwickelt, die den Aufwand für die Verwaltung eines Clusters vermeiden und sich stattdessen auf die Ausführung ihrer Arbeitslasten konzentrieren möchten.
**Cluster Toolkit**: an open source tool offered by Google that simplifies cluster configuration and deployment for GKE or Compute Engine. Sie verwenden vordefinierte Blueprints, um gängige Konfigurationen wie A4-Maschinentypen mit Slurm bereitzustellen. Sie können Blueprints ändern, um Bereitstellungen und Ihren Softwarestack anzupassen.
GKE: Ein verwalteter Kubernetes-Dienst und eine Open-Source-Plattform zur Containerorchestrierung. GKE bietet Funktionen wie Autoscaling und Hochverfügbarkeit. Außerdem können containerisierte Anwendungen orchestriert werden, spezielle Hardware unterstützt werden und GKE ist mit dem Google Cloud Ökosystem kompatibel und eignet sich daher gut für die Bereitstellung und Verwaltung von KI- oder ML Arbeitslasten. Sie können GKE-Cluster direkt mit GKE oder mit Cluster Toolkit bereitstellen. Sie können zwischen dem GKE Standard und dem Autopilot-Modus wählen.
Weniger verwaltet, mehr Kontrolle
Wenn Sie eine detailliertere Kontrolle über Ihre Cluster und die darauf installierte Software haben möchten, erstellen Sie einen Compute Engine-Cluster mit verwalteten Instanzgruppen von Compute Engine oder erstellen Sie Instanzen per Bulk-Verfahren. Installieren Sie dann manuell die erforderliche Software auf den Instanzen.
Orchestrator auswählen
Ein Orchestrator automatisiert die Verwaltung Ihrer Cluster. Mit einem Orchestrator müssen Sie nicht jede Compute-Instanz im Cluster verwalten. Ein Orchestrator wie Slurm oder GKE übernimmt Aufgaben wie das Einreihen von Jobs in die Warteschlange, die Ressourcenzuweisung, das Autoscaling (im Fall von GKE) und andere alltägliche Clusterverwaltungsaufgaben.
Slurm: Slurm ist ein Open-Source-Orchestrator, der häufig für HPC-, KI-, oder ML-Arbeitslasten verwendet wird. Wenn Sie Slurm verwenden möchten, können Sie Cluster Toolkit verwenden (das Cluster-Blueprints bietet, mit denen Slurm automatisch auf Ihren Clustern installiert wird) oder Slurm manuell auf einem Compute Engine-Cluster installieren.
GKE: GKE ist ein verwalteter Dienst, der auf Kubernetes basiert, einer Open-Source-Plattform zur Containerorchestrierung. GKE eignet sich ideal für die Bereitstellung und Verwaltung von KI- oder ML-Arbeitslasten, da containerisierte Anwendungen orchestriert und spezielle Hardware unterstützt werden kann und es Teil des Google Cloud Ökosystems ist. Sie können GKE-Cluster direkt mit GKE oder mit Cluster Toolkit bereitstellen.
Eigenen Orchestrator verwenden: Wenn Sie andere Orchestratoren verwenden möchten, müssen Sie sie auf Ihren Compute Engine-Clustern verwenden. Das Erstellen eines Compute Engine-Clusters ist jedoch die am wenigsten verwaltete Option, die auf Google Cloudangeboten wird. Das bedeutet, dass Sie für die Einrichtung, Wartung und Aktualisierung Ihrer Instanzen verantwortlich sind.
Betriebssystem-Image auswählen
Je nachdem, ob Sie GKE oder Compute Engine verwenden, wählen Sie ein Image aus, das Ihr ausgewähltes Betriebssystem enthält, z. B. Container-Optimized OS für GKE-Cluster oder ein Beschleuniger-Betriebssystem-Image für Compute Engine-Cluster. Außerdem können Sie auch ein DLSL-Image (Deep Learning Software Layer) für Ihre Container auswählen.
Ausführliche Informationen finden Sie unter AI Hypercomputer Images.
Images für GKE-Cluster
Wenn Sie GKE-Cluster erstellen möchten, empfehlen wir, die Standard-Container-Betriebssystem-Images für den Standard- und den Autopilot-Modus zu verwenden. Im Standardmodus können Sie jedoch auch andere verfügbare Images wie Ubuntu verwenden.
Wenn Sie Cluster Toolkit verwenden, um Ihren Cluster bereitzustellen, können Sie nur Container-Betriebssystem-Images verwenden, da diese in die Cluster-Blueprints integriert sind. Weitere Informationen zu den einzelnen Knoten-Images finden Sie in der GKE Dokumentation unter Knoten Images.
GKE bietet auch DLSL-Container-Images (Deep Learning Software Layer), mit denen Pakete wie NVIDIA CUDA und NCCL sowie ML-Frameworks wie PyTorch installiert werden. So erhalten Sie eine sofort einsatzbereite Umgebung für Deep-Learning-Arbeitslasten. Diese vorgefertigten DLSL-Container-Images wurden getestet und verifiziert, um nahtlos auf GKE-Clustern zu funktionieren.
Betriebssystem-Images für Compute Engine-Cluster
AI Hypercomputer bietet Images, die für die Ausführung von KI- und ML-Arbeitslasten mit Compute Engine optimiert sind. Wählen Sie das Betriebssystem aus, mit dem Sie am besten vertraut sind:
- Rocky Linux 9-Beschleuniger
- Rocky Linux 8-Beschleuniger
- Ubuntu 24.04 LTS-Beschleuniger
- Ubuntu 22.04 LTS-Beschleuniger
Wenn Sie Cluster Toolkit verwenden, sind diese Beschleuniger-Images bereits in Cluster Toolkit-Blueprints enthalten, da Cluster Toolkit benutzerdefinierte Images erstellt, die die Ubuntu LTS-Beschleuniger-Betriebssystem-Images erweitern.
Weitere Informationen zu den einzelnen Betriebssystem-Images finden Sie in der Compute Engine-Dokumentation unter Details zu Betriebssystemen.
Cluster erstellen
Nachdem Sie den Clustererstellungsprozess geprüft und vorläufige Entscheidungen für Ihre Arbeitslast getroffen haben, erstellen Sie Ihren Cluster mit einer der folgenden Optionen:
- GKE-Cluster erstellen:
- Slurm-Cluster erstellen:
- Cluster mit Compute Engine erstellen: