Ressourcen berechnen

Wenn Sie sich für Vertex AI-Trainingscluster interessieren, wenden Sie sich an Ihren Vertriebsmitarbeiter, um Zugriff zu erhalten.

Vertex AI-Trainingscluster unterstützen eine Vielzahl von Maschinentypen für verschiedene Arbeitslasten. Sie haben die folgenden Optionen, wenn Sie die Knotenpools Ihres Clusters konfigurieren:

  • a4-highgpu-8g
  • a4x-highgpu-4g
  • a3-ultragpu-8g
  • a3-megagpu-8g
  • n2-CPU-Familie

A4X-Maschinentyp

Vertex AI-Trainingscluster unterstützen den beschleunigungsoptimierten A4X-Maschinentyp (a4x-highgpu-4g), eine Exascale-Plattform, die auf der Rack-Scale-Architektur NVIDIA GB200 NVL72 basiert.

Architekturvergleich

In der folgenden Tabelle sind die grundlegenden Hardwareunterschiede zwischen der A4X-Familie und anderen beschleunigungsoptimierten Familien aufgeführt.

Funktion A4X (a4x-highgpu-4g) A3 / A4H
CPU-Architektur ARM X86
GPU-Anzahl 4 GPUs pro Knoten 8 GPUs pro Knoten
Reservierungstyp Modus „Gesamte Kapazität“ Verwalteter Modus
Platzierungsrichtlinie Strikt (kompakt) Flexibel

A4X-spezifische Richtlinien

  • Die Anzahl der VMs in Ihrem A4X-Knotenpool muss ein Vielfaches von 18 sein (z. B. 18, 36, 54). Dies ist erforderlich, da A4X-Kapazität in festen, nicht gemeinsam nutzbaren 18-Knoten-Blöcken namens NVLink-Domains bereitgestellt wird. Für diese Domains gilt eine strenge Richtlinie zur kompakten Platzierung. Teilweise zugewiesene Blöcke können nicht von anderen Clustern verwendet werden.
  • Aufgrund der ARM-basierten Architektur von A4X-Knoten müssen Sie zwei wichtige Änderungen an Ihren Trainingsarbeitslasten vornehmen:
    • ARM-kompatible Images verwenden: Für alle Trainingsjobs muss ein Container-Image verwendet werden, das für die ARM-Architektur erstellt wurde.
    • Anpassung für 4 GPUs: Die Logik für verteiltes Training muss aktualisiert werden, damit die 4 GPUs, die auf jedem A4X-Knoten verfügbar sind, richtig erkannt und verwendet werden.
  • Prozess zur Meldung von Hostfehlern und Ausfallzeiten Wenn Sie einen Host als fehlerhaft melden, sollten Sie sich des folgenden Wiederherstellungsprozesses bewusst sein:
    • Keine Standby-Kapazität: Das System verwendet keinen Standby-Ersatzpool für einen sofortigen Knotenaustausch.
    • Wiederherstellung durch Reparatur: Der Knoten bleibt so lange nicht verfügbar, bis der zugrunde liegende physische Host repariert wurde.
    • Längere Ausfallzeit: Diese Reparatur dauert in der Regel 3 bis 14 Tage.

Kapazitätsbereitstellung

Die Auswahl des richtigen Bereitstellungsmodells ist entscheidend, um Kosten, Geschwindigkeit und Ressourcenverfügbarkeit in Einklang zu bringen. Hier finden Sie die Bereitstellungsoptionen:

  • RESERVATION: Weist Knoten aus einer bestimmten Compute Engine-Reservierung zu, die Sie im Voraus erstellt haben. Dieses Modell sichert die Kapazität und ist die empfohlene Option für Ressourcen mit hoher Nachfrage.

  • FLEX_START: Der Dynamic Workload Scheduler wird verwendet, um Ihren Job in die Warteschlange zu stellen. Der Job beginnt automatisch, sobald die angeforderten Rechenressourcen verfügbar sind. So ist eine flexible Startzeit ohne Reservierung möglich.

  • SPOT: Stellt den Knotenpool mit Spot-VMs bereit. Dies ist die kostengünstigste Option, sie sollte jedoch nur für Arbeitslasten verwendet werden, die fehlertolerant sind und Unterbrechungen bewältigen können, da die VMs jederzeit vorzeitig beendet werden können.

  • ON_DEMAND: Dies ist die Standardoption für Knotenpools, die nur CPUs verwenden, und eignet sich am besten für Maschinentypen, die nicht knapp sind. Sie bietet Standard-VM-Instanzen mit kalkulierbaren „Pay as you go“-Preisen.

Beachten Sie bei der Auswahl Folgendes:

  • Für GPU-Ressourcen mit hoher Nachfrage (z. B. A3 und A4): Das RESERVATION-Modell wird dringend empfohlen. So haben Sie dedizierten Zugriff auf die Kapazität, die Sie für wichtige Trainingsjobs benötigen.

  • Für burstfähige oder flexible Arbeitslasten: Erwägen Sie FLEX_START oder SPOT. Bei FLEX_START wird Ihr Job in die Warteschlange gestellt, bis Ressourcen verfügbar sind. Bei SPOT können Sie erhebliche Kosteneinsparungen für fehlertolerante Jobs erzielen, die mit dem Präemptieren umgehen können.

  • Für viele Maschinentypen: Das Modell ON_DEMAND ist die bevorzugte Wahl. Verwenden Sie sie für Maschinentypen, die nicht knapp sind und bei denen die sofortige Verfügbarkeit kein Problem darstellt.

Freigegebene Reservierung verwenden (optional)

Wenn Sie eine freigegebene Reservierung anstelle einer lokalen Reservierung verwenden möchten, sind zusätzliche Schritte erforderlich, bevor Sie einen Cluster erstellen können.

Bevor Sie eine freigegebene Reservierung mit Vertex AI-Trainingsclustern verwenden, müssen Sie prüfen, ob die freigegebene Reservierung funktioniert. Erstellen Sie dazu manuell eine VM, die die freigegebene Reservierung verwendet. Wenn die VM-Erstellung funktioniert, fahren Sie mit dem nächsten Schritt fort. Verwenden Sie in der Konfiguration für die Clustererstellung den Reservierungsnamen im folgenden Format: projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME.

Nächste Schritte

Nachdem Sie die Compute- und Bereitstellungsoptionen für Ihren Trainingscluster ausgewählt haben, können Sie den Cluster erstellen und eine Arbeitslast darauf ausführen.

  • Compute Engine-Reservierung erstellen: Das RESERVATION-Modell wird für die Zuweisung von Ressourcen mit hoher Nachfrage wie GPUs verwendet. Hier erfahren Sie, wie Sie eine neue Reservierung in Compute Engine erstellen, um dedizierten Zugriff auf die benötigten Ressourcen zu erhalten.
  • Trainingscluster erstellen: Wenden Sie die Konfigurationen an, die Sie kennengelernt haben, indem Sie der Schritt-für-Schritt-Anleitung zum Erstellen Ihres ersten persistenten Trainingsclusters mit der Vertex AI API oder gcloud folgen.
  • Trainingsjob an den Cluster senden: Sobald Ihr Cluster aktiv ist, müssen Sie als Nächstes eine Arbeitslast ausführen. Senden Sie einen CustomJob, der auf Ihren persistenten Cluster ausgerichtet ist.
  • Code für verteiltes Training anpassen: Damit Sie die Vorteile eines Clusters mit mehreren Knoten voll ausschöpfen können, müssen Sie Ihren Trainingscode für eine verteilte Umgebung anpassen.