Cloud TPU-VMs mit MIGs erstellen

Verwaltete Instanzgruppen (Managed Instance Groups, MIGs) automatisieren die Erstellung, Konfiguration und Lebenszyklusverwaltung einer Sammlung von VMs. MIGs bieten Vorteile wie Hochverfügbarkeit durch automatische Reparatur und regionale Bereitstellungen (in mehreren Zonen), automatische Skalierung zur Bewältigung variabler Lasten und vereinfachte Rolling Updates für Anwendungen. Weitere Informationen finden Sie unter Verwaltete Instanzgruppen.

Sie können MIGs verwenden, um TPU-VMs für die TPU-Versionen v5p und höher zu erstellen und zu verwalten. Sie können MIGs mit einer einzelnen TPU-VM, unabhängigen TPU-VMs (auch als Single-Host-Slices bezeichnet) und MIGs mit verbundenen TPU-VMs (auch als Multi-Host-Slices bezeichnet) erstellen.

Jeder Slice in einer Single-Host-MIG hat maximal eine TPU-VM. Die TPU-VMs in der MIG sind nicht über Inter-Chip-Interconnect-Verbindungen (ICI) verbunden.

Ein Multi-Host-Slice enthält mehrere TPU-VMs, die über ICI-Verbindungen miteinander verbunden sind.

MIGs mit Single-Host-TPU-Slices

Das Erstellen einer verwalteten Instanzgruppe (MIG) mit mehreren unabhängigen TPU-Instanzen ist für Arbeitslasten von Vorteil, die mehrere einzelne TPU-VMs erfordern, aber nicht über ICI-Verbindungen für verteilte Arbeitslasten verbunden sein müssen. Beispiel:

  • Inferenzbereitstellung: Jede VM in der MIG kann Inferenzanfragen unabhängig verarbeiten. Mit einer MIG können Sie die Anzahl der Bereitstellungsinstanzen je nach Bedarf skalieren und sie als Gruppe verwalten.
  • Parallele unabhängige Aufgaben: Eine MIG bietet eine Möglichkeit, viele kleine, unabhängige Trainingsjobs oder andere Berechnungen zu verwalten, die parallel auf einzelnen TPU-VMs ausgeführt werden können.
  • Verwaltung: MIGs bieten die folgenden Funktionen:
    • Bereitstellung: Definieren Sie eine Instanzvorlage einmal und verwenden Sie die MIG, um mehrere identische TPU-VMs zu erstellen.
    • Skalierbarkeit: Passen Sie die Anzahl der TPU-VMs an, indem Sie die Größe der MIG ändern.
    • Rolling Updates: Aktualisieren Sie die Software oder den Maschinentyp auf allen VMs auf kontrollierte Weise.
  • Kosteneffizienz: Für Aufgaben, die nicht die volle Leistung oder Konnektivität eines großen TPU-Slice erfordern, kann die Verwendung mehrerer kleinerer, unabhängiger TPU Slices kostengünstiger sein.

Weitere Informationen finden Sie unter MIG mit Single-Host-TPU-Slices erstellen.

MIGs mit einem Multi-Host-Slice

Im Gegensatz zu Gruppen unabhängiger TPU-Slices verwaltet eine für einen Multi-Host-Slice konfigurierte MIG eine Reihe von TPU-VMs, die über ICI-Verbindungen eng miteinander verbunden sind. Dadurch entsteht ein einzelner logischer TPU-Slice.

Vorteile und Leistung

MIGs für Multi-Host-TPU-Slices bieten die Skalierung und Leistung, die für intensive ML-Arbeitslasten erforderlich sind.

  • Verteiltes Training: Für das Training von ML-Modellen ist oft mehr TPU-Leistung erforderlich, als eine einzelne TPU-VM bereitstellen kann. Größere TPU-Slices verteilen die Berechnungen auf viele TPU-Chips und VMs, wobei die ICI-Verbindungen eine schnelle Kommunikation zwischen ihnen ermöglichen. Dies ist entscheidend für die Trainingsleistung.
  • Hohe Interconnect-Bandbreite: Das ICI-Netzwerk bietet eine höhere Bandbreite und eine geringere Latenz zwischen TPU-Chips im Slice als das Standard-Rechenzentrums netzwerk (Data Center Network, DCN). Dies ist für die synchronen Vorgänge unerlässlich, die beim Training großer Modelle üblich sind.

Atomare Lebenszyklusvorgänge

Um die Integrität der verbundenen Topologie zu gewährleisten, verwaltet die MIG den gesamten Slice während seines gesamten Lebenszyklus als einzelne, unteilbare Einheit.

  • Erstellung: Alle VMs im Slice werden zusammen bereitgestellt. Wenn nicht genügend fehlerfreie, verbundene Kapazität für die gesamte angeforderte Topologie verfügbar ist, wird der Slice nicht erstellt.
  • Löschen: Die MIG löscht den gesamten Slice als Einheit.
  • Größenänderung: Die Größenänderung ist auf die Skalierung von 0 auf die volle Slice-Größe beschränkt, oder von der vollen Slice-Größe zurück auf 0. Sie können die Größe eines Multi-VM-Slice nicht teilweise ändern.

Konfigurationsanforderungen

Für die Konfiguration einer Multi-Host-MIG müssen sowohl die physische Verbindungstopologie als auch die einzelnen Instanzeigenschaften definiert werden.

  • Arbeitslastrichtlinie: Sie müssen eine Arbeitslastrichtlinie mit dem accelerator-topology Parameter angeben (z. B. 4x4, 8x8 oder 4x4x4). Dadurch wird die MIG so konfiguriert, dass die Instanzen als einzelner, verbundener Slice behandelt werden. Informationen zur Topologie finden Sie unter Systemarchitektur.
  • Instanzvorlage: Definiert Eigenschaften wie Maschinentyp, Festplatten-Image und andere Einstellungen für jede VM im Slice.

Slice-Verfügbarkeit und Fehlerbehebung

Wenn Sie MIGs verwenden, um einen Multi-Host-TPU-Slice zu erstellen, verwaltet die MIG automatisch den Slice-Wiederherstellungsprozess. Bei einem Host- oder ICI-Fehler wechselt der Slice in den Status REACTIVATING. Alle VMs im Slice wechseln in den Status REPAIRING, aber nicht unbedingt gleichzeitig. Die MIG startet dann automatisch die VMs zusammen auf fehlerfreier Kapazität neu, um den Slice wiederherzustellen.

Wenn Sie jedoch Spot-VMs verwenden, führt das vorzeitige Beenden dazu, dass Instanzen beendet werden. Die MIG reaktiviert den Slice nicht automatisch.

Fehlerbehebung nach einer Instanzunterbrechung

Wenn Sie eine TPU-Instanz löschen oder beenden oder eine Instanz im Betriebssystem beenden, wechselt der Slice in den Status FAILED. In diesem Fall bleibt der Slice im Status FAILED, bis Sie ihn neu erstellen. Um den Slice neu zu erstellen, müssen Sie entweder die MIG löschen und neu erstellen oder die Größe der MIG auf 0 ändern und dann erhöhen.

Weitere Informationen zu den Slice-Status finden Sie unter Status eines TPU-Slice ansehen.

Beschränkungen

Für MIGs mit TPUs gelten die folgenden Einschränkungen:

  • Lebenszyklusvorgänge: Sie können TPU Instanzen nicht beenden, starten, fortsetzen oder anhalten. Wenn Sie Konfigurationen ändern möchten, für die ein Neustart erforderlich ist, oder um weitere Gebühren zu vermeiden, müssen Sie die Instanzen löschen.

  • Zonenverteilung für regionale MIGs: Sie müssen die Zielverteilungsform auf ANY_SINGLE_ZONE festlegen.

  • Konfigurationsaktualisierungen in einer MIG:

    • Aufgrund der definierten Beschleunigertopologie können Sie eine MIG, die einen Multi-Host-TPU-Slice bildet, nicht aktualisieren.
    • Sie können eine MIG, die Single-Host-TPU-Slices bildet, mit den automatischen oder selektiven Methoden aktualisieren. Die Aktualisierungen für Single-Host-TPU-Slices unterstützen jedoch die Aktion „Neustart“ (RESTART) nicht. Wenn ein Neustart erforderlich ist und die umfangreichste zulässige Aktion „Ersetzen“ (REPLACE) ist, ersetzt der Updater die Instanz. Andernfalls schlägt der Aktualisierungsversuch mit einem Fehler fehl.

  • Für eine MIG, die einen Multi-Host-TPU-Slice bildet, gelten außerdem die folgenden Einschränkungen:

    • Richtlinie für Zielgröße: Sie müssen den Modus der Richtlinie für die Zielgröße auf BULK festlegen. Nachdem Sie diesen Modus festgelegt haben, können Sie ihn nicht mehr ändern.

    • Zielgröße: Im Bulk-Modus können Sie die Zielgröße entweder auf 0 oder die Anzahl der Instanzen festlegen, die zum Bilden der Beschleunigertopologie erforderlich sind.

    • Arbeitslastrichtlinie: Sie müssen eine Arbeitslastrichtlinie angeben, in der die Beschleunigertopologie definiert ist. Nachdem Sie die Arbeitslastrichtlinie festgelegt haben, können Sie sie nicht mehr ändern oder aus der MIG entfernen.

  • Nicht unterstützte Funktionen: MIGs mit TPUs unterstützen die folgenden Funktionen nicht:

Nächste Schritte