Verwaltete Instanzgruppen (Managed Instance Groups, MIGs) automatisieren die Erstellung, Konfiguration und Lebenszyklusverwaltung einer Sammlung von VMs. MIGs bieten Vorteile wie Hochverfügbarkeit durch automatische Reparatur und regionale Bereitstellungen (in mehreren Zonen), automatisches Skalieren zur Bewältigung variabler Lasten und vereinfachte Rolling Updates für Anwendungen. Weitere Informationen finden Sie unter Verwaltete Instanzgruppen.
Sie können MIGs verwenden, um TPU-VMs für TPU-Versionen v5p und höher zu erstellen und zu verwalten. Sie können MIGs mit einer einzelnen TPU-VM, unabhängigen TPU-VMs (auch als Single-Host-Slices bezeichnet) und MIGs mit verbundenen TPU-VMs (auch als Multi-Host-Slices bezeichnet) erstellen.
Jeder Slice in einer MIG mit einem einzelnen Host hat höchstens eine TPU-VM. Die TPU-VMs innerhalb der MIG sind nicht über Inter-Chip-Interconnect-Verbindungen (ICI) verbunden.
Ein Slice mit mehreren Hosts enthält mehrere TPU-VMs, die über ICI-Verbindungen miteinander verbunden sind.
MIGs mit einer einzelnen TPU-VM-Instanz
Sie können eine einzelne TPU-VM mit einer MIG erstellen und verwalten, indem Sie die Zielgröße der MIG auf „1“ festlegen. Dieser Ansatz ist nützlich, wenn Sie Funktionen der verwalteten Instanzgruppe wie die automatische Reparatur für eine einzelne Instanz verwenden möchten. Weitere Informationen finden Sie unter MIG mit TPU-Slices mit einem Host erstellen.
MIGs mit TPU-Slices mit einem einzelnen Host
Das Erstellen einer verwalteten Instanzgruppe (MIG) mit mehreren unabhängigen TPU-Instanzen ist für Arbeitslasten von Vorteil, die mehrere einzelne TPU-VMs erfordern, aber nicht über ICI-Verbindungen für verteilte Arbeitslasten verbunden werden müssen. Beispiel:
- Inference-Bereitstellung: Jede VM in der MIG kann Inference-Anfragen unabhängig verarbeiten. Mit einer MIG können Sie die Anzahl der Serving-Instanzen basierend auf der Nachfrage skalieren und als Gruppe verwalten.
- Parallele unabhängige Aufgaben: Mit einer MIG können viele kleine, unabhängige Trainingsjobs oder andere Berechnungen verwaltet werden, die parallel auf einzelnen TPU-VMs ausgeführt werden können.
- Verwaltung: MIGs bieten die folgenden Funktionen:
- Bereitstellung: Sie definieren eine Instanzvorlage einmal und verwenden die MIG, um mehrere identische TPU-VMs zu erstellen.
- Skalierbarkeit: Sie können die Anzahl der TPU-VMs anpassen, indem Sie die MIG in der Größe ändern.
- Rolling Updates: Aktualisieren Sie die Software oder den Maschinentyp auf allen VMs auf kontrollierte Weise.
- Kosteneffizienz: Für Aufgaben, die nicht die volle Leistung oder Interkonnektivität eines großen TPU-Slice erfordern, kann die Verwendung mehrerer kleinerer, unabhängiger TPU-Slices kostengünstiger sein.
Weitere Informationen finden Sie unter MIG mit TPU-Slices mit einem Host erstellen.
MIGs mit einem Slice mit mehreren Hosts
Im Gegensatz zu Gruppen unabhängiger TPU-Slices verwaltet eine MIG, die für einen Slice mit mehreren Hosts konfiguriert ist, eine Reihe von TPU-VMs, die über ICI-Verbindungen eng miteinander verbunden sind. Dadurch wird ein einzelner logischer TPU-Slice erstellt.
Vorteile und Leistung
MIGs für TPU-Slices mit mehreren Hosts bieten die Skalierbarkeit und Leistung, die für intensive ML-Arbeitslasten erforderlich sind.
- Verteiltes Training: Für das Training von Modellen für maschinelles Lernen ist oft mehr TPU-Leistung erforderlich, als eine einzelne TPU-VM bereitstellen kann. Bei größeren TPU-Slices wird die Berechnung auf viele TPU-Chips und VMs verteilt. Die ICI-Verbindungen ermöglichen eine schnelle Kommunikation zwischen ihnen. Das ist entscheidend für die Trainingsleistung.
- Hohe Bandbreite für die Verbindung: Das ICI-Netzwerk bietet eine höhere Bandbreite und eine geringere Latenz zwischen TPU-Chips im Slice als das Standard-Rechenzentrumsnetzwerk (Data Center Network, DCN). Dies ist für die synchronen Vorgänge, die beim Training großer Modelle üblich sind, unerlässlich.
Atomare Lebenszyklusvorgänge
Um die Integrität der verbundenen Topologie zu gewährleisten, verwaltet die MIG den gesamten Slice während seines gesamten Lebenszyklus als einzelne, unteilbare Einheit.
- Erstellung: Alle VMs im Slice werden gemeinsam bereitgestellt. Wenn nicht genügend fehlerfreie, miteinander verbundene Kapazität für die gesamte angeforderte Topologie verfügbar ist, wird der Slice nicht erstellt.
- Löschen: Die MIG löscht den gesamten Slice als Einheit.
- Größenanpassung: Die Größenanpassung ist auf das Skalieren von 0 auf die volle Segmentgröße oder von der vollen Segmentgröße zurück auf 0 beschränkt. Sie können die Größe eines Multi-VM-Slices nicht teilweise ändern.
Konfigurationsanforderungen
Für die Konfiguration einer MIG mit mehreren Hosts müssen sowohl die physische Verbindungstopologie als auch die einzelnen Instanzeigenschaften definiert werden.
- Arbeitslastrichtlinie: Sie müssen eine Arbeitslastrichtlinie mit dem Parameter
accelerator-topologyangeben, z. B. 4x4, 8x8 oder 4x4x4. Dadurch wird die MIG so konfiguriert, dass die Instanzen als einzelner, verbundener Slice behandelt werden. Informationen zur Topologie finden Sie unter TPU-Topologie. - Instanzvorlage: Definiert Attribute wie Maschinentyp, Laufwerk-Image und andere Einstellungen für jede VM im Slice.
Verfügbarkeit von Slices und Fehlerbehebung
Wenn Sie MIGs zum Erstellen eines TPU-Slice mit mehreren Hosts verwenden, wird der Wiederherstellungsprozess für den Slice automatisch von der MIG verwaltet. Wenn ein Host- oder ICI-Fehler auftritt, wechselt der Slice in den Status REACTIVATING. Alle VMs im Slice gehen in den Status REPAIRING über, aber nicht unbedingt alle gleichzeitig. Die MIG startet die VMs dann automatisch gemeinsam auf fehlerfreier Kapazität neu, um den Slice wiederherzustellen.
Wenn Sie jedoch Spot-VMs verwenden, werden Instanzen durch das vorzeitige Beenden beendet. Die verwaltete Instanzgruppe reaktiviert den Slice nicht automatisch.
Wiederherstellung nach einem Instanzausfall
Wenn Sie eine TPU-Instanz löschen oder stoppen oder eine Instanz über das Betriebssystem stoppen, wechselt der Slice in den Status FAILED. In diesem Fall verbleibt der Slice im Status FAILED, bis Sie ihn neu erstellen.
Um den Slice neu zu erstellen, müssen Sie entweder die MIG löschen und neu erstellen oder die Größe der MIG auf 0 ändern und dann erhöhen.
Weitere Informationen zu den Slice-Status finden Sie unter Status eines TPU-Slice ansehen.
Beschränkungen
In den folgenden Abschnitten werden die Einschränkungen beim Erstellen einer MIG mit TPU-VMs beschrieben.
Einschränkungen für Instanzvorlagen
Für Instanzvorlagen, in denen ein TPU-Maschinentyp angegeben ist, gelten die folgenden Einschränkungen:
Wenn Sie das reservierungsgebundene Bereitstellungsmodell verwenden, müssen Sie die Beendigungsaktion der Instanz auf „Löschen“ festlegen.
TPUs können nur spezifisch ausgewählte Reservierungen nutzen.
Sie können keine Platzierungsrichtlinie angeben.
Wenn Sie die Instanzvorlage zum Erstellen einer MIG für einen TPU-Slice mit mehreren Hosts verwenden, können Sie den automatischen Neustart nicht deaktivieren, indem Sie das Feld
scheduling.automaticRestartauffalsesetzen. Diese Einschränkung gilt für die Bereitstellungsmodelle „Standard“, „Flex-Start“ und „Reservierungsgebunden“.
Einschränkungen für MIGs
Für MIGs mit TPUs gelten die folgenden Einschränkungen:
Lebenszyklusvorgänge: Sie können TPU-Instanzen nicht beenden, starten, fortsetzen oder anhalten. Wenn Sie Konfigurationen ändern möchten, die einen Neustart erfordern, oder wenn Sie keine Gebühren mehr zahlen möchten, müssen Sie die Instanzen löschen.
Zonenverteilung regionaler MIGs: Sie müssen die Zielverteilungsform auf
ANY_SINGLE_ZONEfestlegen.Konfigurationsaktualisierungen in einer MIG:
- Sie können eine MIG, die aufgrund der definierten Beschleunigertopologie einen TPU-Slice mit mehreren Hosts bildet, nicht aktualisieren.
- Sie können eine MIG, die TPU-Slices mit einem einzelnen Host bildet, mit den automatischen oder selektiven Methoden aktualisieren.
Die Updates für TPU-Slices mit einem einzelnen Host unterstützen jedoch nicht die Aktion zum Neustarten (
RESTART). Wenn ein Neustart erforderlich ist und die umfassendste zulässige Aktion „replace“ (REPLACE) ist, ersetzt der Updater die Instanz. Andernfalls schlägt der Aktualisierungsversuch mit einem Fehler fehl.
Für eine MIG, die einen TPU-Slice mit mehreren Hosts bildet, gelten außerdem die folgenden Einschränkungen:
Richtlinie für Zielgröße: Sie müssen den Modus der Richtlinie für die Zielgröße auf
BULKfestlegen. Nachdem Sie diesen Modus festgelegt haben, können Sie ihn nicht mehr ändern.Zielgröße: Im Bulk-Modus können Sie die Zielgröße entweder auf
0oder auf die Anzahl der Instanzen festlegen, die für die Beschleunigertopologie erforderlich sind.Arbeitslastrichtlinie: Sie müssen eine Arbeitslastrichtlinie angeben, in der die Beschleunigertopologie definiert ist. Nachdem Sie die Arbeitslastrichtlinie festgelegt haben, können Sie sie nicht mehr ändern oder aus der MIG entfernen.
Nicht unterstützte Funktionen: MIGs mit TPUs unterstützen die folgenden Funktionen nicht:
- Instanzflexibilität
- Anfragen zur Größenanpassung verwenden, um Ressourcen auf einmal zu erhalten
- Zustandsorientierte Konfiguration
- Für eine MIG, die einen TPU-Slice mit mehreren Hosts bildet, werden die folgenden Elemente ebenfalls nicht unterstützt: