Übersicht über TPU Cluster Director
Mit TPU Cluster Director haben Sie direkte, reservierungsbasierte Kontrolle über Ihre Google Cloud KI-Beschleuniger. Die grundlegenden Funktionen von Cluster Director für Cloud TPU bieten eine Dienststufe, die über ein Multi-Tenant-Angebot hinausgeht und physisch isolierte TPU-Kapazität bereitstellt:
- Dedizierte, physisch colocate Kapazität: Sie erhalten dichte, colocate TPU-Reservierungen, mit denen Sie die vollständige Kontrolle über Ihre Hardware haben, um eine optimale Netzwerkleistung und Arbeitslastplanung zu erzielen.
- Erweiterte Wartung und Steuerung: Sie haben präzise Kontrolle über Wartungs ereignisse und können bestimmte VMs, Würfel, Pods oder gesamte Reservierungen auswählen. Außerdem können Sie die Reihenfolge und Geschwindigkeit dieser Ereignisse verwalten, um die Auswirkungen auf das Unternehmen zu minimieren.
- Topologiebasierte Planung: Sie erhalten eine vollständige Ansicht der physischen Topologie, des Zustands und der Auslastung der Hardware, was eine intelligentere, leistungsbezogene Platzierung von Arbeitslasten ermöglicht.
Cluster Director Foundations ist vollständig in die Google Kubernetes Engine integriert. Diese Integration bietet mehrere Funktionen zur Verbesserung von KI-Arbeitslasten im großen Maßstab:
- Verbesserte Effizienz, Fehlertoleranz und Resilienz: bietet eine robuste Umgebung für anspruchsvolle KI-Aufgaben.
- Topologiebasierte Knotenpools und Arbeitslastplatzierung: Mit dichten, colocate Reservierungen können Sie bestimmte Pods oder Würfel auswählen. Dies ermöglicht eine präzisere Arbeitslastplanung.
Mit Cluster Director Foundations in GKE profitieren Sie von einer besseren Auslastung, höherer Leistung und Skalierbarkeit Ihrer Arbeitslasten, einem verbesserten Goodput und einer höheren Zuverlässigkeit sowie einer umfassenden Beobachtbarkeit der physischen Kapazität (von Hosts bis hin zu GKE-Clustern).
TPU Cluster Director Foundations in GKE ist über die neue Reservierung im Modus „Gesamte Kapazität“ verfügbar.
Modus „Gesamte Kapazität“
Standardmäßig wird die TPU-Kapazität im „verwalteten“ Modus angeboten. Dabei ersetzt Google automatisch alle fehlerhaften TPU-Maschinen, behält aber einen Teil der reservierten Kapazität zurück, um sicherzustellen, dass Ihre TPU-Slices die erforderlichen Ressourcen für einen Neustart haben. Es gibt einen alternativen Kapazitätsmodus für TPU, den Modus „Gesamte Kapazität“. In diesem Kapazitätsmodus haben Sie vollständigen Einblick in die TPU-Hardwaretopologie, den Auslastungsstatus und den Zustand Ihrer reservierten Kapazität. Sie haben auch Zugriff auf die gesamte reservierte Kapazität, sind aber für die Verwaltung von Fehlern und geplanten Wartungsarbeiten verantwortlich.
Zu den wichtigsten Funktionen des Modus „Gesamte Kapazität“ gehören:
- Vollständige Kontrolle und Transparenz: Sie haben die vollständige Kontrolle über Ihre reservierte Kapazität und vollständigen Einblick in den Zustand und die Topologie Ihrer Hardware. So können Sie die gesamte verfügbare Kapazität einschließlich der Rückstellungen sehen und Maschinenfehler direkt verwalten.
- Dedizierte Kapazität: Sie können auf dedizierte Kapazität zugreifen, die immer für Ihre KI-Arbeitslasten verfügbar ist. Mit voller Kapazität und ohne Rückstellungen erhalten Sie eine höhere Vorhersagbarkeit und Zuweisung, sodass Sie die gesamte reservierte TPU-Kapazität nutzen können. Jetzt ist Ihre Rückstellungskapazität auch für die Ausführung Ihrer Arbeitslasten mit niedrigerer Priorität verfügbar.
- Optimierte Leistung: Der TPU-Modus „Gesamte Kapazität“ bietet eine dichte Colocation von großen Beschleunigerressourcen mit Netzwerken mit extrem niedriger Latenz, was für große, eng gekoppelte ML- und HPC-Arbeitslasten entscheidend ist. Die Architektur ist für maximale Leistung bei Trainings- und Inferenzarbeitslasten optimiert.
Unterstützte TPU-Generationen
Der TPU-Modus „Gesamte Kapazität“ und die zugehörigen Funktionen sind für Trillium (TPU v6e), TPU Ironwood (TPU7x) und zukünftige TPU-Generationen verfügbar. Der TPU-Modus „Gesamte Kapazität“ wird für ältere TPU-Generationen nicht unterstützt.
TPU Cluster Director – Terminologie
Die Cluster Director-Topologie besteht aus vier Ebenen: Cluster, Block, Unterblock und Host. Ein Cluster ist eine Google-Bereitstellungseinheit für physische TPU-Kapazität in Pod-Mehrfachmengen. Die gesamte TPU-Kapazität in einem Cluster befindet sich in einer Zone. Eine TPU-Reservierung im Modus „Gesamte Kapazität“ befindet sich immer in einem Cluster. Für TPUs werden die übrigen Topologiekonzepte physischen Komponenten zugeordnet, wie in den folgenden Tabellen dargestellt.
Trillium
| Topologiekonzepte | Trillium | Kerne | Chips | Hosts |
|---|---|---|---|---|
| --- | Chip | 1 | 1 | – |
| Host | Host | 8 | 8 | 1 |
| Unterblock | Trillium-Pod | 256 | 256 | 32 |
| Block | Mehrere Trillium-Pods (bis zu 16) in einer Reservierung | Bis zu 4.096 |
Bis zu 4.096 |
Bis zu 512 |
| --- | Zulässige Slices in einem Unterblock | 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 und 16x16 | ||
| --- | Eine Reservierung kann mehrere Blöcke haben und jeder Block kann 1 bis 16 Trillium-Pods enthalten. | |||
Weitere Informationen zu den Slice-Größen von Trillium finden Sie unter Unterstützte Konfigurationen für Trillium.
Ironwood
| Topologiekonzepte | Ironwood | Kerne | Chips | Hosts |
|---|---|---|---|---|
| --- | Chip | 2 | 1 | --- |
| Host | Host | 8 | 4 | 1 |
| Unterblock | Würfel | 128 | 64 | 16 |
| Block | Mehrere Ironwood-Würfel bis zu einem vollständigen Pod | Bis zu 9.216 (144 Würfel) | Bis zu 2.304 | |
| --- | Beispiele für zulässige Slice-Größen in einem Block | 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 und 12x24x24 (und viele mehr) | ||
| --- | Eine Reservierung kann einen oder mehrere Ironwood-Würfel bis zu einem vollständigen Ironwood-Pod enthalten. |
Weitere Informationen zu den Slice-Größen von Ironwood finden Sie unter Unterstützte Konfigurationen für TPU7x.