TPU Cluster Director – Übersicht

TPU Cluster Director wurde entwickelt, um Ihnen eine direkte, reservierungsbasierte Kontrolle über Ihre Google Cloud KI-Beschleuniger zu ermöglichen. Für Cloud TPU bietet Cluster Director grundlegende Funktionen, die über ein Multi-Tenant-Angebot hinausgehen und physisch isolierte TPU-Kapazität bereitstellen:

Dedizierte, physisch colocate-fähige Kapazität: Sie erhalten dichte, colocate-fähige TPU-Reservierungen, mit denen Sie die volle Kontrolle über Ihre Hardware haben, um die Netzwerkleistung und die Planung von Arbeitslasten zu optimieren.
Erweiterte Wartung und Steuerung: Sie haben die Möglichkeit, Wartungsereignisse präzise zu steuern. Sie können bestimmte VMs, Cubes, Pods oder ganze Reservierungen als Ziel festlegen und die Reihenfolge und das Tempo dieser Ereignisse so verwalten, dass die Auswirkungen auf Ihr Unternehmen minimiert werden.
Topologiebewusste Planung: Sie erhalten einen vollständigen Überblick über die physische Topologie, den Zustand und die Auslastung der Hardware, was eine intelligentere, leistungsbezogene Platzierung von Arbeitslasten ermöglicht.

Cluster Director Foundations ist vollständig in Google Kubernetes Engine integriert. Diese Integration bietet mehrere Funktionen zur Optimierung umfangreicher KI-Arbeitslasten:

Höhere Effizienz, Fehlertoleranz und Robustheit: bietet eine robuste Umgebung für anspruchsvolle KI-Aufgaben.
Topologiebewusste Knotenpools und Arbeitslastplatzierung: Mit gemeinsam platzierten dichten Reservierungen können Sie bestimmte Pods oder Cubes als Ziel festlegen. Dies ermöglicht eine detailliertere Planung der Arbeitslast.

Mit Cluster Director auf GKE profitieren Sie von einer besseren Auslastung, einer höheren Leistung und Skalierbarkeit Ihrer Arbeitslasten, einem verbesserten Durchsatz und einer höheren Zuverlässigkeit sowie einer umfassenden Beobachtbarkeit der physischen Kapazität (von Hosts bis hin zu GKE-Clustern).

TPUs Cluster Director-Grundlagen in GKE sind über die neue Reservierung im Modus „All Capacity“ verfügbar.

Modus „Gesamte Kapazität“

Standardmäßig wird die TPU-Kapazität im „verwalteten“ Modus angeboten. In diesem Modus ersetzt Google automatisch alle fehlerhaften TPU-Maschinen, behält aber einen Teil der reservierten Kapazität zurück, um sicherzustellen, dass Ihre TPU-Slices die erforderlichen Ressourcen für den Neustart haben. Es gibt einen alternativen Kapazitätsmodus für TPUs, den Modus „All Capacity“. In diesem Kapazitätsmodus haben Sie vollständigen Einblick in die TPU-Hardwaretopologie, den Auslastungsstatus und den Systemstatus Ihrer reservierten Kapazität. Sie haben auch Zugriff auf Ihre gesamte reservierte Kapazität, sind aber für die Verwaltung von Ausfällen und geplanten Wartungsarbeiten verantwortlich.

Zu den wichtigsten Funktionen des Modus „Maximale Kapazität“ gehören:

Vollständige Kontrolle und Transparenz: Sie haben die vollständige Kontrolle über Ihre reservierte Kapazität und vollständigen Einblick in den Hardwarestatus und die Topologie. So können Sie die gesamte verfügbare Kapazität, einschließlich Rückstellungen, sehen und Maschinenausfälle direkt verwalten.
Dedizierte Kapazität: Sie können auf dedizierte Kapazität zugreifen, die immer für Ihre KI-Arbeitslasten verfügbar ist. Mit voller Kapazität und ohne Rückstellungen erhalten Sie eine höhere Vorhersagbarkeit und Zuweisung. So können Sie die gesamte reservierte TPU-Kapazität nutzen. Jetzt können Sie die Holdback-Kapazität auch für die Ausführung Ihrer Arbeitslasten mit niedrigerer Priorität nutzen.
Optimierte Leistung: Der TPU-Modus „All Capacity“ bietet eine dichte Co-Location großer Beschleunigerressourcen mit Netzwerken mit extrem niedriger Latenz, was für umfangreiche, eng gekoppelte ML- und HPC-Arbeitslasten entscheidend ist. Die Architektur ist für maximale Leistung bei Trainings- und Inferenz-Arbeitslasten optimiert.

Unterstützte TPU-Generationen

Der TPU-Modus „Alle Kapazitäten“ und die zugehörigen Funktionen sind für Trillium (TPU v6e), TPU Ironwood (TPU7x) und zukünftige TPU-Generationen verfügbar. Der Modus „TPU All Capacity“ wird für ältere TPU-Generationen nicht unterstützt.

TPU Cluster Director-Terminologie

Die Cluster Director-Topologie besteht aus vier Ebenen: Cluster, Block, Unterblock und Host. Ein Cluster ist eine Google-Bereitstellungseinheit für physische TPU-Kapazität in Pod-Vielfachen. Die gesamte TPU-Kapazität in einem Cluster befindet sich in einer Zone. Eine TPU-Reservierung im Modus „All Capacity“ befindet sich immer in einem Cluster. Bei TPUs werden die restlichen Topologiekonzepte physischen Komponenten zugeordnet, wie in den folgenden Tabellen dargestellt.

Trillium

Topologiekonzepte	Trillium	Kerne	Chips	Hosts
---	Chip	1	1	–
Host	Host	8	8	1
Unterblock	Trillium Pod	256	256	32
Blockieren	Mehrere Trillium-Pods (bis zu 16) in einer Reservierung	Bis zu 4.096	Bis zu 4.096	Bis zu 512
---	Zulässige Slices in einem Unterblock	1 × 1, 2 × 2, 2 × 4, 4 × 4, 4 × 8, 8 × 8, 8 × 16 und 16 × 16
---	Eine Reservierung kann mehrere Blöcke haben und jeder Block kann 1 bis 16 Trillium-Pods enthalten.

Weitere Informationen zu den Slice-Größen von Trillium finden Sie unter Von Trillium unterstützte Konfigurationen.

Ironwood

Topologiekonzepte	Ironwood	Kerne	Chips	Hosts
---	Chip	2	1	---
Host	Host	8	4	1
Unterblock	Cube	128	64	16
Blockieren	Mehrere Ironwood-Würfel bis hin zu einem vollständigen Pod		Bis zu 9.216 (144 Würfel)	Bis zu 2.304
---	Beispiele für zulässige Segmentgrößen in einem Block	1 × 1 × 1, 2 × 2 × 1, 2 × 2 × 2, 2 × 4 × 4, 4 × 4 × 4, 8 × 8 × 8, 16 × 8 × 8, 16 × 16 × 8 und 12 × 24 × 24 (und viele weitere)
---	Eine Reservierung kann einen oder mehrere Ironwood-Cubes umfassen, bis hin zu einem vollständigen Ironwood-Pod.

Weitere Informationen zu Ironwood-Slice-Größen finden Sie unter Unterstützte TPU7x-Konfigurationen.