TPU Cluster Director – Übersicht
TPU Cluster Director wurde entwickelt, um Ihnen eine direkte, reservierungsbasierte Steuerung Ihrer Google Cloud KI-Beschleuniger zu ermöglichen. Für Cloud TPU bietet Cluster Director mit seinen grundlegenden Funktionen eine neue Serviceebene, die über ein Multi-Tenant-Angebot hinausgeht und physisch isolierte TPU-Kapazität bietet:
- Dedizierte, physisch gemeinsam untergebrachte Kapazität: Wir bieten jetzt dichte, gemeinsam untergebrachte TPU-Reservierungen an, mit denen Sie die vollständige Kontrolle über Ihre Hardware haben, um die Netzwerk- und Arbeitslastleistung zu optimieren.
- Erweiterte Wartung und Steuerung: Sie haben die Möglichkeit, Wartungsereignisse präzise zu steuern. Sie können bestimmte VMs, Cubes, Pods oder ganze Reservierungen als Ziel festlegen und die Reihenfolge und das Tempo dieser Ereignisse so verwalten, dass die Auswirkungen auf Ihr Unternehmen minimiert werden.
- Topologiebewusste Planung: Sie erhalten einen vollständigen Überblick über die physische Topologie, den Zustand und die Auslastung der Hardware, was eine intelligentere, leistungsbezogene Platzierung von Arbeitslasten ermöglicht.
Cluster Director Foundations ist vollständig in Google Kubernetes Engine integriert. Diese Integration bietet mehrere Funktionen zur Optimierung umfangreicher KI-Arbeitslasten:
- Höhere Effizienz, Fehlertoleranz und Ausfallsicherheit: Bietet eine robuste Umgebung für anspruchsvolle KI-Aufgaben.
- Topologiebezogene Knotenpools und Arbeitslastplatzierung: – Mit Reservierungen für dicht beieinanderliegende Standorte können Sie bestimmte Pods oder Cubes ansprechen. Dies ermöglicht eine detailliertere Planung der Arbeitslast.
Mit Cluster Director auf GKE profitieren Sie von einer besseren Auslastung, einer höheren Leistung und Skalierbarkeit Ihrer Arbeitslasten, einem verbesserten Durchsatz und einer höheren Zuverlässigkeit sowie einer umfassenden Beobachtbarkeit der physischen Kapazität (von Hosts bis hin zu GKE-Clustern).
TPUs Cluster Director foundations on GKE ist über die neue Reservierung im Modus „All Capacity“ verfügbar.
Modus „Gesamte Kapazität“
Bisher wurde die TPU-Kapazität im „verwalteten“ Modus angeboten. In diesem Modus ersetzt Google automatisch alle fehlerhaften TPU-Maschinen, behält aber einen Teil der reservierten Kapazität zurück, um sicherzustellen, dass Ihre TPU-Slices die erforderlichen Ressourcen für einen Neustart haben. Google führt jetzt einen neuen Kapazitätsmodus für TPU ein, den Modus „All Capacity“ (Gesamtkapazität). In diesem Kapazitätsmodus haben Sie vollständigen Einblick in die TPU-Hardwaretopologie, den Auslastungsstatus und den Systemstatus Ihrer reservierten Kapazität. Sie haben auch Zugriff auf Ihre gesamte reservierte Kapazität, sind aber für die Verwaltung von Ausfällen und geplanten Wartungsarbeiten verantwortlich.
Zu den wichtigsten Funktionen des Modus „Alle Kapazitäten“ gehören:
- Vollständige Kontrolle und Transparenz: Sie haben die vollständige Kontrolle über Ihre reservierte Kapazität und vollständigen Einblick in den Hardwarestatus und die Topologie. So können Sie die gesamte verfügbare Kapazität, einschließlich Rückstellungen, sehen und Maschinenausfälle direkt verwalten.
- Dedizierte Kapazität: Sie können auf dedizierte Kapazität zugreifen, die immer für Ihre KI-Arbeitslasten verfügbar ist. Mit voller Kapazität und ohne Rückstellungen erhalten Sie eine höhere Vorhersagbarkeit und Zuweisung. So können Sie die gesamte reservierte TPU-Kapazität nutzen. Jetzt können Sie die Holdback-Kapazität auch für die Ausführung Ihrer Arbeitslasten mit niedrigerer Priorität nutzen.
- Optimierte Leistung: Der TPU-Modus „All Capacity“ bietet eine dichte Co-Location großer Beschleunigerressourcen mit Netzwerken mit extrem niedriger Latenz, was für umfangreiche, eng gekoppelte ML- und HPC-Arbeitslasten entscheidend ist. Die Architektur ist für maximale Leistung bei Trainings- und Inferenz-Arbeitslasten optimiert.
Unterstützte TPU-Generationen
Der TPU-Modus „Alle Kapazitäten“ und die zugehörigen Funktionen sind für Trillium (TPU v6e), TPU Ironwood (TPU v7x) und zukünftige TPU-Generationen verfügbar. Die Unterstützung älterer TPU-Generationen ist nicht geplant.
TPU Cluster Director-Terminologie
Die Topologiekonzepte von Cluster Director bestehen aus vier Ebenen: Cluster, Block, Sub-Block und Host. Ein Cluster ist eine Google-Bereitstellungseinheit für physische TPU-Kapazität in Pod-Vielfachen. Die gesamte TPU-Kapazität in einem Cluster befindet sich in einer Zone. Eine TPU-Reservierung im Modus „All Capacity“ befindet sich immer in einem Cluster. Bei TPUs werden die restlichen Topologiekonzepte physischen Komponenten zugeordnet, wie in den folgenden Tabellen dargestellt.
Trillium
| Topologiekonzepte | Trillium | Kerne | Chips | Hosts |
|---|---|---|---|---|
| --- | Chip | 1 | 1 | – |
| Host | Host | 8 | 8 | 1 |
| Unterblock | Trillium Pod | 256 | 256 | 32 |
| Blockieren | Mehrere Trillium-Pods (bis zu 16) in einer Reservierung | Bis zu 4.096 |
Bis zu 4.096 |
Bis zu 512 |
| --- | Zulässige Slices in einem Unterblock | 1 x 1, 2 x 2, 2 x 4, 4 x 4, 4 x 8, 8 x 8, 8 x 16 und 16 x 16 | ||
| --- | Eine Reservierung kann mehrere Blöcke haben und jeder Block kann 1 bis 16 Trillium-Pods enthalten. | |||
Weitere Informationen zu den Slice-Größen von Trillium finden Sie unter Von Trillium unterstützte Konfigurationen.
Ironwood
| Topologiekonzepte | Ironwood | Kerne | Chips | Hosts |
|---|---|---|---|---|
| --- | Chip | 2 | 1 | --- |
| Host | Host | 8 | 4 | 1 |
| SubBlock | Cube | 128 | 64 | 16 |
| Blockieren | Mehrere Ironwood-Cubes bis hin zu einem vollständigen Pod | Bis zu 9.216 (144 Cubes) | Bis zu 2.304 | |
| --- | Zulässige Slices in einem Block: Beispiele | 1 × 1 × 1, 2 × 2 × 1, 2 × 2 × 2, 2 × 4 × 4, 4 × 4 × 4, 8 × 8 × 8, 16 × 8 × 8, 16 × 16 × 8 und 12 × 24 × 24 (und viele weitere) | ||
| --- | Eine Reservierung kann einen oder mehrere Ironwood-Cubes umfassen, bis hin zu einem vollständigen Ironwood-Pod. |
Weitere Informationen zu Ironwood-Slice-Größen finden Sie unter Unterstützte TPUv7x-Konfigurationen.