TPUs in GKE planen

Autopilot Standard

Auf dieser Seite wird beschrieben, wie Sie die Nutzung von Tensor Processing Units (TPUs) in Google Kubernetes Engine (GKE) planen, um das Risiko von TPU-Fehlkonfigurationen, Fehlern aufgrund von Nichtverfügbarkeit oder Unterbrechungen aufgrund von Kontingentüberschreitungen zu verringern.

Bevor Sie TPUs in GKE verwenden, sollten Sie sich mit den TPU-Definitionen und der Terminologie in GKE vertraut machen.

TPU-Konfiguration planen

Wenn Sie TPUs in GKE-Clustern verwenden möchten, müssen Sie ihre Konfiguration planen. Wir empfehlen, so vorzugehen:

GKE-Betriebsmodus auswählen: Führen Sie Ihre Arbeitslasten auf TPUs in einem GKE Autopilot- oder Standard-Cluster aus.

Best Practice:
Verwenden Sie einen Autopilot-Cluster für eine vollständig verwaltete Kubernetes-Umgebung.
TPU-Version auswählen: Unterschiedliche TPU-Typen haben unterschiedliche Funktionen wie Preis-Leistungs-Verhältnis, Trainingsdurchsatz und Bereitstellungslatenz. Die TPU-Typen wirken sich auf die verfügbaren CPU- und Arbeitsspeicherkapazitäten aus.
TPU-Verfügbarkeit prüfen: TPUs sind in bestimmten Google CloudRegionen verfügbar. Wenn Sie einen TPU-Typ in Ihrer GKE-Arbeitslast verwenden möchten, muss sich Ihr Cluster in einer unterstützten Region für diesen Typ befinden.
TPU-Topologie auswählen: Die physische Anordnung der TPUs in einem TPU-Slice. Wählen Sie eine Topologie aus, die den Parallelitätsanforderungen Ihres Modells entspricht.

Anhand der Referenztabellen auf dieser Seite können Sie ermitteln, ob Ihre Knotenpools TPU-Slice-Knoten mit einem oder mehreren Hosts sind.

GKE-Betriebsmodus auswählen

Sie können TPUs in den verfügbaren GKE-Betriebsmodi für Cluster verwenden:

Standardmodus: Sie verwalten die zugrunde liegende Infrastruktur, einschließlich der Konfiguration der einzelnen Knoten.
Autopilot-Modus (empfohlen): GKE verwaltet die zugrunde liegende Infrastruktur, z. B. Knotenkonfiguration, Autoscaling, automatische Upgrades, Referenzsicherheitskonfigurationen und Referenznetzwerkkonfiguration. In Autopilot wählen Sie einen TPU-Typ und eine Topologie aus und geben diese dann in Ihrem Kubernetes-Manifest an. GKE verwaltet die Bereitstellung von Knoten mit TPUs und die Planung Ihrer Arbeitslasten.

Informationen zum Auswählen des GKE-Betriebsmodus, der für Ihre Arbeitslasten am besten geeignet ist, finden Sie unter GKE-Betriebsmodus auswählen.

Option für die TPU-Nutzung auswählen

Wenn Sie Ihre TPU-Konfiguration in GKE planen, wählen Sie eine Verbrauchsoption aus, die Ihren Arbeitslastanforderungen entspricht. Die von Ihnen gewählte Option für die Nutzung wirkt sich auf die verfügbaren TPU-Versionen und das Kontingent aus, das Sie konfigurieren müssen. GKE bietet die folgenden Optionen für den TPU-Verbrauch, mit denen Sie die Ressourcenzuweisung und die Kosten optimieren und gleichzeitig die Arbeitslastleistung aufrechterhalten können:

Flex-Start:Flex-Start-VMs werden für bis zu sieben Tage bereitgestellt. GKE weist die Hardware automatisch nach bestem Wissen und Gewissen basierend auf der Verfügbarkeit zu. Weitere Informationen finden Sie unter GPU-, TPU- und H4D-Nutzung mit dem Bereitstellungsmodus „Flex-Start“.
Spot-VMs:Wenn Sie Spot-VMs bereitstellen, können Sie erhebliche Rabatte erhalten. Spot-VMs können jedoch jederzeit vorzeitig beendet werden. Sie erhalten 30 Sekunden vor dem Beenden eine Warnung. Weitere Informationen finden Sie unter Spot-VMs.
Vorausschauende Reservierung für bis zu 90 Tage (im Kalendermodus): Damit können Sie TPU-Ressourcen für bis zu 90 Tage für einen bestimmten Zeitraum bereitstellen. Weitere Informationen finden Sie unter TPUs mit vorausschauender Reservierung im Kalendermodus anfordern.
TPU-Reservierungen:Vorausschauende Reservierung für ein Jahr oder länger anfordern
On-Demand:TPUs nutzen, ohne Kapazität im Voraus zu reservieren. Bevor Sie Ressourcen anfordern, müssen Sie genügend On-Demand-Kontingent für den jeweiligen Typ und die jeweilige Anzahl von TPU-VMs haben. On-Demand ist die flexibelste Verbrauchsoption. Es gibt jedoch keine Garantie dafür, dass genügend On-Demand-Ressourcen verfügbar sind, um Ihre Anfrage zu erfüllen.

„Auf Abruf“ ist das Standardnutzungsmodell für TPUs in GKE, wenn Sie keine andere Option angeben. Informationen zum Auswählen der Nutzungsoption, die Ihren Arbeitslastanforderungen entspricht, finden Sie unter Beschleuniger-Nutzungsoptionen für KI-/ML-Arbeitslasten in GKE.

TPU-Version auswählen

Die VMs in einem TPU-Slice haben die folgenden technischen Eigenschaften.

Standard

TPU-Version	Maschinentyp	`cloud.google.com/gke-tpu-accelerator`	Anzahl der vCPUs	Anzahl der Chips pro VM	Anzahl der NUMA-Knoten	Wahrscheinlichkeit eines vorzeitigen Beendens
Ironwood (TPU7x) (Vorschau)	`tpu7x-standard-4t`	`tpu7x`	224	4	2	Nicht zutreffend
TPU Trillium (v6e)	`ct6e-standard-1t`	`tpu-v6e-slice`	44	1	2	Höher
TPU Trillium (v6e)	`ct6e-standard-4t`	`tpu-v6e-slice`	180	4	1	Mittel
TPU Trillium (v6e)	`ct6e-standard-8t`	`tpu-v6e-slice`	180	8	2	Niedrigere
TPU v5p	`ct5p-hightpu-4t`	`tpu-v5p-slice`	208	4	2	Nicht zutreffend
TPU v5e	`ct5lp-hightpu-1t`	`tpu-v5-lite-podslice`	24	1	1	Höher
TPU v5e	`ct5lp-hightpu-4t`	`tpu-v5-lite-podslice`	112	4	1	Mittel
TPU v5e	`ct5lp-hightpu-8t`	`tpu-v5-lite-podslice`	224	8	1	Niedrig
TPU v4	`ct4p-hightpu-4t`	`tpu-v4-podslice`	240	4	2	Nicht zutreffend
TPU v3 (nur Einzelhost)	`ct3-hightpu-4t`	`tpu-v3-device`	96	4	2	Nicht zutreffend
TPU v3	`ct3p-hightpu-4t`	`tpu-v3-slice`	48	4	1	Nicht zutreffend

ct5lp--Maschinentypen mit mehreren Hosts eignen sich besser für die Bereitstellung großer Modelle oder für das Training. ct5lp--Maschinen mit mehreren Hosts sind über Hochgeschwindigkeitsverbindungen miteinander verbunden.

Autopilot

TPU-Version	`cloud.google.com/gke-tpu-accelerator`	Anzahl der vCPUs	Anzahl der NUMA-Knoten	Maximale Anzahl von TPU-Chips in einem TPU-Slice-Knoten
Ironwood (TPU7x) (Vorschau)	`tpu7x`	224	2	2.048
TPU Trillium (v6e)	`tpu-v6e-slice`	44 bis 180	1 bis 2	256
TPU v5p	`tpu-v5p-slice`	208	2	6.144
TPU v5e	`tpu-v5-lite-podslice`	24 bis 224	1	256
TPU v4	`tpu-v4-podslice`	240	2	4.096
TPU v3 (nur Einzelhost)	`tpu-v3-device`	96	2	8
TPU v3	`tpu-v3-slice`	48	1	256

Sehen Sie sich die TPU-Spezifikationen und -Preise in der Cloud TPU-Preisdokumentation an, um zu entscheiden, welche TPU-Konfiguration Sie verwenden möchten.

Beschränkungen

Berücksichtigen Sie diese Einschränkungen bei der Auswahl der zu verwendenden TPU:

Ironwood (TPU7x) (Vorabversion) ist als Vorabversion verfügbar und unterliegt den folgenden Einschränkungen:
- Standardcluster in Version 1.34.0-gke.2201000.
- Autopilot-Cluster in Version 1.34.1-gke.3084001.
- Nur Google Cloud Hyperdisk Balanced wird unterstützt.
- Multislice wird für Flex-Start nicht unterstützt.
- Mehrere Netzwerke für Managed Lustre werden nicht unterstützt.
- Sekundäre Bootlaufwerke werden nicht unterstützt.
Wichtig :Wenn Sie Ironwood (TPU7x) (Vorabversion) verwenden möchten, müssen Sie den Cluster im Rapid-, No channel- oder Regular-Releasekanal erstellen. Nachdem der Cluster erstellt wurde, können Sie zu „Kein Channel“ wechseln oder Wartungsausschlüsse verwenden, um Upgrades zu verwalten.
TPU Trillium ist in den folgenden Versionen verfügbar:
- Standardcluster in Version 1.31.1-gke.1846000 und höher.
- Autopilot-Cluster in Version 1.31.2-gke.1115000 und höher.
TPU Trillium unterstützt nicht die Konfiguration von SMT auf 2 auf ct6e-standard-8t.
TPU v5p-Autoscaling wird in GKE-Clustern mit Steuerungsebenen unterstützt, auf denen mindestens Version 1.29.2-gke.1035000 oder 1.28.7-gke.1020000 ausgeführt wird.
Verwenden Sie für Kapazitätsreservierungen eine spezifische Reservierung.
Sie können maximal 256 Pods auf einer einzelnen TPU-VM ausführen.
Die GKE-Kostenzuordnung und -Nutzungsmessung enthalten keine Daten zur Nutzung oder zu den Kosten von TPUs.
Cluster Autoscaler bricht das Hochskalieren von TPU-Knotenpools ab, die länger als 10 Stunden im Wartestatus verbleiben. Der Cluster-Autoscaler wiederholt solche Hochskalierungsversuche, wenn Ressourcen verfügbar sind. Dieses Verhalten kann die TPU-Erreichbarkeit reduzieren, wenn Sie keine Reservierungen verwenden.
Ubuntu-Knoten werden nicht unterstützt.
Die TPU-Knotenarchitektur wird nicht mehr unterstützt. TPU v3 ist die einzige TPU-Version, die die TPU-Knotenarchitektur in GKE noch unterstützt.

TPU-Verfügbarkeit in GKE prüfen

TPUs sind in bestimmten Google Cloud Regionen verfügbar. Wenn Sie einen TPU-Typ in Ihrem GKE-Cluster verwenden möchten, muss sich Ihr Cluster in einer für diesen Typ unterstützten Region befinden.

Standard

TPU-Version	Maschinentyp beginnt mit	Mindestversion für GKE	Verfügbarkeit	Zone
TPU Ironwood (TPU7x)	`tpu7x-standard-4t`	1.34.0-gke.2201000	Öffentliche Vorschau	`us-central1-ai1a` `us-central1-c`
TPU Trillium (v6e)	`ct6e-`	1.31.2-gke.1115000	GA	`asia-northeast1-b` `europe-west4-a` `southamerica-west1-a` `us-central1-b` `us-east1-d` `us-east5-a` `us-east5-b` `us-south1-ai1b`
TPU v5e	`ct5lp-`	1.27.2-gke.2100	GA	`europe-west4-b` `us-central1-a` `us-south1-a` `us-west1-c` `us-west4-a`
TPU v5p	`ct5p-`	1.28.3-gke.1024000	GA	`europe-west4-b` `us-central1-a` `us-east5-a`
TPU v4	`ct4p-`	1.26.1-gke.1500	GA	`us-central2-b`
TPU v3	`ct3p-`	1.31.1-gke.1146000	GA	`europe-west4-a` `us-central1-a` `us-central1-b`
TPU v3	`ct3-`	1.31.0-gke.1500	GA	`europe-west4-a` `us-central1-a` `us-central1-b`

Autopilot

TPU-Version	`cloud.google.com/gke-tpu-accelerator`	Mindestversion für GKE	Verfügbarkeit	Zone
TPU Ironwood (TPU7x)	`tpu7x`	1.34.1-gke.3084001	Öffentliche Vorschau	`us-central1-ai1a` `us-central1-c`
TPU Trillium (v6e)	`tpu-v6e-slice`	1.31.2-gke.1384000	GA	`asia-northeast1-b` `europe-west4-a` `southamerica-west1-a` `us-central1-b` `us-east1-d` `us-east5-a` `us-east5-b` `us-south1-ai1b`
TPU v5e	`tpu-v5-lite-podslice`	1.27.2-gke.2100	GA	`europe-west4-b` `us-central1-a` `us-south1-a` `us-west1-c` `us-west4-a`
TPU v5p	`tpu-v5p-slice`	1.28.3-gke.1024000	GA	`europe-west4-b` `us-central1-a` `us-east5-a`
TPU v4	`tpu-v4-podslice`	1.26.1-gke.1500	GA	`us-central2-b`
TPU v3	`tpu-v3-slice`	1.31.1-gke.1146000	GA	`europe-west4-a` `us-central1-a` `us-central1-b`
TPU v3	`tpu-v3-device`	1.31.0-gke.1500	GA	`europe-west4-a` `us-central1-a` `us-central1-b`

Topologie auswählen

Nachdem Sie eine TPU-Version ausgewählt haben, wählen Sie eine unterstützte Topologie aus. Eine Topologie definiert die physische Anordnung von TPU-Chips in einem TPU-Slice. Größere Topologien bieten mehr TPU-Chips, was eine stärkere parallele Verarbeitung ermöglicht, um große Modelle schneller oder mit größeren Datasets zu trainieren.

Die VM-Bereitstellung wird zwar automatisch von GKE verwaltet, aber der Unterschied zwischen Knotenpools mit einem einzelnen Host und Knotenpools mit mehreren Hosts kann Ihnen helfen, die Beziehung zwischen der Anzahl der Chips in Ihrer Topologie und den zugrunde liegenden VMs zu verstehen:

Einzelner Host:Ein TPU-Slice, in dem sich alle Chips auf einer einzelnen VM befinden. Dabei werden weniger Chips verwendet, in der Regel vier oder weniger.
Mehrere Hosts:Ein TPU-Slice, bei dem die Chips auf mehrere VMs verteilt sind. Das ist bei den meisten TPU-Arbeitslasten mit hohem Umfang üblich.

Wenn Sie eine Topologie anfordern, bei der die Gesamtzahl der Chips die Anzahl der Chips überschreitet, die auf einer einzelnen VM für diese TPU-Version verfügbar sind, wird sie von GKE automatisch als Umgebung mit mehreren Hosts bereitgestellt. In diesem Szenario stellt GKE mehrere Knoten bereit, um die Chips zu verteilen.

Betrachten wir beispielsweise den Maschinentyp ct6e-standard-4t und die Topologie 4x4:

Der Maschinentyp ct6e-standard-4t hat 4 Chips pro VM.
Für die Topologie 4x4 sind insgesamt 16 Chips (4 × 4) erforderlich.
Da 16 (Anzahl der Chips in der Topologie) größer als 4 (Chips pro VM) ist, führt diese Konfiguration zu einem TPU-Knotenpool mit mehreren Hosts. GKE verteilt die 16 Chips auf 4 VMs.

Verwenden Sie die folgende Tabelle, um den TPU-Maschinentyp und die Topologie für Ihren Anwendungsfall auszuwählen:

Standard

Nachdem Sie einen TPU-Typ und eine Topologie ausgewählt haben, geben Sie diese in Ihrem Arbeitslastmanifest an. Eine Anleitung finden Sie unter TPU-Arbeitslasten in GKE Standard bereitstellen.

TPU-Version	Maschinentyp	Knotenpooltyp	Technische Spezifikationen
Ironwood (TPU7x) (Vorschau)	`tpu7x-standard-4t`	Einzelner Host	Topologie: 2x2x1 Anzahl der TPU-Chips für die Topologie: 4 Anzahl der Hosts: 1 Anzahl der VMs: 1 Anzahl der Cubes: 1/16
Ironwood (TPU7x) (Vorschau)	`tpu7x-standard-4t`	Mehrere Hosts	Topologie: 2x2x2 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der Hosts: 2 Anzahl der VMs: 2 Anzahl der Cubes: 1/8
Ironwood (TPU7x) (Vorschau)	`tpu7x-standard-4t`	Mehrere Hosts	Topologie: 2x2x4 Anzahl der TPU-Chips für die Topologie: 16 Anzahl der Hosts: 4 Anzahl der VMs: 4 Anzahl der Würfel: 1/4
Ironwood (TPU7x) (Vorschau)	`tpu7x-standard-4t`	Mehrere Hosts	Topologie: 2x4x4 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der Hosts: 8 Anzahl der VMs: 8 Anzahl der Cubes: 1/2
Ironwood (TPU7x) (Vorschau)	`tpu7x-standard-4t`	Mehrere Hosts	Topologie: 4x4x4 Anzahl der TPU-Chips für die Topologie: 64 Anzahl der Hosts: 16 Anzahl der VMs: 16 Anzahl der Würfel: 1
Ironwood (TPU7x) (Vorschau)	`tpu7x-standard-4t`	Mehrere Hosts	Topologie: 4x4x8 Anzahl der TPU-Chips für die Topologie: 128 Anzahl der Hosts: 32 Anzahl der VMs: 32 Anzahl der Cubes: 2
Ironwood (TPU7x) (Vorschau)	`tpu7x-standard-4t`	Mehrere Hosts	Topologie: 4x8x8 Anzahl der TPU-Chips für die Topologie: 256 Anzahl der Hosts: 64 Anzahl der VMs: 64 Anzahl der Würfel: 4
Ironwood (TPU7x) (Vorschau)	`tpu7x-standard-4t`	Mehrere Hosts	Topologie: 8x8x8 Anzahl der TPU-Chips für die Topologie: 512 Anzahl der Hosts: 128 Anzahl der VMs: 128 Anzahl der Würfel: 8
Ironwood (TPU7x) (Vorschau)	`tpu7x-standard-4t`	Mehrere Hosts	Topologie: 8 x 8 x 16 Anzahl der TPU-Chips für die Topologie: 1.024 Anzahl der Hosts: 256 Anzahl der VMs: 256 Anzahl der Cubes: 16
Ironwood (TPU7x) (Vorschau)	`tpu7x-standard-4t`	Mehrere Hosts	Topologie: {A}x{B}x{C} (wobei A, B und C Vielfache von zwei sind) Anzahl der TPU-Chips für die Topologie: ABC Anzahl der Hosts: (ABC)/4 Anzahl der VMs: (ABC/4) Anzahl der Cubes: (ABC/64)
TPU Trillium (v6e)	`ct6e-standard-1t`	Einzelner Host	Topologie: 1x1 Anzahl der TPU-Chips für die Topologie: 1 Anzahl der VMs: 1
TPU Trillium (v6e)	`ct6e-standard-8t`	Einzelner Host	Topologie: 2x4 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der VMs: 1
TPU Trillium (v6e)	`ct6e-standard-4t`	Einzelner Host	Topologie: 2x2 Anzahl der TPU-Chips für die Topologie: 4 Anzahl der VMs: 1
TPU Trillium (v6e)	`ct6e-standard-4t`	Mehrere Hosts	Topologie: 2x4 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der VMs: 2
TPU Trillium (v6e)	`ct6e-standard-4t`	Mehrere Hosts	Topologie: 4x4 Anzahl der TPU-Chips für die Topologie: 16 Anzahl der VMs: 4
TPU Trillium (v6e)	`ct6e-standard-4t`	Mehrere Hosts	Topologie: 4x8 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der VMs: 8
TPU Trillium (v6e)	`ct6e-standard-4t`	Mehrere Hosts	Topologie: 8x8 Anzahl der TPU-Chips für die Topologie: 64 Anzahl der VMs: 16
TPU Trillium (v6e)	`ct6e-standard-4t`	Mehrere Hosts	Topologie: 8x16 Anzahl der TPU-Chips für die Topologie: 128 Anzahl der VMs: 32
TPU Trillium (v6e)	`ct6e-standard-4t`	Mehrere Hosts	Topologie: 16x16 Anzahl der TPU-Chips für die Topologie: 256 Anzahl der VMs: 64
TPU v5p	`ct5p-hightpu-4t`	Einzelner Host	Topologie: 2x2x1 Anzahl der TPU-Chips für die Topologie: 4 Anzahl der VMs: 1
TPU v5p	`ct5p-hightpu-4t`	Mehrere Hosts	Topologie: 2x2x2 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der VMs: 2
TPU v5p	`ct5p-hightpu-4t`	Mehrere Hosts	Topologie: 2x2x4 Anzahl der TPU-Chips für die Topologie: 16 Anzahl der VMs: 4
TPU v5p	`ct5p-hightpu-4t`	Mehrere Hosts	Topologie: 2x4x4 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der VMs: 8
TPU v5p	`ct5p-hightpu-4t`	Mehrere Hosts	Topologie: {A}x{B}x{C} (wobei A, B und C Vielfache von zwei sind) Anzahl der TPU-Chips für die Topologie: ABC Anzahl der VMs: (ABC/4)¹
TPU v5e	`ct5lp-hightpu-1t`	Einzelner Host	Topologie: 1x1 Anzahl der TPU-Chips für die Topologie: 1 Anzahl der VMs: 1
TPU v5e	`ct5lp-hightpu-4t`	Einzelner Host	Topologie: 2x2 Anzahl der TPU-Chips für die Topologie: 4 Anzahl der VMs: 1
TPU v5e	`ct5lp-hightpu-8t`	Einzelner Host	Topologie: 2x4 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der VMs: 1
TPU v5e	`ct5lp-hightpu-4t`	Mehrere Hosts	Topologie: 2x4 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der VMs: 2
TPU v5e	`ct5lp-hightpu-4t`	Mehrere Hosts	Topologie: 4x4 Anzahl der TPU-Chips für die Topologie: 16 Anzahl der VMs: 4
TPU v5e	`ct5lp-hightpu-4t`	Mehrere Hosts	Topologie: 4x8 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der VMs: 8
TPU v5e	`ct5lp-hightpu-4t`	Mehrere Hosts	Topologie: 8x8 Anzahl der TPU-Chips für die Topologie: 64 Anzahl der VMs: 16
TPU v5e	`ct5lp-hightpu-4t`	Mehrere Hosts	Topologie: 8x16 Anzahl der TPU-Chips für die Topologie: 128 Anzahl der VMs: 32
TPU v5e	`ct5p-hightpu-4t`	Mehrere Hosts	Topologie: 2x4x4 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der VMs: 8
TPU v5e	`ct5p-hightpu-4t`	Einzelner Host	Topologie: 2x2x1 Anzahl der TPU-Chips für die Topologie: 4 Anzahl der VMs: 1
TPU v4	`ct4p-hightpu-4t`	Mehrere Hosts	Topologie: 2x2x2 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der VMs: 2
TPU v4	`ct4p-hightpu-4t`	Mehrere Hosts	Topologie: 2x2x4 Anzahl der TPU-Chips für die Topologie: 16 Anzahl der VMs: 4
TPU v4	`ct4p-hightpu-4t`	Mehrere Hosts	Topologie: 2x4x4 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der VMs: 8
TPU v4	`ct4p-hightpu-4t`	Mehrere Hosts	Topologie: {A}x{B}x{C} (wobei A, B und C Vielfache von zwei sind) Anzahl der TPU-Chips für die Topologie: ABC Anzahl der VMs: (ABC/4)¹
TPU v3	`ct3-hightpu-4t`	Einzelner Host	Topologie: 2x2 Anzahl der TPU-Chips für die Topologie: 4 Anzahl der VMs: 1
TPU v3	`ct3p-hightpu-4t`	Mehrere Hosts	Topologie: 4x4 Anzahl der TPU-Chips für die Topologie: 16 Anzahl der VMs: 4
TPU v3	`ct3p-hightpu-4t`	Mehrere Hosts	Topologie: 4x8 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der VMs: 8
TPU v3	`ct3p-hightpu-4t`	Mehrere Hosts	Topologie: 8x8 Anzahl der TPU-Chips für die Topologie: 64 Anzahl der VMs: 16
TPU v3	`ct3p-hightpu-4t`	Mehrere Hosts	Topologie: 8x16 Anzahl der TPU-Chips für die Topologie: 128 Anzahl der VMs: 32
TPU v3	`ct3p-hightpu-4t`	Mehrere Hosts	Topologie: 16x16 Anzahl der TPU-Chips für die Topologie: 256 Anzahl der VMs: 64
TPU v3	`ct3p-hightpu-4t`	Mehrere Hosts	Topologie: 16x32 Anzahl der TPU-Chips für die Topologie: 512 Anzahl der VMs: 128
TPU v3	`ct3p-hightpu-4t`	Mehrere Hosts	Topologie: 32x32 Anzahl der TPU-Chips für die Topologie: 1.024 Anzahl der VMs: 256

Berechnet sich aus dem Topologieprodukt geteilt durch vier. ↩

Autopilot

Nachdem Sie einen TPU-Typ und eine Topologie ausgewählt haben, geben Sie diese in Ihrem Arbeitslastmanifest an. Eine Anleitung finden Sie unter TPU-Arbeitslasten in GKE Autopilot bereitstellen.

TPU-Version	Maschinentyp	Knotenpooltyp	Technische Spezifikationen
Ironwood (TPU7x) (Vorschau)	`tpu7x`	Einzelner Host	Topologie: 2x2x1 Anzahl der TPU-Chips für die Topologie: 4 Anzahl der Hosts: 1 Anzahl der VMs: 1 Anzahl der Cubes: 1/16
Ironwood (TPU7x) (Vorschau)	`tpu7x`	Mehrere Hosts	Topologie: 2x2x2 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der Hosts: 2 Anzahl der VMs: 2 Anzahl der Cubes: 1/8
Ironwood (TPU7x) (Vorschau)	`tpu7x`	Mehrere Hosts	Topologie: 2x4x4 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der Hosts: 8 Anzahl der VMs: 8 Anzahl der Cubes: 1/2
Ironwood (TPU7x) (Vorschau)	`tpu7x`	Mehrere Hosts	Topologie: 4x4x4 Anzahl der TPU-Chips für die Topologie: 64 Anzahl der Hosts: 16 Anzahl der VMs: 16 Anzahl der Würfel: 1
Ironwood (TPU7x) (Vorschau)	`tpu7x`	Mehrere Hosts	Topologie: 8x8x8 Anzahl der TPU-Chips für die Topologie: 512 Anzahl der Hosts: 128 Anzahl der VMs: 128 Anzahl der Würfel: 8
Ironwood (TPU7x) (Vorschau)	`tpu7x`	Mehrere Hosts	Topologie: 8 x 8 x 16 Anzahl der TPU-Chips für die Topologie: 1.024 Anzahl der Hosts: 256 Anzahl der VMs: 256 Anzahl der Cubes: 16
Ironwood (TPU7x) (Vorschau)	`tpu7x`	Mehrere Hosts	Topologie: 8 x 16 x 16 Anzahl der TPU-Chips für die Topologie: 2.048 Anzahl der Hosts: 512 Anzahl der VMs: 512 Anzahl der Cubes: 32
TPU Trillium (v6e)	`tpu-v6e-slice`	Einzelner Host	Topologie: 1x1 Anzahl der TPU-Chips für die Topologie: 1 Anzahl der VMs: 1
TPU Trillium (v6e)	`tpu-v6e-slice`	Einzelner Host	Topologie: 2x2 Anzahl der TPU-Chips für die Topologie: 4 Anzahl der VMs: 4
TPU Trillium (v6e)	`tpu-v6e-slice`	Einzelner Host	Topologie: 2x4 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der VMs: 8
TPU Trillium (v6e)	`tpu-v6e-slice`	Mehrere Hosts	Topologie: 4x4 Anzahl der TPU-Chips für die Topologie: 16 Anzahl der VMs: 4
TPU Trillium (v6e)	`tpu-v6e-slice`	Mehrere Hosts	Topologie: 4x8 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der VMs: 8
TPU Trillium (v6e)	`tpu-v6e-slice`	Mehrere Hosts	Topologie: 8x8 Anzahl der TPU-Chips für die Topologie: 64 Anzahl der VMs: 16
TPU Trillium (v6e)	`tpu-v6e-slice`	Mehrere Hosts	Topologie: 8x16 Anzahl der TPU-Chips für die Topologie: 128 Anzahl der VMs: 32
TPU Trillium (v6e)	`tpu-v6e-slice`	Mehrere Hosts	Topologie: 16x16 Anzahl der TPU-Chips für die Topologie: 256 Anzahl der VMs: 64
TPU v5p	`tpu-v5p-slice`	Einzelner Host	Topologie: 2x2x1 Anzahl der TPU-Chips für die Topologie: 4 Anzahl der VMs: 1
TPU v5p	`tpu-v5p-slice`	Mehrere Hosts	Topologie: 2x2x2 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der VMs: 2
TPU v5p	`tpu-v5p-slice`	Mehrere Hosts	Topologie: 2x2x4 Anzahl der TPU-Chips für die Topologie: 16 Anzahl der VMs: 4
TPU v5p	`tpu-v5p-slice`	Mehrere Hosts	Topologie: 2x4x4 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der VMs: 8
TPU v5p	`tpu-v5p-slice`	Mehrere Hosts	Topologie: 4x4x4 Anzahl der TPU-Chips für die Topologie: 64 Anzahl der VMs: 16
TPU v5p	`tpu-v5p-slice`	Mehrere Hosts	Topologie: {A}x{B}x{C} Anzahl der TPU-Chips für die Topologie: {A}{B}{C} Anzahl der VMs: (ABC/4)¹
TPU v5e	`tpu-v5-lite-podslice`	Einzelner Host	Topologie: 1x1 Anzahl der TPU-Chips für die Topologie: 1 Anzahl der VMs: 1
TPU v5e	`tpu-v5-lite-podslice`	Einzelner Host	Topologie: 2x2 Anzahl der TPU-Chips für die Topologie: 4 Anzahl der VMs: 1
TPU v5e	`tpu-v5-lite-podslice`	Einzelner Host	Topologie: 2x4 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der VMs: 1
TPU v5e	`tpu-v5-lite-podslice`	Mehrere Hosts	Topologie: 2x4 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der VMs: 2
TPU v5e	`tpu-v5-lite-podslice`	Mehrere Hosts	Topologie: 4x4 Anzahl der TPU-Chips für die Topologie: 16 Anzahl der VMs: 4
TPU v5e	`tpu-v5-lite-podslice`	Mehrere Hosts	Topologie: 4x8 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der VMs: 8
TPU v5e	`tpu-v5-lite-podslice`	Mehrere Hosts	Topologie: 8x8 Anzahl der TPU-Chips für die Topologie: 64 Anzahl der VMs: 16
TPU v5e	`tpu-v5-lite-podslice`	Mehrere Hosts	Topologie: 8x16 Anzahl der TPU-Chips für die Topologie: 128 Anzahl der VMs: 32
TPU v5e	`tpu-v5-lite-podslice`	Mehrere Hosts	Topologie: 16x16 Anzahl der TPU-Chips für die Topologie: 256 Anzahl der VMs: 64
TPU v4	`tpu-v4-podslice`	Einzelner Host	Topologie: 2x2x1 Anzahl der TPU-Chips für die Topologie: 4 Anzahl der VMs: 1
TPU v4	`tpu-v4-podslice`	Mehrere Hosts	Topologie: 2x2x2 Anzahl der TPU-Chips für die Topologie: 8 Anzahl der VMs: 2
TPU v4	`tpu-v4-podslice`	Mehrere Hosts	Topologie: 2x2x4 Anzahl der TPU-Chips für die Topologie: 16 Anzahl der VMs: 4
TPU v4	`tpu-v4-podslice`	Mehrere Hosts	Topologie: 2x4x4 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der VMs: 8
TPU v4	`tpu-v4-podslice`	Mehrere Hosts	Topologie: 4x4x4 Anzahl der TPU-Chips für die Topologie: 64 Anzahl der VMs: 16
TPU v4	`tpu-v4-podslice`	Mehrere Hosts	Topologie: {A}x{B}x{C} Anzahl der TPU-Chips für die Topologie: {A}{B}{C} Anzahl der VMs: (ABC/4)¹
TPU v3	`tpu-v3-slice`	Mehrere Hosts	Topologie: 4x4 Anzahl der TPU-Chips für die Topologie: 16 Anzahl der VMs: 2
TPU v3	`tpu-v3-slice`	Mehrere Hosts	Topologie: 4x8 Anzahl der TPU-Chips für die Topologie: 32 Anzahl der VMs: 4
TPU v3	`tpu-v3-slice`	Mehrere Hosts	Topologie: 8x8 Anzahl der TPU-Chips für die Topologie: 64 Anzahl der VMs: 8
TPU v3	`tpu-v3-slice`	Mehrere Hosts	Topologie: 8x16 Anzahl der TPU-Chips für die Topologie: 128 Anzahl der VMs: 16
TPU v3	`tpu-v3-slice`	Mehrere Hosts	Topologie: 16x16 Anzahl der TPU-Chips für die Topologie: 256 Anzahl der VMs: 32
TPU v3	`tpu-v3-device`	Einzelner Host	Topologie: 2x2 Anzahl der TPU-Chips für die Topologie: 4 Anzahl der VMs: 1

Berechnet sich aus dem Topologieprodukt geteilt durch vier. ↩

Benutzerdefinierte Topologien für mehr als 64 Chips werden unterstützt. Dabei gelten folgende Bedingungen:
- Bei mehr als 64 Chips müssen {A}, {B} und {C} ein Vielfaches von 4 sein
- Die größte Topologie ist 16x16x24
- Die Werte müssen {A}≤{B}≤{C} sein, z. B. 8x12x16.
Benutzerdefinierte Topologien werden nicht unterstützt.

Erweiterte Konfigurationen

In den folgenden Abschnitten werden Best Practices für die Planung für erweiterte TPU-Konfigurationen beschrieben.

KI-Zonen

KI-Zonen sind spezielle Zonen, die für KI-/ML-Training und ‑Inferenzarbeitslasten verwendet werden. Diese Zonen bieten eine erhebliche ML-Beschleunigerkapazität. Weitere Informationen finden Sie in der Dokumentation zu KI-Zonen.

Bevor Sie eine KI-Zone in GKE verwenden, sollten Sie die folgenden Merkmale berücksichtigen:

KI-Zonen sind physisch von Standardzonen getrennt, um zusätzlichen Speicherplatz und zusätzliche Leistung bereitzustellen. Diese Trennung kann zu einer höheren Latenz führen, die für KI-/ML-Arbeitslasten in der Regel tolerierbar ist.
KI‑Zonen haben ein Suffix mit der Notation ai. Eine KI-Zone in der Region us-central1 hat beispielsweise den Namen us-central1-ai1a.
Derzeit werden nur TPU-VMs unterstützt.
Die Steuerungsebene des Clusters wird in einer oder mehreren Standardzonen in derselben Region wie die KI-Zone ausgeführt.
Sie können VMs ohne angehängte TPUs in einer KI-Zone nur ausführen, wenn Sie die folgenden Anforderungen erfüllen:
- Sie führen bereits andere Arbeitslasten aus, für die TPU-VMs in derselben Zone verwendet werden.
- Die Nicht-TPU-VMs sind entweder Spot-VMs, an eine Reservierung gebunden oder Teil eines Knotenpools mit einem bestimmten Verhältnis von Beschleuniger- zu Allzweck-VMs.
Hinweis :Auch wenn GKE das Erstellen des Knotenpools zulässt, werden die VMs von Compute Engine nur bereitgestellt, wenn diese Bedingungen erfüllt sind. Weitere Informationen finden Sie unter KI-Zonen.
KI-Zonen verwenden dieselben Komponenten wie Standardzonen mit demselben Suffix in derselben Region, z. B. Netzwerkverbindungen und Software-Roll-outs. Für Arbeitslasten mit hoher Verfügbarkeit empfehlen wir die Verwendung verschiedener Zonen. Verwenden Sie beispielsweise nicht sowohl us-central1-ai1a als auch us-central1-a für Hochverfügbarkeit.

Standardmäßig werden Ihre Arbeitslasten in GKE nicht in KI-Zonen bereitgestellt. Wenn Sie eine KI-Zone verwenden möchten, müssen Sie eine der folgenden Optionen konfigurieren:

(Empfohlen) ComputeClasses: Legen Sie die höchste Priorität für die Anforderung von On-Demand-TPUs in einer KI-Zone fest. Mit ComputeClasses können Sie eine priorisierte Liste von Hardwarekonfigurationen für Ihre Arbeitslasten definieren. Ein Beispiel finden Sie unter Compute-Klassen.
Automatische Knotenbereitstellung: Verwenden Sie ein nodeSelector oder nodeAffinity in Ihrer Pod-Spezifikation, um die automatische Knotenbereitstellung anzuweisen, einen Knotenpool in der KI-Zone zu erstellen. Wenn Ihre Arbeitslast nicht explizit auf eine KI-Zone ausgerichtet ist, werden bei der automatischen Knotenbereitstellung nur Standardzonen oder Zonen aus --autoprovisioning-locations berücksichtigt, wenn neue Knotenpools erstellt werden. Diese Konfiguration sorgt dafür, dass Arbeitslasten, für die keine KI-/ML-Modelle ausgeführt werden, in Standardzonen verbleiben, sofern Sie nichts anderes konfigurieren. Ein Beispiel für ein Manifest, in dem ein nodeSelector verwendet wird, finden Sie unter Standardzonen für automatisch erstellte Knoten festlegen.
GKE Standard: Wenn Sie Ihre Knotenpools direkt verwalten, verwenden Sie beim Erstellen eines Knotenpools eine KI-Zone im Flag --node-locations. Ein Beispiel finden Sie unter TPU-Arbeitslasten in GKE Standard bereitstellen.

TPUs in GKE automatisch skalieren

GKE unterstützt Tensor Processing Units (TPUs), um ML-Arbeitslasten zu beschleunigen. Sowohl der TPU-Slice-Knotenpool mit einem einzelnen Host als auch der TPU-Slice-Knotenpool mit mehreren Hosts unterstützen Autoscaling und die automatische Bereitstellung.

Mit dem Flag --enable-autoprovisioning in einem GKE-Cluster erstellt oder löscht GKE TPU-Slice-Knotenpools mit einem oder mehreren Hosts mit einer TPU-Version und Topologie, die die Anforderungen ausstehender Arbeitslasten erfüllt.

Wenn Sie --enable-autoscaling verwenden, skaliert GKE den Knotenpool basierend auf seinem Typ so:

Einzelner Host TPU-Slice-Knotenpool: GKE fügt dem vorhandenen Knotenpool TPU-Knoten hinzu oder entfernt sie. Der Knotenpool kann eine beliebige Anzahl von TPU-Knoten zwischen null und der maximalen Größe des Knotenpools enthalten, wie durch --max-nodes und die --total-max-nodes-Flags bestimmt. Wenn der Knotenpool skaliert wird, haben alle TPU-Knoten im Knotenpool denselben Maschinentyp und dieselbe Topologie. Weitere Informationen zum Erstellen eines TPU-Slice-Knotenpools mit einem Host finden Sie unter Knotenpool erstellen.
TPU-Slice-Knotenpool mit mehreren Hosts: GKE skaliert den Knotenpool in kleinstmöglichen Schritten von null auf die Anzahl der Knoten, die für die TPU-Topologie erforderlich sind. Bei einem TPU-Knotenpool mit dem Maschinentyp ct5lp-hightpu-4t und der Topologie 16x16 enthält der Knotenpool beispielsweise 64 Knoten. GKE Autoscaling sorgt dafür, dass dieser Knotenpool genau 0 oder 64 Knoten hat. Beim Herunterskalieren entfernt GKE alle geplanten Pods und leert den gesamten Knotenpool auf null. Weitere Informationen zum Erstellen eines TPU-Slice-Knotenpools mit mehreren Hosts finden Sie unter Knotenpool erstellen.

Zusätzlichen Speicher für einen TPU-Slice bereitstellen

Eine VM in einem TPU-Slice enthält ein 100 GiB großes Bootlaufwerk. Wenn für Ihren TPU-Slice zusätzlicher Speicherplatz für das Training oder die Vorverarbeitung benötigt wird oder wenn Sie Prüfpunkte speichern müssen, können Sie Google Cloud Hyperdisk- oder Balanced Persistent Disk-Speicher verwenden, sofern er für Ihre TPU verfügbar ist. Weitere Informationen zu den unterstützten Laufwerkstypen für die einzelnen TPU-Versionen finden Sie unter TPU-Unterstützung für Hyperdisk und Persistent Disk.

CPU für Standardcluster

Dieser Abschnitt gilt nicht für Autopilot-Cluster, da GKE jedes TPU-Slice auf einem eigenen Knoten platziert. Weitere Informationen finden Sie unter Funktionsweise von TPUs im Autopilot-Modus.

Für Standardcluster sollten Sie die folgenden Best Practices für die Planung berücksichtigen.

Sorgen Sie dafür, dass Ihr GKE-Pod die google.com/tpu-Markierung tolerieren kann, um eine Nicht-TPU-Arbeitslast auf einer VM in einem TPU-Slice-Knoten zu planen. Wenn Sie die Arbeitslast für bestimmte Knoten bereitstellen möchten, verwenden Sie die Knotenauswahl.

Die Kubernetes-Ressourcenverwaltung und -Priorität behandelt VMs in TPUs so wie andere VM-Typen. Damit Pods, die TPU erfordern, planungs-Vorrang vor anderen Pods auf denselben Knoten haben, fordern Sie die maximale CPU- oder Arbeitsspeichermenge für diese TPU-Slices an. TPU-Slices mit niedriger Priorität sollten folgende Voraussetzungen erfüllen:

Legen Sie niedrige CPU- und Speicheranforderungen fest, damit der Knoten genügend zuweisbare Ressourcen für die TPU-Arbeitslasten hat. Weitere Informationen finden Sie unter So wendet Kubernetes Ressourcenanfragen und -limits an.
Legen Sie kein CPU-Limit (unbegrenzt) fest, damit die Pods Bursts verwenden können, um alle nicht verwendeten Zyklen zu nutzen.
Legen Sie geeignete Arbeitsspeicherlimits fest, damit Pods ordnungsgemäß funktionieren, ohne dass ein Risiko von Beendigung des Knotendrucks besteht.

Wenn ein Kubernetes-Pod keine CPUs und keinen Arbeitsspeicher anfordert (selbst wenn er TPUs anfordert), betrachtet Kubernetes ihn als Best-Effort-Pod und es gibt keine Garantie dafür, dass CPU und Arbeitsspeicher benötigt werden. Nur Pods, die explizit CPU und Arbeitsspeicher anfordern, haben solche Garantien. Für eine spezifische Kubernetes-Planung konfigurieren Sie die Pod-Anforderungen mit einer expliziten CPU- und Arbeits-Speicher-anforderung. Weitere Informationen finden Sie unter Ressourcenverwaltung für Pods und Container.

Weitere Informationen zu Best Practices finden Sie unter Best Practices für Kubernetes: Ressourcenanforderungen und -limits.

Unterbrechungen von Arbeitslasten reduzieren

Wenn Sie TPUs zum Trainieren eines Modells für maschinelles Lernen verwenden und Ihre Arbeitslast unterbrochen wird, geht alle seit dem letzten Prüfpunkt ausgeführte Arbeit verloren. So verringern Sie die Wahrscheinlichkeit, dass Ihre Arbeitslast unterbrochen wird:

Legen Sie eine höhere Priorität für diesen Job als für alle anderen Jobs fest: Wenn die Ressourcen knapp sind, vorzeitig beendet der GKE-Planer Jobs mit niedrigerer Priorität vorzeitig, um einen Job mit höherer Priorität zu planen. Darüber hinaus wird damit sichergestellt, dass Ihre Arbeitslast mit höherer Priorität alle erforderlichen Ressourcen erhält (bis zu den insgesamt im Cluster verfügbaren Ressourcen). Weitere Informationen finden Sie unter Pod-Priorität und vorzeitiges Beenden.
Konfigurieren Sie einen Wartungsausschluss: Ein Wartungsausschluss ist ein sich nicht wiederholender Zeitraum, in dem keine automatische Wartung stattfinden darf. Weitere Informationen finden Sie unter Wartungsausschlüsse.
Pods mit verlängerter Laufzeit in Autopilot verwenden: Verwenden Sie Pods mit verlängerter Laufzeit für einen Kulanzzeitraum von bis zu sieben Tagen, bevor GKE Ihre Pods für Herunterskalierungen oder Knotenupgrades beendet. “
Sammlungsplanung in TPU Trillium verwenden: Verwenden Sie Sammlungen, um anzugeben, dass ein TPU-Slice-Knotenpool Teil einer Serving-Arbeitslast ist. Google Cloud Dadurch werden Unterbrechungen der Vorgänge von Inferenz-Arbeitslasten begrenzt und optimiert. Weitere Informationen zur Funktionsweise der Planung von Sammlungen

Diese Empfehlungen helfen dabei, Unterbrechungen zu minimieren, verhindern sie aber nicht. Beispielsweise ist das vorzeitige Beenden aufgrund eines Hardwarefehlers oder für die Defragmentierung möglich. Ebenso wird durch das Festlegen eines GKE-Wartungsausschlusses keine Compute Engine-Wartungsereignisse verhindert.

Best Practice:

Speichern Sie Prüfpunkte häufig und fügen Sie Ihrem Trainings-Script Code hinzu, damit bei der Fortsetzung beim letzten Prüfpunkt begonnen wird.

Störungen aufgrund von Knotenwartungen verarbeiten

Die GKE-Knoten, auf denen die TPUs gehostet werden, unterliegen Wartungsereignissen oder anderen Störungen, die zum Herunterfahren des Knotens führen können. In GKE-Clustern auf deren Steuerungsebene, die Version 1.29.1-gke.1425000 oder höher ausgeführt wird, können Sie die Unterbrechung von Arbeitslasten reduzieren. Konfigurieren Sie dazu GKE so, dass Ihre Arbeitslasten ordnungsgemäß beendet werden.

Informationen zum Verwalten von Störungsereignissen, die auf GKE-Knoten mit KI-/ML-Arbeitslasten auftreten können, finden Sie unter GKE-Knotenunterbrechungen für GPUs und TPUs verwalten.

TPU-Auslastung maximieren

Um Ihre Investition in TPUs zu maximieren, planen Sie eine Mischung von Jobprioritäten und stellen Sie sie in eine Warteschlange, um die Betriebszeit Ihrer TPUs zu maximieren. Für die Planung und vorzeitiges Beenden auf Jobebene müssen Sie ein Add-on zu Kubernetes verwenden, das Jobs in Warteschlangen orchestriert.

Best Practice:

Verwenden Sie Kueue, um Jobs in Warteschlangen zu orchestrieren.

Nächste Schritte

Folgen Sie der Anleitung unter TPU-Arbeitslasten in GKE bereitstellen, um Cloud TPU mit GKE einzurichten.
Best Practices für die Verwendung von Cloud TPU für Ihre Machine Learning-Aufgaben
Umfangreiches maschinelles Lernen auf Cloud TPUs mit GKE erstellen
Large Language Models mit KubeRay auf TPUs bereitstellen

TPUs in GKE planen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

TPU-Konfiguration planen

GKE-Betriebsmodus auswählen

Option für die TPU-Nutzung auswählen

TPU-Version auswählen

Standard

Autopilot

Beschränkungen

TPU-Verfügbarkeit in GKE prüfen

Standard

Autopilot

Topologie auswählen

Standard

Autopilot

Erweiterte Konfigurationen

KI-Zonen

TPUs in GKE automatisch skalieren

Zusätzlichen Speicher für einen TPU-Slice bereitstellen

CPU für Standardcluster

Unterbrechungen von Arbeitslasten reduzieren

Störungen aufgrund von Knotenwartungen verarbeiten

TPU-Auslastung maximieren

Nächste Schritte

TPUs in GKE planen