Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

TPUs in Google Cloud

Tensor Processing Units (TPUs) sind von Google speziell entwickelte, anwendungsspezifische integrierte Schaltungen (Application-Specific Integrated Circuits, ASICs), die verwendet werden, um die beim maschinellen Lernen (ML) und bei der künstlichen Intelligenz (KI) entstehenden Arbeitslasten zu beschleunigen. Ob Sie komplexe Foundation Models wochenlang trainieren oder groß angelegte Inferenz ausführen, TPUs bieten skalierbare, spezialisierte Rechenressourcen, die für Frameworks wie JAX und PyTorch optimiert sind.

Cloud TPUs sind für die anspruchsvollsten KI-Arbeitslasten konzipiert. Die wichtigsten Vorteile sind:

Für Matrixberechnungen optimiert: TPUs sind speziell mit Matrix Multiply Units (MXUs) ausgestattet, um die massiven Matrixvorgänge , die für ML-Algorithmen grundlegend sind, mit außergewöhnlicher Effizienz auszuführen.
Speicher mit hoher Bandbreite (High Bandwidth Memory, HBM): Mit dem On-Chip-Speicher mit hoher Bandbreite können Sie größere Modelle trainieren und bereitstellen und größere Batchgrößen effektiv nutzen.
Massive Skalierbarkeit mit Slices: TPU-Chips können in Gruppen verbunden werden , die als Slices bezeichnet werden. Mit den Slices können Ihre Arbeitslasten auf Tausende von TPU-Chips skaliert werden, um massive Trainingsjobs zu bewältigen.

Verwendung von TPUs

TPUs sind für bestimmte Arbeitslasten optimiert, z. B. für die folgenden:

Modelle, die von Matrixberechnungen dominiert werden
Modelle ohne benutzerdefinierte PyTorch-/JAX-Vorgänge innerhalb der Haupttrainingsschleife
Modelle, die Wochen oder Monate lang trainiert werden
Große Modelle mit großen, effektiven Batchgrößen
Modelle mit extrem großen Einbettungen, wie sie bei anspruchsvollen Ranking- und Empfehlungs-Arbeitslasten üblich sind

TPUs sind nicht für die folgenden Arbeitslasten geeignet:

Lineare Algebraprogramme, die häufige Verzweigungen erfordern oder viele elementweise Algebravorgänge enthalten
Arbeitslasten, die hochpräzise Arithmetik erfordern
Neuronale Netzwerkarbeitslasten, die in der Haupttrainingsschleife benutzerdefinierte Vorgänge enthalten

Bereitstellungsoptionen Google Cloud

Je nach Ihren betrieblichen Anforderungen können Sie mit den folgenden Google Cloud Produkten auf TPUs zugreifen und sie bereitstellen.

Compute Engine

Mit der Compute Engine können Sie einzelne TPU-VMs oder -Slices erstellen und verwalten und so den gesamten Lebenszyklus von TPU-VMs verwalten. Google empfiehlt, die Compute Engine anstelle der Legacy Cloud TPU API zu verwenden, um Ihre TPU-Ressourcen bereitzustellen.

Weitere Informationen finden Sie unter Cloud TPU-Ressourcen in der Compute Engine.

Google Kubernetes Engine

Google Kubernetes Engine (GKE) bietet eine vollständig verwaltete Kubernetes-Umgebung mit mehreren Mandanten zum Orchestrieren von KI-Arbeitslasten im großen Maßstab. GKE unterstützt die Lebenszyklusverwaltung von TPU-Knoten und -Knotenpools, einschließlich des Erstellens, Konfigurierens und Löschens von TPU-VMs.

Weitere Informationen finden Sie unter TPUs in GKE.

Cloud TPU

Die Cloud TPU API, einschließlich der Google Cloud CLI und der Cloud-Clientbibliotheken für Cloud TPU, wird nicht mehr weiterentwickelt. Zum Bereitstellen und Verwalten von TPU-Ressourcen empfiehlt Google, je nach Ihren Orchestrierungs- und Arbeitslastanforderungen die Compute Engine oder GKE zu verwenden.

Weitere Informationen finden Sie unter Von der Cloud TPU API migrieren.

In der Compute Engine unterstützte TPU-Versionen

Die Compute Engine unterstützt die folgenden TPU-Versionen:

TPU7x (Ironwood)
TPU v6e (Trillium)
TPU v5p

Weitere Informationen zu den einzelnen TPU-Versionen finden Sie unter TPU-Maschinen.

Nächste Schritte

Informationen zu Cloud TPU-Ressourcen in der Compute Engine
Informationen zur TPU-Hardware

TPUs in Google Cloud Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.