Tensor Processing Units (TPUs) sind von Google speziell entwickelte, anwendungsspezifische integrierte Schaltungen (Application-Specific Integrated Circuits, ASICs), die verwendet werden, um die beim maschinellen Lernen (ML) und bei der künstlichen Intelligenz (KI) entstehenden Arbeitslasten zu beschleunigen. Ob Sie komplexe Foundation Models wochenlang trainieren oder groß angelegte Inferenz ausführen, TPUs bieten skalierbare, spezialisierte Rechenressourcen, die für Frameworks wie JAX und PyTorch optimiert sind.
Cloud TPUs sind für die anspruchsvollsten KI-Arbeitslasten konzipiert. Die wichtigsten Vorteile sind:
Für Matrixberechnungen optimiert: TPUs sind speziell mit Matrix Multiply Units (MXUs) ausgestattet, um die massiven Matrixvorgänge , die für ML-Algorithmen grundlegend sind, mit außergewöhnlicher Effizienz auszuführen.
Speicher mit hoher Bandbreite (High Bandwidth Memory, HBM): Mit dem On-Chip-Speicher mit hoher Bandbreite können Sie größere Modelle trainieren und bereitstellen und größere Batchgrößen effektiv nutzen.
Massive Skalierbarkeit mit Slices: TPU-Chips können in Gruppen verbunden werden , die als Slices bezeichnet werden. Mit den Slices können Ihre Arbeitslasten auf Tausende von TPU-Chips skaliert werden, um massive Trainingsjobs zu bewältigen.
Verwendung von TPUs
TPUs sind für bestimmte Arbeitslasten optimiert, z. B. für die folgenden:
- Modelle, die von Matrixberechnungen dominiert werden
- Modelle ohne benutzerdefinierte PyTorch-/JAX-Vorgänge innerhalb der Haupttrainingsschleife
- Modelle, die Wochen oder Monate lang trainiert werden
- Große Modelle mit großen, effektiven Batchgrößen
- Modelle mit extrem großen Einbettungen, wie sie bei anspruchsvollen Ranking- und Empfehlungs-Arbeitslasten üblich sind
TPUs sind nicht für die folgenden Arbeitslasten geeignet:
- Lineare Algebraprogramme, die häufige Verzweigungen erfordern oder viele elementweise Algebravorgänge enthalten
- Arbeitslasten, die hochpräzise Arithmetik erfordern
- Neuronale Netzwerkarbeitslasten, die in der Haupttrainingsschleife benutzerdefinierte Vorgänge enthalten
Bereitstellungsoptionen Google Cloud
Je nach Ihren betrieblichen Anforderungen können Sie mit den folgenden Google Cloud Produkten auf TPUs zugreifen und sie bereitstellen.
Compute Engine
Mit der Compute Engine können Sie einzelne TPU-VMs oder -Slices erstellen und verwalten und so den gesamten Lebenszyklus von TPU-VMs verwalten. Google empfiehlt, die Compute Engine anstelle der Legacy Cloud TPU API zu verwenden, um Ihre TPU-Ressourcen bereitzustellen.
Weitere Informationen finden Sie unter Cloud TPU-Ressourcen in der Compute Engine.
Google Kubernetes Engine
Google Kubernetes Engine (GKE) bietet eine vollständig verwaltete Kubernetes-Umgebung mit mehreren Mandanten zum Orchestrieren von KI-Arbeitslasten im großen Maßstab. GKE unterstützt die Lebenszyklusverwaltung von TPU-Knoten und -Knotenpools, einschließlich des Erstellens, Konfigurierens und Löschens von TPU-VMs.
Weitere Informationen finden Sie unter TPUs in GKE.
Cloud TPU
Die Cloud TPU API, einschließlich der Google Cloud CLI und der Cloud-Clientbibliotheken für Cloud TPU, wird nicht mehr weiterentwickelt. Zum Bereitstellen und Verwalten von TPU-Ressourcen empfiehlt Google, je nach Ihren Orchestrierungs- und Arbeitslastanforderungen die Compute Engine oder GKE zu verwenden.
Weitere Informationen finden Sie unter Von der Cloud TPU API migrieren.
In der Compute Engine unterstützte TPU-Versionen
Die Compute Engine unterstützt die folgenden TPU-Versionen:
- TPU7x (Ironwood)
- TPU v6e (Trillium)
- TPU v5p
Weitere Informationen zu den einzelnen TPU-Versionen finden Sie unter TPU-Maschinen.
Nächste Schritte
- Informationen zu Cloud TPU-Ressourcen in der Compute Engine
- Informationen zur TPU-Hardware