TPU 軟體版本

本文提供指南,說明建立 Cloud TPU 時如何選取適當的 TPU 軟體版本。

建立 TPU 資源時,您會指定軟體版本 (也稱為執行階段版本),這是指 TPU VM 上預先安裝的軟體環境。包括 Ubuntu 作業系統、Docker,以及在 TPU 上執行程式碼所需的其他軟體。

如果您使用 Google Cloud CLI,請使用 --version--runtime-version 參數指定 TPU 軟體版本。如果您使用 Google Cloud 控制台,請從「TPU 軟體版本」清單中選取 TPU 軟體版本。

PyTorch 和 JAX

針對 PyTorch 和 JAX 使用下列常見的 TPU 軟體版本,然後安裝要使用的架構。

TPU 版本 TPU 軟體版本
Trillium (v6e) v2-alpha-tpuv6e
v5p v2-alpha-tpuv5
v5e v2-alpha-tpuv5-lite
v4 以上版本 tpu-ubuntu2204-base

如要進一步瞭解如何安裝及開始使用 PyTorch 或 JAX,請參閱「使用 PyTorch 在 Cloud TPU VM 上執行計算 」和「使用 JAX 在 Cloud TPU VM 上執行計算」。

TensorFlow

TensorFlow 的 TPU 軟體版本遵循特定命名慣例:

tpu-vm-tf-x.y.z[-{pod}][-{device_api}]

  • x.y.z:代表 TensorFlow 的主要、次要和修補程式版本。
  • -pod (選用):表示您使用的是多主機 TPU 配量。
  • -{device_api} (選用):指定裝置 API,例如 -pjrt (如果您使用 PJRT API)。

如要進一步瞭解如何指定 TPU 軟體版本,請參閱下列章節。

每個 TensorFlow 版本都有專屬的 TPU 軟體版本。 下表列出支援的 TensorFlow 版本和相關聯的 libtpu 版本:

TensorFlow 版本 libtpu.so 版本
2.18.0 1.12.0
2.17.1 1.11.1
2.17.0 1.11.0
2.16.2 1.10.1
2.16.1 1.10.1
2.15.1 1.9.0
2.15.0 1.9.0
2.14.1 1.8.1
2.14.0 1.8.0
2.13.1 1.7.1
2.13.0 1.7.0
2.12.1 1.6.1
2.12.0 1.6.0
2.11.1 1.5.1
2.11.0 1.5.0
2.10.1 1.4.1
2.10.0 1.4.0
2.9.3 1.3.2
2.9.1 1.3.0
2.8.3 1.2.3
2.8.0 1.2.0
2.7.3 1.1.2

如要進一步瞭解 TensorFlow 修補程式版本,請參閱「支援的 TensorFlow 修補程式版本」。

TPU v6e、v5p 和 v5e

TPU v6e、v5e 和 v5p 支援 TensorFlow 2.15.0 以上版本。您可以使用 tpu-vm-tf-x.y.z-{pod}-pjrt 格式指定 TPU 軟體版本,其中 x 是 TensorFlow 主要版本,y 是次要版本,z 則是 TensorFlow 修補程式版本。如果您使用多主機 TPU,請在 TensorFlow 版本後新增 pod。舉例來說,如果您在多主機 TPU 上使用 TensorFlow 2.16.0,請使用 tpu-vm-tf-2.16.0-pod-pjrt TPU 軟體版本。如要使用其他 TensorFlow 版本,請將 2.16.0 替換為您使用的 TensorFlow 主要和修補程式版本。如果使用單一主機 TPU,請省略 pod

TPU v4

如果您使用 TPU v4 和 TensorFlow 2.10.1 以上版本,請按照 TPU v2 和 v3 的操作說明進行。如果您使用 TensorFlow 2.10.0 以下版本,請使用 v4 專屬的 TPU 軟體版本:

TensorFlow 版本 TPU 軟體版本
2.10.0 tpu-vm-tf-2.10.0-v4
tpu-vm-tf-2.10.0-pod-v4
2.9.3 tpu-vm-tf-2.9.3-v4
tpu-vm-tf-2.9.3-pod-v4
2.9.2 tpu-vm-tf-2.9.2-v4
tpu-vm-tf-2.9.2-pod-v4
2.9.1 tpu-vm-tf-2.9.1-v4
tpu-vm-tf-2.9.1-pod-v4

TPU v2 和 v3

如果您使用 TPU v2 或 v3,請使用與 TensorFlow 版本相符的 TPU 軟體版本。舉例來說,如果您使用 TensorFlow 2.14.1,請使用 tpu-vm-tf-2.14.1 TPU 軟體版本。如要使用其他 TensorFlow 版本,請將 2.14.1 替換為您使用的 TensorFlow 版本。如果您使用多主機 TPU,請在 TPU 軟體版本結尾附加 pod,例如 tpu-vm-tf-2.14.1-pod

從 TensorFlow 2.15.0 開始,您也必須在軟體版本名稱中指定裝置 API。舉例來說,如果您使用 TensorFlow 2.16.1 和 PJRT API,請使用 TPU 軟體版本 tpu-vm-tf-2.16.1-pjrt。如果您使用相同 TensorFlow 版本的串流執行器 API,請使用 tpu-vm-tf-2.16.1-se TPU 軟體版本。舊版 TensorFlow (2.15.0 以前) 僅支援串流執行器。

TensorFlow PJRT 支援

從 TensorFlow 2.15.0 開始,您可以在 TPU 上使用 TensorFlow 的 PJRT 介面。PJRT 具備自動裝置記憶體重整功能,可簡化硬體與架構的整合。如要進一步瞭解 PJRT,請參閱「PJRT:簡化 ML 硬體和架構整合」。

加速器 功能 支援 PJRT 支援串流執行器
TPU v2 - v4 密集運算 (無 TPU 嵌入 API)
TPU v2 - v4 密集運算 API + TPU 嵌入 API
TPU v2 - v4 搭配軟體裝置放置功能使用 tf.summary/tf.print
TPU v5e 密集運算 (無 TPU 嵌入 API)
TPU v5e TPU 嵌入 API 不適用
TPU v5p 密集運算 (無 TPU 嵌入 API)
TPU v5p TPU 嵌入 API

後續步驟

  • 如要進一步瞭解 TPU 架構,請參閱「TPU 架構」。
  • 如要瞭解 Cloud TPU 適用的模型類型,請參閱「何時使用 TPU」一節。