管理 TPU 資源
本頁說明如何列出、停止、啟動、刪除及連線至 TPU VM。
必要條件
執行這些程序之前,請先完成下列步驟:
如「設定 TPU 專案」一文所述,為 TPU 建立 Google Cloud 專案。 Google Cloud
如「規劃 Cloud TPU 資源」一文所述,判斷 TPU 需求。
如「建立 TPU VM」一文所述,建立 TPU VM。
如果您使用其中一個 Cloud 用戶端程式庫,請按照所用語言的設定說明操作:
設定環境變數。
export TPU_NAME=your-tpu-name export ZONE=your-zone
連線至 Cloud TPU
您可以使用 SSH 連線至 Cloud TPU。
如果無法使用 SSH 連線至 TPU VM,可能是因為 TPU VM 沒有外部 IP 位址。如要存取沒有外部 IP 位址的 TPU VM,請按照「連線至沒有公開 IP 位址的 TPU VM」一文中的操作說明進行。
gcloud
使用 SSH 連線至 Cloud TPU:
$ gcloud compute tpus tpu-vm ssh $TPU_NAME --zone=$ZONE
如果要求的配量大於單一主機,Cloud TPU 會為每個主機建立 TPU VM。每個主機的 TPU 晶片數量取決於 TPU 版本。
如要安裝二進位檔或執行程式碼,請使用 tpu-vm ssh 指令連線至每個 TPU VM。
$ gcloud compute tpus tpu-vm ssh $TPU_NAME --zone=$ZONE
如要使用 SSH 連線至特定 TPU VM,請使用 --worker 旗標和以 0 為基準的索引:
$ gcloud compute tpus tpu-vm ssh $TPU_NAME --zone=$ZONE --worker=1
如要在所有 TPU VM 上執行指令,請使用 --worker=all 和 --command 標記:
$ gcloud compute tpus tpu-vm ssh $TPU_NAME \ --zone=$ZONE \ --worker=all \ --command='pip install "jax[tpu]==0.4.20" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
如果是 Multislice,您可以使用列舉的 TPU 名稱在單一 VM 上執行指令,每個切片的前置字串和編號都會附加至該名稱。如要在所有切片的所有 TPU VM 上執行指令,請使用 --node=all、--worker=all 和 --command 標記,並視需要使用 --batch-size 標記。
$ gcloud compute tpus queued-resources ssh your-queued-resource-id \ --zone=$ZONE \ --node=all \ --worker=all \ --command='pip install jax[tpu] -f https://storage.googleapis.com/jax-releases/libtpu_releases.html' \ --batch-size=4
使用 Google Cloud CLI 連線至 VM 時,Compute Engine 會建立永久 SSH 金鑰。
控制台
如要透過 Google Cloud 控制台連線至 TPU,請在瀏覽器中使用 SSH:
前往 Google Cloud 控制台的「TPUs」頁面:
在 TPU VM 清單中,找到要連線的 TPU VM,然後按一下該列中的「SSH」SSH。
透過 Google Cloud 控制台連線至 TPU VM 時,Compute Engine 會建立暫時性 SSH 金鑰。
列出 Cloud TPU 資源
您可以列出指定區域中的所有 Cloud TPU 資源。
gcloud
$ gcloud compute tpus tpu-vm list --zone=$ZONE
控制台
前往 Google Cloud 控制台的「TPUs」頁面:
Java
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Node.js
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
擷取 Cloud TPU 資訊
您可以擷取特定 Cloud TPU 的相關資訊。
gcloud
$ gcloud compute tpus tpu-vm describe $TPU_NAME \ --zone=$ZONE
控制台
前往 Google Cloud 控制台的「TPUs」頁面:
按一下 Cloud TPU 的名稱。主控台會顯示 Cloud TPU 詳細資料頁面。
Java
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Node.js
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
停止 Cloud TPU 資源
您可以停止單一 Cloud TPU,避免產生費用,同時保留 VM 設定和軟體。
已加入佇列的資源 API 不支援停止 TPU 配量或 TPU。如要停止透過排入佇列的資源 API 分配 TPU 的計費,請刪除 TPU。
gcloud
$ gcloud compute tpus tpu-vm stop $TPU_NAME \ --zone=$ZONE
控制台
前往 Google Cloud 控制台的「TPUs」頁面:
選取 Cloud TPU 旁的核取方塊。
按一下 「停止」。
Java
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Node.js
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
啟動 Cloud TPU 資源
您可以啟動已停止的 Cloud TPU。
佇列資源 API 不支援啟動 TPU Pod 或 TPU。
gcloud
$ gcloud compute tpus tpu-vm start $TPU_NAME \ --zone=$ZONE
控制台
前往 Google Cloud 控制台的「TPUs」頁面:
選取 Cloud TPU 旁的核取方塊。
按一下「開始」。
Java
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Node.js
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
刪除 Cloud TPU
工作階段結束後,請刪除 TPU VM 節點。
gcloud
$ gcloud compute tpus tpu-vm delete $TPU_NAME \ --zone=$ZONE \ --quiet
指令旗標說明
zone:您要刪除 Cloud TPU 的區域。quiet:執行 gcloud CLI 指令時,停用所有互動式提示。
控制台
前往 Google Cloud 控制台的「TPUs」頁面:
選取 Cloud TPU 旁的核取方塊。
按一下「刪除」圖示 。
Java
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Node.js
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python
如要向 Cloud TPU 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
後續步驟
- 瞭解如何設定網路並存取 Cloud TPU
- 瞭解排入佇列的資源。
- 瞭解 GKE 中的 TPU。
- 瞭解如何在 TPU VM 上執行 JAX 程式碼。
- 瞭解如何在 TPU VM 上執行 PyTorch 程式碼。
- 瞭解如何在 TPU 上執行 ML 工作負載:使用 vLLM 在 TPU 上提供 Qwen2-72B-Instruct。