規劃 Cloud TPU 資源
本頁面說明如何規劃 Tensor Processing Unit (TPU) 用量。
選擇使用選項
「使用選項」是指取得及使用運算資源的方式。您可以根據速度、時間長度、費用和先占容許度等需求,要求 Cloud TPU VM 容量。選項包括:
- 隨選:標準的即付即用執行個體。
- Spot VM:價格較低的先占執行個體。使用先占配額。
- 彈性啟動 VM:視需要預留容量,最多 7 天,無需長期預留或複雜的配額管理。
- 預留項目:預留特定時間長度 (最多 90 天或 1 年以上) 的容量,確保可用性。使用以量計價的配額。
下表根據 TPU 用量方案的運作方式、理想用途,以及支援的 TPU 版本和可用區,比較各方案。
| 計費方案 | 運作方式 | 最適用 | 支援的 TPU 版本和可用區 |
|---|---|---|---|
| 一年以上的未來預留項目 |
提前申請 TPU 資源,供一年以上使用。這些資源會在該期間內完全保留給您使用。 預留項目可確保您取得容量,且價格比隨選資源更低。 未來的 TPU 預留項目會提供承諾使用折扣 (CUD)。 購買承諾使用合約後,即可享有 CUD 折扣價。詳情請參閱「 一年以上的未來預留項目」 |
一年以上的未來預留項目非常適合長期執行的訓練工作和推論工作負載。 | 所有 TPU 版本:請參閱 TPU 區域和可用區 |
| 最多 90 天的未來預留項目 (日曆模式) |
您可以要求在特定開始時間使用 TPU 資源,並指定使用時間長度 (1 到 90 天)。在該期間內,這些資源會保留供您專屬使用。詳情請參閱「未來預留項目最多可提前 90 天預訂 (日曆模式)」一文。 保留項目可確保您取得容量,且價格比隨選資源更低。 |
日曆模式的未來預留項目適合需要精確開始時間且有明確時長的訓練和實驗工作負載。 |
TPU7x (Ironwood) 適用於訓練和服務:us-central1-c v6e (Trillium) 訓練和服務:asia-northeast1-b、us-east5-a v5p 訓練和服務:us-east5-a |
| 隨選 |
您可以盡快申請到可用的 TPU 資源,只要有需要,就能持續保留這些資源。 隨選方案的彈性相當高,隨選資源不會遭到搶占,但系統無法保證有足夠的可用 TPU 資源來滿足您的要求。建立 TPU 資源時,預設會選擇「隨選」。如要進一步瞭解如何建立及使用隨選 TPU,請參閱「建立 TPU VM」。 |
隨選適合緊急工作和需要彈性結束時間的工作負載。 | 所有 TPU 版本:請參閱 TPU 區域和可用區 |
| 彈性啟動 (預覽版) |
您可以要求 TPU 資源一段指定時長 (最多七天),不必預先預留容量。 TPU 彈性啟動 VM 是從專屬的容量集區提供,因此這些資源的可用性高於隨選資源。詳情請參閱「要求 TPU Flex-start VM」。 如要進一步瞭解如何搭配 Google Kubernetes Engine (GKE) 使用 TPU 彈性啟動 VM,請參閱「 關於使用彈性啟動佈建模式佈建 GPU 和 TPU」。 |
彈性啟動 VM 非常適合用於實驗、小規模測試、為推論工作負載動態佈建 TPU、模型微調,以及執行時間少於七天的工作負載。 |
TPU7x (Ironwood):us-central1-c (僅限使用 GKE) v6e (Trillium):asia-northeast1-b、us-east5-a v5p:us-east5-a |
| Spot |
您申請的 TPU 資源可能會遭到搶占。 Spot VM 的價格明顯比隨選資源低。Spot VM 通常比隨選資源更容易取得,但隨時可能遭到先占 (關機)。執行階段時長沒有限制。如要進一步瞭解 TPU Spot VM,請參閱「 管理 TPU Spot VM」。 |
Spot 適合排程優先程度較低的工作負載,例如模型預先訓練、模型微調,以及能容忍可用性中斷的模擬工作。 | 所有 TPU 版本:請參閱 TPU 區域和可用區 |
選擇 TPU 版本
根據模型的訓練或推論需求,選取 TPU 版本,例如 v5p、v6e 或 TPU7x (Ironwood)。詳情請參閱「TPU 版本」。
申請 TPU 配額
如要使用 TPU VM,無論採用哪種用量方案,您都需要 Cloud TPU 資源的隨選或先占配額。請確認所選選項、TPU 版本、大小和可用區有足夠配額。配額適用於各個 TPU 版本,且隨選和先占用量的配額不同。部分 TPU 版本有預設配額,其他版本則必須申請配額。詳情請參閱 Compute Engine 配額。
後續步驟