規劃 Cloud TPU 資源
本頁面說明如何規劃 Tensor Processing Unit (TPU) 用量。
選擇使用選項
使用選項是指取得及使用運算資源的方式。您可以根據速度、時間長度、成本和先占容許度等需求,要求 Cloud TPU VM 容量。選項包括:
- 隨選:標準即付即用執行個體。
- Spot VM:價格較低的先占執行個體。使用先占配額。
- 彈性啟動型 VM:視需要預留容量,最多 7 天,無需長期預留或複雜的配額管理。
- 預留項目:預留特定時間長度 (最多 90 天或 1 年以上) 的容量,確保可用性。使用以量計價的配額。
如果是 TPU v6e 和後續世代,您也可以搭配使用 GKE 和 TPU Cluster Director。這項功能適用於「所有容量」模式的預訂。您可充分運用預留容量,並全面掌握 TPU 的硬體配置、使用情形和健康狀態。詳情請參閱「所有容量模式總覽」。
下表根據 TPU 用量方案的運作方式、理想用途、支援的 TPU 版本和可用區,以及所需配額類型,比較各方案。
| 用量方案 | 運作方式 | 最適用 | 支援的 TPU 版本和可用區 | Cloud TPU API 的配額類型 |
|---|---|---|---|---|
| 一年或更長時間的未來預留項目 |
提前申請 TPU 資源,供一年以上使用。這些資源會在該期間內完全保留給您使用。 預留項目可提供最高層級的容量保證,且價格比隨選資源更低。 未來的 TPU 預留項目會提供承諾使用折扣 (CUD)。 購買承諾使用合約後,即可享有 CUD 折扣價。詳情請參閱「 一年以上的未來預留項目」 |
一年以上的未來預留項目非常適合長期執行的訓練工作和推論工作負載。 | 所有 TPU 版本:請參閱 TPU 區域和可用區 | 隨選配額 |
| 最多 90 天的未來預留項目 (日曆模式) |
您可以要求在特定開始時間使用 TPU 資源,並指定使用時間長度 (1 到 90 天)。這些資源會在該期間內完全保留給您使用。詳情請參閱「日曆模式的未來預留項目 (最多 90 天)」一文。 預留項目可提供最高層級的容量保證,且價格比隨選資源更低。 |
日曆模式的未來預留項目適合需要精確開始時間且有明確時長的訓練和實驗工作負載。 |
TPU7x (Ironwood) 訓練和服務:us-central1-c v6e (Trillium) 用於訓練和服務:asia-northeast1-b、us-east5-a v5p,用於訓練和提供服務:us-east5-a v5e 訓練:us-west4-a v5e (用於服務):us-central1-a |
無須配額 |
| 隨選 |
您可以申請 TPU 資源,並在需要時立即使用。 隨選方案的彈性相當高,隨選資源不會遭到搶占,但系統無法保證有足夠的可用 TPU 資源來滿足您的要求。建立 TPU 資源時,預設會選擇「隨選」。如要進一步瞭解如何建立及使用隨選 TPU,請參閱「建立 TPU VM」。 |
隨選模式適合緊急工作,以及需要彈性結束時間的工作負載。 | 所有 TPU 版本:請參閱 TPU 區域和可用區 | 隨選配額 |
| 彈性啟動 (預覽版) |
您可以要求 TPU 資源一段指定時長 (最多七天),不必預先預留容量。 TPU 彈性啟動 VM 是從專屬的容量集區提供,因此這些資源的可用性高於隨選資源。詳情請參閱「要求 TPU Flex-start VM」。 如要進一步瞭解如何搭配使用 TPU 彈性啟動 VM 與 Google Kubernetes Engine (GKE),請參閱 這篇文章,瞭解如何透過彈性啟動佈建模式佈建 GPU 和 TPU。 |
彈性啟動 VM 非常適合用於實驗、小規模測試、為推論工作負載動態佈建 TPU、模型微調,以及執行時間少於七天的工作負載。 |
TPU7x (Ironwood):us-central1-c (僅限使用 GKE) v6e (Trillium):asia-northeast1-b、us-east5-a v5p:us-east5-a v5e:us-west4-a |
先占配額 |
| Spot |
您申請的 TPU 資源可能會遭到先占。 Spot VM 的價格明顯比隨選資源低。Spot VM 通常比隨選資源更容易取得,但隨時可能遭到先占 (關機)。執行階段時長沒有限制。如要進一步瞭解 TPU Spot VM,請參閱「 管理 TPU Spot VM」。 |
Spot 適合排程優先順序較低的工作負載,例如模型預先訓練、模型微調,以及能容忍可用性中斷的模擬工作。 | 所有 TPU 版本:請參閱 TPU 區域和可用區 | 先占配額 |
申請 TPU 配額
如要使用 TPU VM,無論採用哪種用量方案,您都需要 Cloud TPU 核心或晶片的隨選或先占配額。請確認所選選項、TPU 版本、大小和可用區有足夠配額。配額適用於各個 TPU 版本,且隨選和先占用量的配額不同。部分 TPU 版本有預設配額,其他版本則必須申請配額。詳情請參閱「Cloud TPU 配額」。
如果您搭配 Google Kubernetes Engine (GKE) 使用 TPU,則需要 Compute Engine API 配額,而非標準 TPU API 配額。如要進一步瞭解 GKE 中的 TPU 配額,請參閱「確認您有 TPU 配額」。
選擇 TPU 版本
根據模型的訓練或推論需求,選取 TPU 版本,例如 v5e、v5p、v6e 或 TPU7x (Ironwood)。詳情請參閱 TPU 版本。
後續步驟