TPU 叢集管理員總覽

TPU Cluster Director 的設計宗旨是讓您直接根據預訂情況,控管 Google Cloud AI 加速器。對於 Cloud TPU,叢集導向器基礎功能提供的服務層級超越多租戶規格,可提供實體隔離的 TPU 容量:

  • 專屬的實體共置容量:您可預訂共置的密集 TPU,完全掌控硬體,以獲得最佳網路效能和工作負載排程。
  • 進階維護與控制:您可以精確控制維護事件,指定特定 VM、Cube、Pod 或整個預留空間,並管理這些事件的順序和步調,盡量減少對業務的影響。
  • 拓撲感知排程:全面掌握硬體的實體拓撲、健康狀態和使用率,進而更智慧地安排工作負載,提升效能。

Cluster Director 基礎架構與 Google Kubernetes Engine 完全整合。這項整合功能提供多項功能,可提升大規模 AI 工作負載的效能:

  • 提升效率、容錯能力和韌性:為高負載的 AI 工作提供穩固的環境。
  • 拓撲感知節點集區和工作負載佈建:共置密集預留可讓您指定特定 Pod 或立體。這可實現更精細的工作負載排程。

在 GKE 上使用 Cluster Director 基礎架構,可提高工作負載的利用率、效能和擴充性,改善有效輸送量和可靠性,並全面監控實體容量 (從主機到 GKE 叢集)。

您可以使用新的「所有容量」模式預留功能,在 GKE 上使用 TPU Cluster Director 基礎架構。

所有容量模式

根據預設,TPU 容量會以「受管理」模式提供,也就是 Google 會自動更換任何故障的 TPU 機器,但會保留部分預留容量,確保 TPU 節點有足夠的資源重新啟動。TPU 還有另一種容量模式,稱為「All Capacity」模式。在這個容量模式中,您可以完整掌握 TPU 硬體拓撲、使用率狀態,以及預留容量的健康狀態。您也可以存取所有預留容量,但要負責管理故障和排定的維護作業。

All Capacity 模式的主要功能包括:

  • 完全掌控及掌握情況:您可以完全掌控預留容量,並全面掌握硬體健康狀態和拓撲。這表示您可以查看所有可用容量 (包括保留容量),並直接管理機器故障。
  • 專屬容量:您可以存取專屬容量,隨時用於 AI 工作負載。在沒有保留的情況下,您可獲得完整容量,因此預測性更高,分配量也更大,也就是說,您可以充分運用預留的 TPU 容量。現在,您也可以使用預留容量執行優先順序較低的工作負載。
  • 最佳化效能:TPU All Capacity 模式提供大型加速器資源的密集共置,以及超低延遲網路,這對於大規模、緊密耦合的 ML 和 HPC 工作負載至關重要。這項架構經過最佳化調整,可大幅提升訓練和推論工作負載的效能。

支援的 TPU 代別

TPU 全容量模式和功能適用於 Trillium (TPU v6e)、TPU Ironwood (TPU7x) 和未來幾代的 TPU。舊版 TPU 不支援 TPU All Capacity 模式。

TPU Cluster Director 術語

Cluster Director 拓撲包含四個層級:叢集區塊子區塊主機。叢集是 Google 的部署單元,以 Pod 倍數形式提供實體 TPU 容量。叢集中的所有 TPU 容量都位於同一區域。在「所有容量」模式中,TPU 預留項目一律位於一個叢集內。對於 TPU,其餘拓撲概念會對應至實體元件,如下表所示。

Trillium

拓撲概念 Trillium 核心 晶片 主機
--- 晶片 1 1 不適用
主機 主機 8 8 1
子模塊 Trillium Pod 256 256 32
封鎖 預留項目中的多個 Trillium Pod (最多 16 個)

最多 4096 個

最多 4096 個

最多 512 個

--- 子區塊中允許的切片 1x1、2x2、2x4、4x4、4x8、8x8、8x16 和 16x16
--- 一項預約可包含多個區塊,每個區塊可有 1 到 16 個 Trillium Pod

如要進一步瞭解 Trillium 配量大小,請參閱「Trillium 支援的設定」。

Ironwood

拓撲概念 Ironwood 核心 晶片 主機
--- 晶片 2 1 ---
主機 主機 8 4 1
子模塊 方塊 128 64 16
封鎖 多個 Ironwood 立方體,最多可達一個完整的 Pod 最多 9216 個 (144 個立方體) 最多 2304 個
--- 區塊中允許的切片大小示例 1x1x1、2x2x1、2x2x2、2x4x4、4x4x4、8x8x8、16x8x8、16x16x8 和 12x24x24 (以及更多)
--- 預訂項目可包含一或多個 Ironwood 立方體,最多可預訂整個 Ironwood Pod。

如要進一步瞭解 Ironwood 切片大小,請參閱「支援的 TPU7x 設定」。