TPU 叢集導向器總覽

TPU 叢集導向器可讓您直接控管 Google Cloud AI 加速器,並根據預訂情況進行調度。對於 Cloud TPU,叢集導向器基礎功能提供的新服務層級,不僅超越多租戶服務,還能提供實體隔離的 TPU 容量:

  • 專屬的實體共置容量:我們現在提供密集的共置 TPU 預訂,讓您完全掌控硬體,獲得最佳網路效能和工作負載排程。
  • 進階維護與控制:您可以精確控制維護事件,指定特定 VM、Cube、Pod 或整個預留空間,並管理這些事件的順序和步調,盡量減少對業務的影響。
  • 拓撲感知排程:全面掌握硬體的實體拓撲、健康狀態和使用率,進而更智慧地安排工作負載,提升效能。

Cluster Director 基礎架構與 Google Kubernetes Engine 完全整合。這項整合功能提供多種功能,可提升大規模 AI 工作負載的效能:

  • 提升效率、容錯能力和韌性:為嚴苛的 AI 工作提供穩健的環境。
  • 拓撲感知節點集區和工作負載放置位置。- 共置密集預訂可讓您指定特定 Pod 或 Cube。這可實現更精細的工作負載排程。

透過 GKE 上的 Cluster Director 基礎架構,您可以提高工作負載的利用率、效能和擴充性,改善輸送量和可靠性,並全面監控實體容量 (從主機到 GKE 叢集)。

您可以使用新的「所有容量」模式預留項目,在 GKE 上使用 TPU 叢集導向器基礎架構。

所有容量模式

先前,TPU 運算資源是以「受管理」模式提供,也就是說,Google 會自動更換任何故障的 TPU 機器,但會保留部分預留運算資源,確保 TPU 節點有足夠的資源可重新啟動。Google 現在推出新的 TPU 容量模式,稱為「All Capacity」模式。在這個容量模式中,您可以完整掌握 TPU 硬體拓撲、使用率狀態,以及預留容量的健康狀態。您也可以存取所有預留容量,但要負責管理故障和排定的維護作業。

「所有容量模式」的主要功能包括:

  • 完全掌控及掌握情況:您可以完全掌控預留容量,並全面掌握硬體健康狀態和拓撲。這表示您可以查看所有可用容量 (包括保留容量),並直接管理機器故障。
  • 專屬容量:您可以存取專屬容量,隨時用於 AI 工作負載。在沒有保留的情況下,您可獲得完整容量,因此預測性更高,分配量也更大,也就是說,您可以充分運用預留的 TPU 容量。現在,您也可以使用預留容量執行優先順序較低的工作負載。
  • 最佳化效能:TPU All Capacity 模式提供大型加速器資源的密集共置,以及超低延遲網路,這對於大規模、緊密耦合的 ML 和 HPC 工作負載至關重要。這項架構經過最佳化調整,可大幅提升訓練和推論工作負載的效能。

支援的 TPU 代別

TPU All Capacity 模式和功能適用於 Trillium (TPU v6e)、TPU Ironwood (TPU7x) 和未來幾代的 TPU。我們沒有計畫支援舊版 TPU。

TPU Cluster Director 術語

Cluster Director 拓撲概念包含四個層級:叢集區塊子區塊主機。叢集是 Google 的部署單位,以 Pod 倍數為單位,提供實體 TPU 容量。叢集中的所有 TPU 容量都位於同一區域。在「所有容量」模式中,TPU 預留項目一律位於一個叢集內。對於 TPU,其餘拓撲概念會對應至實體元件,如下表所示。

Trillium

拓撲概念 Trillium 核心 晶片 主機
--- 晶片 1 1 不適用
主機 主機 8 8 1
子模塊 Trillium Pod 256 256 32
封鎖 預留項目中的多個 Trillium Pod (最多 16 個)

最多 4096 個

最多 4096 個

最多 512 個

--- 子區塊中允許的切片 1x1、2x2、2x4、4x4、4x8、8x8、8x16 和 16x16
--- 一項預約可包含多個區塊,每個區塊可有 1 到 16 個 Trillium Pod

如要進一步瞭解 Trillium 配量大小,請參閱「Trillium 支援的設定」。

鐵木

拓撲概念 Ironwood 核心 晶片 主機
--- 晶片 2 1 ---
主機 主機 8 4 1
SubBlock 方塊 128 64 16
封鎖 多個 Ironwood 立方體,最多可達一個完整的 Pod 最多 9216 個 (144 個立方體) 最多 2304 個
--- 區塊中允許的 Slice:範例 1x1x1、2x2x1、2x2x2、2x4x4、4x4x4、8x8x8、16x8x8、16x16x8 和 12x24x24 (還有更多)
--- 一個預訂項目可包含一或多個 Ironwood 立方體,最多可包含整個 Ironwood Pod。

如要進一步瞭解 Ironwood 切片大小,請參閱「支援的 TPUv7x 設定」。