MIG 中的 TPU 執行個體

代管執行個體群組 (MIG) 可自動建立、設定及管理一組 VM 的生命週期。MIG 可透過自動修復和區域 (多可用區) 部署功能提供高可用性,自動調度資源功能可處理變動的工作負載,並簡化應用程式的滾動式更新。詳情請參閱「代管執行個體群組」。

您可以透過 MIG 建立及管理 TPU VM,適用於 TPU 第 5 代第 6 階段以上的版本。 您可以建立具有單一 TPU VM 的 MIG、獨立 TPU VM (也稱為單一主機切片),以及具有互連 TPU VM 的 MIG (也稱為多主機切片)。

單一主機 MIG 中的每個切片最多有一個 TPU VM。MIG 內的 TPU VM 不會透過晶片間互連 (ICI) 連結連線。

多主機配量包含多個透過 ICI 連結互連的 TPU VM。

具有單一 TPU VM 執行個體的 MIG

如要使用 MIG 建立及管理個別 TPU VM,請將 MIG 的目標大小設為 1。如要使用 MIG 功能 (例如單一執行個體的自動修復功能),這種做法就相當實用。詳情請參閱「建立具有單一主機 TPU 節點的 MIG」。

搭配單一主機 TPU 配量的 MIG

建立具備多個獨立 TPU 執行個體的代管執行個體群組 (MIG),有助於處理需要多個個別 TPU VM 的工作負載,但不需要透過 ICI 連結互連,以處理分散式工作負載。例如:

  • 推論服務:MIG 中的每個 VM 都能獨立處理推論要求。您可以透過 MIG 根據需求調度服務執行個體數量,並以群組形式管理這些執行個體。
  • 平行獨立工作:MIG 可管理許多小型獨立的訓練工作或其他運算,這些工作可在單一 TPU VM 上平行執行。
  • 管理:MIG 提供下列功能:
    • 部署:定義執行個體範本一次,然後使用 MIG 建立多個相同的 TPU VM。
    • 可擴充性:調整 MIG 大小,即可調整 TPU VM 數量。
    • 滾動式更新:以受控方式更新所有 VM 的軟體或機型。
  • 成本效益:對於不需要大型 TPU 配量完整效能或互連性的工作,使用多個較小的獨立 TPU 配量可能更具成本效益。

詳情請參閱「使用單一主機 TPU 節點建立 MIG」。

具備多主機配量的 MIG

與獨立 TPU 配量群組不同,為多主機配量設定的 MIG 會管理透過 ICI 連結緊密耦合的一組 TPU VM。這會建立單一邏輯 TPU 配量。

優點和成效

多主機 TPU 節點的 MIG 可提供密集型機器學習工作負載所需的規模和效能。

  • 分散式訓練:訓練機器學習模型通常需要比單一 TPU VM 提供的更多 TPU 運算能力。較大的 TPU 配量會將運算作業分配至多個 TPU 晶片和 VM,並透過 ICI 連結在這些資源之間快速通訊。這對訓練成效至關重要。
  • 高互連頻寬:與標準資料中心網路 (DCN) 相比,ICI 網路在配量中的 TPU 晶片之間提供更高的頻寬和更低的延遲。這對於大型模型訓練中常見的同步作業至關重要。

不可分割的生命週期作業

為確保互連拓撲的完整性,MIG 會在整個生命週期中,將整個切片視為單一不可分割的單元進行管理。

  • 建立:系統會一併佈建切片中的所有 VM。如果沒有足夠的健康互連容量可供整個要求的拓撲使用,就不會建立切片。
  • 刪除:MIG 會以單元形式刪除整個切片。
  • 調整大小:調整大小時,只能從 0 縮放至完整切片大小,或是從完整切片大小縮放回 0。您無法部分調整多部 VM 切片的尺寸。

設定需求

如要設定多主機 MIG,必須定義實體互連拓撲和個別執行個體屬性。

  • 工作負載政策:您必須使用 accelerator-topology 參數指定工作負載政策 (例如 4x4、8x8 或 4x4x4)。這會將 MIG 設定為將執行個體視為單一互連的切片。如要瞭解拓撲,請參閱「TPU 拓撲」。
  • 執行個體範本:定義每個 VM 的屬性,例如機型、磁碟映像檔和其他設定。

配量可用性和故障復原

使用 MIG 建立多主機 TPU 配量時,MIG 會自動管理配量復原程序。如果發生主機或 ICI 故障,切片就會轉換為 REACTIVATING 狀態。切片中的所有 VM 都會轉換為 REPAIRING 狀態,但不一定會同時轉換。接著,MIG 會在健康容量上自動重新啟動 VM,以還原切片。

不過,使用 Spot VM 時,先占會導致執行個體終止。MIG 不會自動重新啟用切片。

從執行個體中斷事件復原

如果刪除或停止 TPU 執行個體,或是從作業系統內停止執行個體,則該節點會轉換為 FAILED 狀態。在這種情況下,切片會保持 FAILED 狀態,直到您重新建立切片為止。如要重新建立切片,您必須刪除並重新建立 MIG,或是將 MIG 大小調整為 0,然後再增加大小。

如要進一步瞭解切片狀態,請參閱「查看 TPU 切片狀態」。

限制

以下各節說明使用 TPU VM 建立 MIG 的限制。

執行個體範本的限制

指定 TPU 機型的執行個體範本有下列限制:

  • 使用取決於預留項目佈建模式時,您必須將執行個體終止動作設為刪除。

  • TPU 只能使用明確指定的預留項目

  • 您無法指定配置政策

  • 使用執行個體範本為多主機 TPU 節點建立 MIG 時,您無法將 scheduling.automaticRestart 欄位設為 false,藉此停用自動重新啟動功能。這項限制適用於標準、彈性啟動和取決於預留項目佈建模式。

MIG 的限制

使用 TPU 的 MIG 有下列限制:

  • 生命週期作業:您無法停止、啟動、繼續或暫停 TPU 執行個體。如要變更需要重新啟動的設定,或停止產生費用,請刪除執行個體。

  • 區域性 MIG 可用區分配:您必須將目標分配型態設為 ANY_SINGLE_ZONE

  • MIG 中的設定更新

    • 由於定義的加速器拓撲,您無法更新構成多主機 TPU 節點的 MIG。
    • 如要更新構成單一主機 TPU 節點的 MIG,請使用自動或選擇性方法。 不過,單一主機 TPU 節點的更新作業不支援重新啟動 (RESTART) 動作。如果必須重新啟動,但允許的最大干擾動作是取代 (REPLACE),則更新程式會取代執行個體;否則,更新嘗試會失敗並顯示錯誤訊息。

  • 如果 MIG 構成多主機 TPU 配量,也會受到下列限制:

    • 目標大小政策:您必須將目標大小政策模式設為 BULK。模式設定後即無法變更。

    • 目標大小:在大量模式中,您可以將目標大小設為 0,或是形成加速器拓撲所需的執行個體數量。

    • 工作負載政策:您必須指定定義加速器拓撲的工作負載政策。設定工作負載政策後,就無法變更或移除 MIG 的政策。

  • 不支援的功能:使用 TPU 的 MIG 不支援下列功能:

後續步驟