MIG 中的工作負載政策簡介

本文說明搭配代管執行個體群組 (MIG) 使用工作負載政策時,適用的規定和限制。根據預設,您只能透過指定 Compute Engine 執行個體的區域,管理執行個體的位置。工作負載政策可讓您定義區域內運算執行個體的實體位置和拓撲。舉例來說,您可以將運算執行個體放在彼此相近的位置,盡量減少網路延遲時間。

您只能將工作負載政策套用至使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High (8 個 GPU) 或 H4D 執行個體的 MIG。如果您使用 A4X Max 或 A4X 執行個體,除非是為了測試而建立單一運算執行個體,否則必須採用工作負載政策。對於其他支援的機器系列,工作負載政策為選用功能。

如要控管使用其他機器系列的運算執行個體配置,請使用配置政策

瞭解工作負載政策

以下各節說明工作負載政策的使用案例,以及建立工作負載政策時指定的屬性。

管理運算執行個體位置和拓撲

建立工作負載政策並套用至 MIG 後,工作負載政策可協助您達成下列目標:

  • 建立彼此靠近的運算執行個體:如果容量足夠,Compute Engine 會建立彼此靠近的運算執行個體。否則,Compute Engine 只會建立部分或全部您要求的運算執行個體。

  • 掌握運算執行個體拓撲:將高處理量 (HIGH_THROUGHPUT) 類型的負載政策套用至 MIG,且 MIG 建立運算執行個體後,您就能查看運算執行個體彼此間的位置。這項資訊有助於減少網路延遲並排解錯誤。詳情請參閱「查看 Compute Engine 執行個體拓撲」。

您可以將相同的工作負載政策套用至多個 MIG。這麼做時,Compute Engine 會分別對每個 MIG 套用放置規則。

以下說明建立工作負載政策時必須指定的屬性。

設定工作負載政策屬性

建立工作負載政策時,您必須指定下列屬性:

  • 工作負載類型 (type):這個欄位定義叢集的高階目標。您只能指定 HIGH_THROUGHPUT,指示 Compute Engine 盡可能將運算執行個體放在一起,以加快通訊速度。

  • 根據 MIG 中運算執行個體使用的機器系列,您可以選擇指定下列其中一個屬性:

    • 加速器拓撲 (acceleratorTopology):這項屬性可協助您為分散式工作負載實現高效能,這些工作負載會在多個 A4X Max 或 A4X 執行個體上執行,並使用專用的加速器間網路設定。詳情請參閱「加速器拓撲屬性」。

    • 拓撲距離上限 (maxTopologyDistance):這項屬性會定義建立 A4、A3 Ultra、A3 Mega、A3 High (8 個 GPU) 或 H4D 執行個體的嚴格實體界線,例如相同區塊或子區塊。如果 Compute Engine 因資源可用性錯誤而無法滿足這項嚴格限制,則只會建立部分或完全不建立您要求的運算執行個體。詳情請參閱拓撲距離上限屬性

加速器拓撲屬性

為實現大規模無阻斷的網路效能,Compute Engine 會將 A4X Max 和 A4X 執行個體整理成區塊子區塊的實體階層。

如要使用 A4X Max 或 A4X 執行個體建立 MIG,您必須將工作負載政策套用至 MIG,並指定加速器拓撲 (acceleratorTopology) 屬性。這項屬性會定義運算執行個體切片的實體網路設定。切片可做為單一的大型加速器,為分散式 AI 或機器學習工作負載提供最大處理量。

下表列出工作負載政策支援的加速器拓撲值,以及支援的機器系列:

加速器拓撲值 說明 支援的機器系列 運算執行個體數量上限
1x72 Compute Engine 會將運算執行個體劃分為 18 個運算執行個體密集分配的子區塊,總共 72 個 GPU。由於每個子區塊都需要專屬的 MIG,因此每個 MIG 最多可建立 18 個運算執行個體。完整區塊包含 25 個 MIG,總共 450 個運算執行個體。 A4X Max 和 A4X 18

如要進一步瞭解 A4X Max 和 A4X 執行個體,請參閱「A4X Max 和 A4X 機器系列」。

拓撲距離上限屬性

在 MIG 中建立及套用工作負載政策時,Compute Engine 會盡力將運算執行個體建立在相近位置。如果您需要區域內的最大緊密度,建議指定拓撲距離上限 (maxTopologyDistance) 屬性。拓撲距離上限值會指定在相同叢集區塊子區塊中建立 A4、A3 Ultra、A3 Mega、A3 High (8 個 GPU) 或 H4D 執行個體。

下表列出拓撲距離最大值,以及支援的機器系列:

拓撲距離值上限 說明 支援的機器系列 運算執行個體數量上限
未指定 (不建議) Compute Engine 會盡量將運算執行個體放在最近的位置,但不會保證可用區中運算執行個體之間的距離上限。 A4、A3 Ultra、A3 Mega、A3 High (8 個 GPU) 和 H4D 1,500
CLUSTER Compute Engine 會在叢集內的相鄰區塊中建立運算執行個體。 A4 和 H4D 1,500
BLOCK Compute Engine 會在同一個區塊中建立運算執行個體。 A4、A3 Ultra、A3 Mega、A3 High (8 個 GPU) 或 H4D
  • A4 或 H4D:150
  • A3 Ultra、A3 Mega 或 A3 High (8 個 GPU): 256
SUBBLOCK Compute Engine 會在同一個子區塊中建立運算執行個體,盡可能縮短網路延遲時間。 A4、A3 Ultra 和 H4D 22

定價

建立、刪除或將工作負載政策套用至 MIG,都不會產生額外費用。

限制

MIG 的工作負載政策有以下限制:

  • 只有在 MIG 中沒有運算執行個體時,才能套用工作負載政策至現有 MIG,或變更其工作負載政策。

  • 您只能將工作負載政策套用至 MIG,且 MIG 必須使用下列機器類型和佈建模式組合的運算執行個體:

    機器系列 佈建模型
    A4、A3 Ultra 和 H4D 彈性啟動
    A4、A3 Ultra、A3 Mega、A3 High (8 個 GPU) 和 H4D Spot
    A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High (8 個 GPU) 和 H4D 取決於預留項目
  • 只有在 MIG 使用下列分配目標型態時,您才能將工作負載政策套用至區域性 MIG:

    • 針對設有目標大小的 MIGANYANY_SINGLE_ZONE

    • 如果是 MIG 大小調整要求ANY_SINGLE_ZONE

  • 工作負載政策建立後即無法更新。

  • 如果 MIG 使用工作負載政策,您就無法設定第二個執行個體範本。

  • 工作負載政策和配置政策無法同時使用。

後續步驟