密集配置政策和工作負載政策總覽

本文將概要說明密集配置政策和工作負載政策,並比較兩者。這兩項政策都可讓您設定 Compute Engine 執行個體的放置位置,盡量減少網路延遲。

根據預設,您只需指定運算執行個體的區域,即可管理執行個體的位置。使用未來預留或代管執行個體群組 (MIG) 大小調整要求取得 A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機型時,您收到的運算執行個體會密集共置。不過,您可能會想將特定運算執行個體放在一起,以提升執行個體間的效能。如要將運算執行個體放在更靠近的位置,您可以將密集配置政策套用至運算執行個體,或將工作負載政策套用至 MIG。

運算執行個體的密集配置政策

將密集配置政策套用至獨立運算執行個體,或大量建立的運算執行個體時,Compute Engine 會盡可能建立彼此靠近的運算執行個體。如果應用程式需要最低網路延遲時間,請在建立密集配置政策時,指定 maxDistance 欄位 (預覽版)。

詳情請參閱 Compute Engine 說明文件中的「關於密集配置政策」。

MIG 適用的工作負載政策

將工作負載政策套用至 MIG 時,您可以指定 MIG 中運算執行個體的放置位置和基礎架構。搭配使用工作負載政策與 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU),即可盡量減少運算執行個體之間的網路延遲,並提升效能。

視 MIG 中運算執行個體使用的機型而定,在下列情況中,工作負載政策為必要或選用:

  • 如要部署 A4X Max 或 A4X 執行個體的子區塊,必須使用工作負載政策。

  • 如要使用 A4、A3 Ultra、A3 Mega 或 A3 High (8 個 GPU) 執行個體,工作負載政策為選用項目。

詳情請參閱 Compute Engine 說明文件中的「關於 MIG 中的工作負載政策」。

密集配置政策與工作負載政策比較

下表摘要列出精簡放置政策與工作負載政策的差異:

密集配置政策 工作負載政策
政策使用情況
  • 獨立執行個體
  • 使用大量 API 部署的執行個體
代管執行個體群組 (MIG)
支援的機器類型 A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High、A3 Edge、A2 和 G2
  • 彈性啟動:A4 和 A3 Ultra
  • 適用於 Spot 或預訂:A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU)
分組語意

Compute Engine 會將使用相同密集配置政策的執行個體配置在相近的位置。

建議您為每個工作負載使用不同的放置位置政策。在執行不同工作負載的執行個體之間重複使用配置政策,會導致所有這些執行個體都放置在一起。當您水平擴展特定工作負載時,這種共置可能會導致難以建立彼此靠近的執行個體。

Compute Engine 會將使用工作負載政策的 MIG 中的執行個體放置在更靠近的位置。

在執行不同工作負載的多個 MIG 中重複使用工作負載政策,會將個別 MIG 中的執行個體放在一起。如果訓練模型很大,且每組執行個體都必須彼此隔離,就非常適合重複使用。

運算執行個體共置設定

如要盡量將運算執行個體放在同一位置,請將 groupPlacementPolicy.collocation 欄位設為 COLLOCATED

如要盡量將運算執行個體共置,請將 workloadPolicy.type 欄位設為 HIGH_THROUGHPUT

其他設定
  • 如要嚴格限制運算執行個體的放置位置,請指定 maxDistance 欄位。
  • 對於支援分割的 GPU 系列 (例如 A4X),請指定 gpuTopology 欄位。
  • 如要嚴格限制運算執行個體的放置位置,請指定 maxTopologyDistance 欄位。
  • 對於支援分割的 GPU 系列 (例如 A4X),請指定 acceleratorTopology 欄位。

比較最大距離值

最大距離值越低,運算執行個體的位置越靠近,但也會增加無法建立部分運算執行個體的可能性。

下表列出機器系列,以及每個最大距離值支援的運算執行個體數量:

maxDistance 密集配置政策 工作負載政策中的 maxTopologyDistance 說明 支援的機器系列 運算執行個體數量上限
未指定 (不建議) 未指定 (不建議) Compute Engine 會盡量將運算執行個體放在彼此附近,但運算執行個體之間的距離沒有上限。 A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High (8 個 GPU) 1500
3 CLUSTER Compute Engine 會在相鄰的區塊中建立運算執行個體。 A4 1,500
2 BLOCK Compute Engine 會在同一個區塊中建立運算執行個體。 A4 和 A3 Ultra
  • A4 執行個體:150
  • A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 執行個體:256
1 SUBBLOCK Compute Engine 會在同一個子區塊中建立運算執行個體。 A4 和 A3 Ultra 22

後續步驟