網路和 GPU 機器

本文說明附加 GPU 的 Compute Engine 執行個體網路頻寬功能和設定。瞭解各種 GPU 機型的最大網路頻寬、網路介面卡 (NIC) 配置,以及建議使用的 VPC 網路設定,包括 A4X Max、A4X、A4、A3、A2、G4、G2 和 N1 系列。瞭解這些設定有助於在 Compute Engine 上,為分散式工作負載提升效能。

連線 GPU 的運算執行個體可用的網路頻寬上限如下:

  • A4X Max (NVIDIA GB300 Ultra Superchips):最高 3,600 Gbps
  • A4X (NVIDIA GB200 Superchip):最高 2,000 Gbps
  • A4 (NVIDIA B200):最高 3,600 Gbps
  • A3 Ultra (NVIDIA H200):最高 3,600 Gbps
  • A3 Mega (NVIDIA H100):最高 1,600 Gbps
  • A3 High (NVIDIA H100):最高 1,000 Gbps
  • A3 Edge (NVIDIA H100):最高 800 Gbps
  • G4 (NVIDIA RTX PRO 6000):最高 400 Gbps
  • A2 (NVIDIA A100) 和 G2 (NVIDIA L4):最高 100 Gbps
  • 搭載 NVIDIA T4 或 V100 GPU 的 N1:視 GPU 和 vCPU 數量組合而定,最高可達 100 Gbps
  • 搭載 NVIDIA P100 或 P4 GPU 的 N1:32 Gbps

檢查網路頻寬和 NIC 配置

請參閱下節,瞭解各 GPU 機器類型的網路配置和頻寬速度。

A4X Max 和 A4X 機型

A4X Max 和 A4X 系列機器均以 NVIDIA Blackwell 架構為基礎,專為大規模分散式 AI 工作負載而設計。兩者之間的主要差異在於所連結的加速器和網路硬體,如下表所示:

A4X Max 機器系列 A4X 系列機器
附加硬體 NVIDIA GB300 Ultra Superchips NVIDIA GB200 超級晶片
GPU 對 GPU 網路 4 個 NVIDIA ConnectX-8 (CX-8) SuperNIC,在 8 向軌道對齊拓撲中提供 3,200 Gbps 頻寬 4 個 NVIDIA ConnectX-7 (CX-7) NIC,可在 4 向軌道對齊拓撲中提供 1,600 Gbps 頻寬
一般用途網路 2 個 Titanium 智慧型 NIC,提供 400 Gbps 頻寬 2 個 Titanium 智慧型 NIC,提供 400 Gbps 頻寬
網路頻寬總上限 3,600 Gbps 2,000 Gbps

多層式網路架構

A4X Max 和 A4X 運算執行個體採用多層級階層式網路架構,並以軌道對齊設計為基礎,可針對各種通訊類型最佳化效能。在這個拓撲中,執行個體會透過多個獨立網路平面 (稱為「軌道」) 連線。

  • A4X Max 執行個體採用 8 向軌道對齊拓撲,其中四個 800 Gbps ConnectX-8 NIC 各自連接至兩個獨立的 400 Gbps 軌道。
  • A4X 執行個體使用 4 向軌道對齊拓撲,其中四個 ConnectX-7 NIC 各自連接至不同的軌道。

這些機器類型的網路層如下:

  • 節點內和子區塊內通訊 (NVLink):高速 NVLink 結構會互連 GPU,以實現高頻寬、低延遲的通訊。這個架構會連結單一執行個體中的所有 GPU,並延伸至子區塊,其中包含 18 個 A4X Max 或 A4X 執行個體 (總共 72 個 GPU)。這樣一來,子區塊中的所有 72 個 GPU 就能相互通訊,就像位於單一的大型 GPU 伺服器中一樣。

  • 子區塊間通訊 (使用 RoCE 的 ConnectX NIC):如要將工作負載擴展到單一子區塊以外,這些機器會使用 NVIDIA ConnectX NIC。這些 NIC 會使用 RDMA over Converged Ethernet (RoCE),在子區塊之間提供高頻寬、低延遲的通訊,讓您建構數千個 GPU 的大規模訓練叢集。

  • 一般用途網路 (Titanium 智慧型 NIC):除了專用 GPU 網路,每個執行個體還有兩個 Titanium 智慧型 NIC,可為一般網路工作提供總計 400 Gbps 的頻寬。包括儲存、管理及連線至其他 Google Cloud 服務或公用網際網路的流量。

A4X Max 架構

A4X Max 架構以 NVIDIA GB300 Ultra Superchip 為基礎建構而成。這項設計的主要特色是將四個 800 Gbps NVIDIA ConnectX-8 (CX-8) SuperNIC 直接連線至 GPU。這些 NIC 屬於 8 向軌道對齊網路拓撲,每個 NIC 都會連線至兩個獨立的 400 Gbps 軌道。這個直接路徑可啟用 RDMA,為不同子區塊之間的 GPU 對 GPU 通訊提供高頻寬和低延遲。這些 Compute Engine 執行個體也包含高效能本機 SSD,這些 SSD 會連線至 ConnectX-8 NIC,略過 PCIe 匯流排,加快資料存取速度。

A4X Max 的網路架構,顯示四個用於 GPU 通訊的 NIC,以及兩個用於一般網路的 Titanium NIC。
圖 1:單一 A4X Max 主機的網路架構

A4X 架構

A4X 架構採用 NVIDIA GB200 Superchip。在這個設定中,四個 NVIDIA ConnectX-7 (CX-7) NIC 會連線至主機 CPU。這個設定可為子區塊之間的 GPU 對 GPU 通訊提供高效能網路。

A4X 的網路架構,顯示四個用於 GPU 通訊的 NIC,以及兩個用於一般網路的 Titanium NIC。
圖 2. 單一 A4X 主機的網路架構

A4X Max 和 A4X 虛擬私有雲 (VPC) 網路設定

如要充分運用這些機型的網路功能,您必須建立虛擬私有雲網路,並將其附加至執行個體。如要使用所有可用的 NIC,請按照下列方式建立 VPC 網路:

  • Titanium Smart NIC 的兩個一般 VPC 網路

  • 建立多個 A4X Max 或 A4X 子區塊的叢集時,ConnectX NIC 需要一個具有 RoCE 網路設定檔的虛擬私有雲網路RoCE 虛擬私有雲網路必須為每個網路軌道提供一個子網路。也就是說,A4X Max 執行個體有八個子網路,A4X 執行個體則有四個子網路。如果您使用單一子區塊,可以省略這個 VPC 網路,因為多節點 NVLink 網狀架構會處理 GPU 對 GPU 的直接通訊。

如要設定這些網路,請參閱 AI Hypercomputer 說明文件中的「建立虛擬私有雲網路」。

A4X Max 和 A4X 機型

A4X Max

附加的 NVIDIA Grace Blackwell Ultra Superchip
機型 vCPU 數量1 執行個體記憶體 (GB) 已連結的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3e)
a4x-maxgpu-4g-metal 144 960 12,000 6 3,600 4 1,116

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

A4X

已連結 NVIDIA GB200 Grace Blackwell 超級晶片
機型 vCPU 數量1 執行個體記憶體 (GB) 已連結的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3e)
a4x-highgpu-4g 140 884 12,000 6 2,000 4 744

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

A4 和 A3 Ultra 機型

A4 機型連接的是 NVIDIA B200 GPU,A3 Ultra 機型連接的則是 NVIDIA H200 GPU。

這些機器類型提供八張 NVIDIA ConnectX-7 (CX-7) 網路介面卡 (NIC) 和兩張 Google 虛擬 NIC (gVNIC)。八個 CX-7 NIC 可提供總計 3,200 Gbps 的網路頻寬。這些 NIC 專用於高頻寬 GPU 對 GPU 通訊,無法用於其他網路需求,例如存取公開網際網路。如下圖所示,每個 CX-7 NIC 都與一個 GPU 對齊,以最佳化非一致性記憶體存取 (NUMA)。八個 GPU 之間可透過 NVLink 橋接器快速通訊。另外兩張 gVNIC 網路介面卡是智慧型 NIC,可額外提供 400 Gbps 的網路頻寬,滿足一般用途的網路需求。這些網路介面卡加總起來,可為這些機器提供 3,600 Gbps 的網路頻寬上限。

A4 和 A3 Ultra 的網路架構,顯示八個用於 GPU 通訊的 CX-7 NIC,以及兩個用於一般網路的 gVNIC。
圖 3. 單一 A4 或 A3 Ultra 主機的網路架構

如要使用這些多個 NIC,您需要建立 3 個虛擬私有雲網路,如下所示:

  • 兩個一般虛擬私有雲網路:每個 gVNIC 都必須連接至不同的虛擬私有雲網路
  • 一個 RoCE VPC 網路:所有八個 CX-7 NIC 共用同一個 RoCE VPC 網路

如要設定這些網路,請參閱 AI Hypercomputer 說明文件中的「建立虛擬私有雲網路」。

A4

已連結的 NVIDIA B200 Blackwell GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 已連結的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3e)
a4-highgpu-8g 224 3,968 12,000 10 3,600 8 1,440

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

A3 Ultra

已附加的 NVIDIA H200 GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 已連結的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3e)
a3-ultragpu-8g 224 2,952 12,000 10 3,600 8 1128

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

A3 Mega、High 和 Edge 機型

這類機型連接 H100 GPU。這些機型都配備固定數量的 GPU、vCPU 和記憶體。

  • 單一 NIC A3 VM:如果 A3 VM 附加 1 到 4 個 GPU,則只有單一實體網路介面卡 (NIC) 可用。
  • 多 NIC A3 VM:對於附加 8 個 GPU 的 A3 VM,可使用多個實體 NIC。在這些 A3 機型中,NIC 會在周邊元件互連高速 (PCIe) 匯流排上排列,如下所示:
    • A3 Mega 機器類型:提供 8+1 的 NIC 配置。 採用這種配置時,8 個 NIC 會共用同一個 PCIe 匯流排,1 個 NIC 則位於不同的 PCIe 匯流排上。
    • A3 High 機型:提供 4+1 的 NIC 配置。 這樣一來,4 個 NIC 會共用同一個 PCIe 匯流排,1 個 NIC 則位於另一個 PCIe 匯流排。
    • A3 Edge 機型:提供 4+1 的 NIC 配置。 這樣一來,4 個 NIC 會共用同一個 PCIe 匯流排,而 1 個 NIC 則位於另一個 PCIe 匯流排上。 這 5 個 NIC 可為每個 VM 提供 400 Gbps 的總網路頻寬。

    共用相同 PCIe 匯流排的 NIC,每個 NVIDIA H100 GPU 都有一個 NIC 的非一致性記憶體存取 (NUMA) 對齊。這些 NIC 非常適合專屬的高頻寬 GPU 對 GPU 通訊。位於獨立 PCIe 匯流排上的實體 NIC 非常適合其他網路需求。如需設定 A3 High 和 A3 Edge VM 網路的操作說明,請參閱設定巨型封包 MTU 網路

A3 Mega

附加的 NVIDIA H100 GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 已連結的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3)
a3-megagpu-8g 208 1,872 6,000 9 1,800 8 640

A3 High

附加的 NVIDIA H100 GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 已連結的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1,500 1 50 2 160
a3-highgpu-4g 104 936 3,000 1 100 4 320
a3-highgpu-8g 208 1,872 6,000 5 1,000 8 640

A3 Edge

附加的 NVIDIA H100 GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 已連結的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3)
a3-edgegpu-8g 208 1,872 6,000 5
  • 800:適用於 asia-south1 和 northamerica-northeast2
  • 400:適用於所有其他 A3 Edge 區域
8 640

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

A2 機型

每個 A2 機型都配備固定數量的 NVIDIA A100 40GB 或 NVIDIA A100 80 GB GPU。每個機型也都有固定的 vCPU 數量和記憶體大小。

A2 系列機器分為兩種:

  • A2 Ultra:這類機型連接 A100 80GB GPU 和本機 SSD 磁碟。
  • A2 Standard:這類機型連接 A100 40GB GPU。

A2 Ultra

已連結 NVIDIA A100 80GB GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 已連結的本機 SSD (GiB) 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM2e)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1,500 50 4 320
a2-ultragpu-8g 96 1,360 3,000 100 8 640

A2 Standard

已連結 NVIDIA A100 40GB GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 支援本機 SSD 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM2)
a2-highgpu-1g 12 85 24 1 40
a2-highgpu-2g 24 170 32 2 80
a2-highgpu-4g 48 340 50 4 160
a2-highgpu-8g 96 680 100 8 320
a2-megagpu-16g 96 1,360 100 16 640

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

G4 機型

G4 加速器最佳化 機型使用 NVIDIA RTX PRO 6000 Blackwell Server Edition GPU (nvidia-rtx-pro-6000), 適合用於 NVIDIA Omniverse 模擬工作負載、需要大量繪圖資源的應用程式、影片轉碼和虛擬桌面。與 A 系列機型相比,G4 機型也提供低成本解決方案,可執行單一主機推論和模型微調。

已連結的 NVIDIA RTX PRO 6000 GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 支援的 Titanium SSD 容量上限 (GiB)2 實體 NIC 數量 網路頻寬上限 (Gbps)3 GPU 數量 GPU 記憶體4
(GB GDDR7)
g4-standard-48 48 180 1,500 1 50 1 96
g4-standard-96 96 360 3,000 1 100 2 192
g4-standard-192 192 720 6,000 1 200 4 384
g4-standard-384 384 1,440 12,000 2 400 8 768

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2建立 G4 執行個體時,可以新增 Titanium SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型
3輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。
4GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

G2 機型

G2 加速器最佳化機型連接的是 NVIDIA L4 GPU,非常適合用於成本最佳化的推論、需要處理大量圖形,以及高效能運算工作負載。

每個 G2 機型也都有預設記憶體和自訂記憶體範圍。自訂記憶體範圍會定義每個機型可分配給執行個體的記憶體大小。您也可以在建立 G2 執行個體時新增本機 SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型

如要為大多數 GPU 執行個體套用較高的網路頻寬速率 (50 Gbps 以上),建議使用 Google 虛擬 NIC (gVNIC)。如要進一步瞭解如何建立使用 gVNIC 的 GPU 執行個體,請參閱建立使用較高頻寬的 GPU 執行個體

附加的 NVIDIA L4 GPU
機型 vCPU 數量1 預設執行個體記憶體 (GB) 自訂執行個體記憶體範圍 (GB) 支援的最大本機 SSD (GiB) 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3 (GB GDDR6)
g2-standard-4 4 16 16 至 32 375 10 1 24
g2-standard-8 8 32 32 到 54 375 16 1 24
g2-standard-12 12 48 48 到 54 歲 375 16 1 24
g2-standard-16 16 64 54 到 64 375 32 1 24
g2-standard-24 24 96 96 至 108 750 32 2 48
g2-standard-32 32 128 96 到 128 375 32 1 24
g2-standard-48 48 192 192 至 216 1,500 50 4 96
g2-standard-96 96 384 384 到 432 3,000 100 8 192

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

N1 + GPU 機器類型

如果 N1 一般用途虛擬機器 (VM) 執行個體附加 T4 和 V100 GPU,則網路頻寬上限最高可達 100 Gbps,實際頻寬取決於 GPU 和 vCPU 數量組合。如要瞭解其他 N1 GPU 執行個體,請參閱「總覽」。

請參閱下節,根據 GPU 型號、vCPU 和 GPU 數量,計算 T4 和 V100 執行個體可用的網路頻寬上限。

少於 5 個 vCPU

如果 T4 和 V100 執行個體的 vCPU 數量為 5 個以下,則網路頻寬上限為 10 Gbps。

超過 5 個 vCPU

如果 T4 和 V100 執行個體的 vCPU 數量超過 5 個,系統會根據該 VM 的 vCPU 和 GPU 數量,計算網路頻寬上限。

如要為大多數 GPU 執行個體套用較高的網路頻寬速率 (50 Gbps 以上),建議使用 Google 虛擬 NIC (gVNIC)。如要進一步瞭解如何建立使用 gVNIC 的 GPU 執行個體,請參閱建立使用較高頻寬的 GPU 執行個體

GPU 模型 GPU 數量 計算最大網路頻寬
NVIDIA V100 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 32)
4 min(vcpu_count * 2, 50)
8 min(vcpu_count * 2, 100)
NVIDIA T4 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 50)
4 min(vcpu_count * 2, 100)

MTU 設定和 GPU 機器類型

如要提高網路總處理量,請為虛擬私有雲網路設定較高的最大傳輸單位 (MTU) 值。MTU 值越高,封包大小就越大,封包標頭的負擔也會減少,進而提高酬載資料的總處理量。

如果是 GPU 機器類型,建議您為虛擬私有雲網路採用下列 MTU 設定。

GPU 機器類型 建議的 MTU (以位元組為單位)
一般虛擬私有雲網路 RoCE 虛擬私有雲網路
  • A4X Max
  • A4X
  • A4
  • A3 Ultra
8896 8896
  • A3 Mega
  • A3 High
  • A3 Edge
8244 不適用
  • A2 Standard
  • A2 Ultra
  • G4
  • G2
  • 支援 GPU 的 N1 機器類型
8896 不適用

設定 MTU 值時,請注意下列事項:

  • 8192 是兩個 4 KB 頁面。
  • 如果 GPU NIC 已啟用標頭分割功能,建議在 A3 Mega、A3 High 和 A3 Edge VM 中使用 8244。
  • 除非表格另有註明,否則請使用 8896 這個值。

建立高頻寬 GPU 機器

如要建立使用較高網路頻寬的 GPU 執行個體,請根據機器類型使用下列其中一種方法:

  • 如要建立使用更高網路頻寬的 A2、G2 和 N1 執行個體,請參閱「為 A2、G2 和 N1 執行個體使用更高網路頻寬」。如要測試或驗證這些機器的頻寬速度,可以使用基準測試。詳情請參閱「檢查網路頻寬」。

  • 如要建立使用較高網路頻寬的 A3 Mega 執行個體,請參閱「部署 A3 Mega Slurm 叢集以進行 ML 訓練」。如要測試或驗證這些機器的頻寬速度,請按照「檢查網路頻寬」一文中的步驟,進行基準測試。

  • 如要瞭解如何為使用較高網路頻寬的 A3 High 和 A3 Edge 執行個體啟用 GPUDirect-TCPX,請參閱這篇文章。如要測試或驗證這些機器的頻寬速度,可以使用基準測試。詳情請參閱「檢查網路頻寬」。

  • 如要使用其他加速器最佳化機型,不需要採取任何行動,只要按照文件說明建立執行個體,即可使用高網路頻寬。如要瞭解如何為其他加速器最佳化機型建立執行個體,請參閱「建立附加 GPU 的 VM」。

後續步驟