本文列出 NVIDIA GPU 型號,可用於加速 Compute Engine 執行個體上的機器學習 (ML)、資料處理和圖形密集型工作負載。本文也詳細說明哪些 GPU 預先附加至加速器最佳化機器系列 (例如 A4X Max、A4X、A4、A3、A2、G4 和 G2),以及哪些 GPU 可附加至 N1 一般用途執行個體。
您可以參考這份文件,比較不同 GPU 型號的效能、記憶體和功能。如要進一步瞭解加速器最佳化機器家族,包括 CPU 平台、儲存空間選項和網路功能,以及找出符合工作負載的特定機型,請參閱「加速器最佳化機器家族」。
如要進一步瞭解 Compute Engine 上的 GPU,請參閱「關於 GPU」一文。
如要查看 Compute Engine 中 GPU 的可用區域和可用區,請參閱「GPU 區域和可用區」。
總覽
Compute Engine 提供不同機器類型,支援各種工作負載。
部分機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)。建立使用 NVIDIA RTX Virtual Workstation 的執行個體時,Compute Engine 會自動新增 vWS 授權。如要瞭解虛擬工作站的定價,請參閱 GPU 定價頁面。
| GPU 機器類型 | |||
|---|---|---|---|
| AI 和機器學習工作負載 | 圖形和視覺化 | 其他 GPU 工作負載 | |
|
加速器最佳化 A 系列機器類型專為高效能運算 (HPC)、人工智慧 (AI) 和機器學習 (ML) 工作負載設計。 後續世代的 A 系列非常適合預先訓練和微調基礎模型,這類模型需要大量加速器叢集;而 A2 系列則可用於訓練較小的模型和單一主機推論。 對於這些機器類型,系統會自動將 GPU 型號附加至執行個體。 |
加速器最佳化 G 系列機型專為工作負載設計,例如 NVIDIA Omniverse 模擬工作負載、需要大量圖案的應用程式、影片轉碼和虛擬桌面。這些機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)。 G 系列也可用於訓練較小的模型,以及單一主機推論。 對於這些機器類型,系統會自動將 GPU 型號附加至執行個體。 |
對於 N1 一般用途機器類型 (N1 共用核心除外,即 |
|
|
下列 GPU 型號可附加至 N1 一般用途機器類型:
|
||
您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是經過最佳化調整的超級運算系統,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立密集分配的基礎架構,並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器,以達到最佳效能。
A4X Max 和 A4X 系列機器
A4X Max 和 A4X 系列機器採用以 NVIDIA 的機架規模架構為基礎的百億級平台,並針對運算和記憶體密集型、受網路限制的機器學習訓練和 HPC 工作負載進行最佳化。A4X Max 和 A4X 的主要差異在於 GPU 和網路元件。A4X Max 也提供裸機執行個體,可直接存取主機伺服器的 CPU 和記憶體,不需要 Compute Engine 管理程序層。
A4X Max 機型 (裸機)
A4X Max 加速器最佳化
機型使用 NVIDIA GB300 Grace Blackwell Ultra Superchip (nvidia-gb300),非常適合用於基礎模型訓練和服務。A4X Max 機型可做為裸機執行個體使用。
A4X Max 是以 NVIDIA GB300 NVL72 為基礎的百京級平台。每部機器都有兩個插槽,搭載 NVIDIA Grace CPU 和 Arm Neoverse V2 核心。這些 CPU 會透過快速晶片對晶片 (NVLink-C2C) 通訊,連線至四個 NVIDIA B300 Blackwell GPU。
| 已連結 NVIDIA GB300 Grace Blackwell Ultra Superchip | |||||||
|---|---|---|---|---|---|---|---|
| 機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 附加的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3e) |
a4x-maxgpu-4g-metal |
144 | 960 | 12,000 | 6 | 3,600 | 4 | 1,116 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A4X 機型
A4X 加速器最佳化
機型採用 NVIDIA GB200 Grace Blackwell Superchip (nvidia-gb200),非常適合用於基礎模型訓練和服務。
A4X 是以 NVIDIA GB200 NVL72 為基礎的百京級平台。每部機器都有兩個插槽,搭載 NVIDIA Grace CPU 和 Arm Neoverse V2 核心。這些 CPU 會透過快速晶片對晶片 (NVLink-C2C) 通訊,連線至四個 NVIDIA B200 Blackwell GPU。
| 已連結 NVIDIA GB200 Grace Blackwell 超級晶片 | |||||||
|---|---|---|---|---|---|---|---|
| 機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 附加的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12,000 | 6 | 2,000 | 4 | 744 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A4 系列機型
A4 加速器最佳化機型連接 NVIDIA B200 Blackwell GPU (nvidia-b200),非常適合用於基礎模型訓練和服務。
| 已連結的 NVIDIA B200 Blackwell GPU | |||||||
|---|---|---|---|---|---|---|---|
| 機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 附加的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3,968 | 12,000 | 10 | 3,600 | 8 | 1,440 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A3 系列機器
A3 加速器最佳化機型連接的是 NVIDIA H100 SXM 或 NVIDIA H200 SXM GPU。
A3 Ultra 機型
A3 Ultra 機型連接 NVIDIA H200 SXM GPU (nvidia-h200-141gb),是 A3 系列中網路效能最高的機型。A3 Ultra 機型非常適合基礎模型訓練和服務。
| 已附加的 NVIDIA H200 GPU | |||||||
|---|---|---|---|---|---|---|---|
| 機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 附加的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2,952 | 12,000 | 10 | 3,600 | 8 | 1128 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A3 Mega、High 和 Edge 機型
如要使用 NVIDIA H100 SXM GPU,請選擇下列其中一種做法:
- A3 Mega:這類機型搭載 H100 SXM GPU (
nvidia-h100-mega-80gb),非常適合大規模訓練和服務工作負載。 - A3 High:這類機型配備 H100 SXM GPU (
nvidia-h100-80gb),非常適合用於訓練和服務工作。 - A3 Edge:這類機型搭載 H100 SXM GPU (
nvidia-h100-80gb),專為服務而設計,僅在特定區域提供。
A3 Mega
| 附加的 NVIDIA H100 GPU | |||||||
|---|---|---|---|---|---|---|---|
| 機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 附加的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3) |
a3-megagpu-8g |
208 | 1,872 | 6,000 | 9 | 1,800 | 8 | 640 |
A3 High
| 附加的 NVIDIA H100 GPU | |||||||
|---|---|---|---|---|---|---|---|
| 機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 附加的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3,000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1,872 | 6,000 | 5 | 1,000 | 8 | 640 |
A3 Edge
| 附加的 NVIDIA H100 GPU | |||||||
|---|---|---|---|---|---|---|---|
| 機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 附加的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1,872 | 6,000 | 5 |
|
8 | 640 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A2 系列機器
A2 加速器最佳化機型連接 NVIDIA A100 GPU,非常適合模型微調、大型模型和符合成本效益的推論。
A2 系列提供兩種機型:
- A2 Ultra:這類機型連接 A100 80GB GPU (
nvidia-a100-80gb) 和本機 SSD 磁碟。 - A2 Standard:這類機型連接 A100 40GB GPU (
nvidia-tesla-a100)。建立 A2 Standard 執行個體時,您也可以新增本機 SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型。
A2 Ultra
| 已連結 NVIDIA A100 80GB GPU | ||||||
|---|---|---|---|---|---|---|
| 機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 附加的本機 SSD (GiB) | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1,500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1,360 | 3,000 | 100 | 8 | 640 |
A2 Standard
| 已連結 NVIDIA A100 40GB GPU | ||||||
|---|---|---|---|---|---|---|
| 機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 支援本機 SSD | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | 是 | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | 是 | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | 是 | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | 是 | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1,360 | 是 | 100 | 16 | 640 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
G4 系列機型
G4 加速器最佳化
機型使用
NVIDIA RTX PRO 6000 Blackwell Server Edition GPU (nvidia-rtx-pro-6000),
適合用於 NVIDIA Omniverse 模擬工作負載、需要大量圖形處理的應用程式、影片轉碼和虛擬桌面。與 A 系列機型相比,G4 機型也提供低成本解決方案,可執行單一主機推論和模型調整作業。
G4 系列的主要功能是支援多 GPU 機型 (g4-standard-96、g4-standard-192、g4-standard-384) 的直接 GPU 對等 (P2P) 通訊。這項功能可讓同一執行個體內的 GPU 透過 PCIe 匯流排直接交換資料,不必經過 CPU 主機。如要進一步瞭解 G4 GPU 對等互連通訊,請參閱「G4 GPU 對等互連通訊」。
| 已連結的 NVIDIA RTX PRO 6000 GPU | |||||||
|---|---|---|---|---|---|---|---|
| 機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 支援的 Titanium SSD 容量上限 (GiB)2 | 實體 NIC 數量 | 網路頻寬上限 (Gbps)3 | GPU 數量 | GPU 記憶體4 (GB GDDR7) |
g4-standard-48 |
48 | 180 | 1,500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3,000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6,000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1,440 | 12,000 | 2 | 400 | 8 | 768 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2建立 G4 執行個體時,可以新增 Titanium SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型。
3輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。
4GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
G2 系列機器
G2 加速器最佳化機型連接的是 NVIDIA L4 GPU,非常適合用於成本最佳化的推論、需要大量圖形處理的作業,以及高效能運算工作負載。
每個 G2 機型也都有預設記憶體和自訂記憶體範圍。自訂記憶體範圍會定義每個機器類型可分配給執行個體的記憶體大小。您也可以在建立 G2 執行個體時新增本機 SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型。
| 附加的 NVIDIA L4 GPU | |||||||
|---|---|---|---|---|---|---|---|
| 機型 | vCPU 數量1 | 預設執行個體記憶體 (GB) | 自訂執行個體記憶體範圍 (GB) | 支援的最大本機 SSD (GiB) | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16 至 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 至 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 到 54 歲 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 到 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 至 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 到 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 至 216 | 1,500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 到 432 | 3,000 | 100 | 8 | 192 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
N1 機器系列
您可以將下列 GPU 型號附加至N1 機器類型,但N1 共用核心機器類型除外。
與加速器最佳化機器系列中的機器類型不同,N1 機器類型不會隨附一組固定數量的附加 GPU。而是在建立執行個體時,指定要附加的 GPU 數量。
GPU 數量較少的 N1 執行個體會有 vCPU 數量上限。一般而言,GPU 數量越多,表示您可以建立 vCPU 較多且記憶體較大的執行個體。
N1+T4 GPU
您可以將 NVIDIA T4 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
| 加速器類型 | GPU 數量 | GPU 記憶體1 (GB GDDR6) | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD |
|---|---|---|---|---|---|
nvidia-tesla-t4 或 nvidia-tesla-t4-vws
|
1 | 16 | 1 至 48 | 1 至 312 | 是 |
| 2 | 32 | 1 至 48 | 1 至 312 | 是 | |
| 4 | 64 | 1 至 96 | 1 至 624 | 是 |
1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
N1+P4 GPU
您可以將 NVIDIA P4 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
| 加速器類型 | GPU 數量 | GPU 記憶體1 (GB GDDR5) | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD2 |
|---|---|---|---|---|---|
nvidia-tesla-p4 或 nvidia-tesla-p4-vws
|
1 | 8 | 1 至 24 | 1 至 156 | 是 |
| 2 | 16 | 1 至 48 | 1 至 312 | 是 | |
| 4 | 32 | 1 至 96 | 1 至 624 | 是 |
1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要大量頻寬的圖形密集型工作負載。
2如果執行個體已連結 NVIDIA P4 GPU,則僅在 us-central1-c 和 northamerica-northeast1-b 區域中支援本機 SSD 磁碟。
N1+V100 GPU
您可以將 NVIDIA V100 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
| 加速器類型 | GPU 數量 | GPU 記憶體1 (GB HBM2) | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD2 |
|---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1 至 12 | 1 至 78 | 是 |
| 2 | 32 | 1 至 24 | 1 至 156 | 是 | |
| 4 | 64 | 1 至 48 | 1 至 312 | 是 | |
| 8 | 128 | 1 至 96 | 1 至 624 | 是 |
1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
2對於搭載 NVIDIA V100 GPU 的執行個體,us-east1-c 不支援本機 SSD 磁碟。
N1+P100 GPU
您可以將 NVIDIA P100 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
對於部分 NVIDIA P100 GPU,某些設定的可用 CPU 和記憶體上限取決於 GPU 資源執行的區域。
| 加速器類型 | GPU 數量 | GPU 記憶體1 (GB HBM2) | 可用區 | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD |
|---|---|---|---|---|---|---|
nvidia-tesla-p100 或 nvidia-tesla-p100-vws
|
1 | 16 | 所有 P100 區域 | 1 至 16 | 1 至 104 | 是 |
| 2 | 32 | 所有 P100 區域 | 1 至 32 | 1 至 208 | 是 | |
| 4 | 64 | us-east1-c、europe-west1-d、europe-west1-b |
1 至 64 | 1 至 208 | 是 | |
| 所有其他 P100 區域 | 1 至 96 | 1 至 624 | 是 |
1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
一般比較圖表
下表說明 Compute Engine 上不同 GPU 型號的 GPU 記憶體大小、功能可用性,以及理想的工作負載類型。
| 機器類型 (GPU 型號) | GPU 記憶體 | 互連網路 | 支援 NVIDIA RTX 虛擬工作站 (vWS) | 最適用 |
|---|---|---|---|---|
| A4X Max (GB300) | 279 GB HBM3e @ 8 TBps | NVLink 全網格 @ 1,800 GBps | 大規模分散式訓練和推論 MoE LLM、推薦系統、HPC | |
| A4X (GB200) | 186 GB HBM3e @ 8 TBps | NVLink 全網格 @ 1,800 GBps | 大規模分散式訓練和推論 LLM、推薦系統、HPC | |
| A4 (B200) | 180 GB HBM3e @ 8 TBps | NVLink 全網格 @ 1,800 GBps | 大規模分散式訓練和推論 LLM、推薦系統、HPC | |
| A3 Ultra (H200) | 141 GB HBM3e @ 4.8 TBps | NVLink 全網格 @ 900 GBps | 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、高效能運算、BERT、DLRM | |
| A3 Mega、A3 High、A3 Edge (H100) | 80 GB HBM3 @ 3.35 TBps | NVLink 全網格 @ 900 GBps | 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、高效能運算、BERT、DLRM | |
| A2 Ultra (A100 80GB) | 80 GB HBM2e @ 1.9 TBps | NVLink 全網格 @ 600 GBps | 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、高效能運算、BERT、DLRM | |
| A2 Standard (A100 40GB) | 40 GB HBM2 @ 1.6 TBps | NVLink 全網格 @ 600 GBps | 機器學習訓練、推論、HPC | |
| G4 (RTX PRO 6000) | 96 GB GDDR7 (含 ECC) @ 1597 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC | |
| G2 (L4) | 24 GB GDDR6 @ 300 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC | |
| N1 (T4) | 16 GB GDDR6 @ 320 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼 | |
| N1 (P4) | 8 GB GDDR5 @ 192 GBps | 不適用 | 遠端視覺化工作站、機器學習推論與影片轉碼 | |
| N1 (V100) | 16 GB HBM2 @ 900 GBps | NVLink 環狀拓撲 @ 300 GBps | 機器學習訓練、推論、HPC | |
| N1 (P100) | 16 GB HBM2 @ 732 GBps | 不適用 | 機器學習訓練、推論、HPC、遠端視覺化工作站 |
如要比較 Compute Engine 提供之不同 GPU 型號和地區的 GPU 定價,請參閱 GPU 定價一文。
Tensor Core 和標準 CUDA 核心效能
以下各節將提供各 GPU 架構的效能指標,並區分為向量或標準 CUDA 核心,以及 Tensor Core 效能。
Tensor 核心:Tensor 效能是指專用 Tensor 核心達成的輸送量。這些是專用硬體單元 (通常稱為「矩陣單元」),專門用於加速大型矩陣乘法累加作業,這類作業是深度學習、訓練和推論作業的骨幹。
這類效能最適合用於深度學習、大型語言模型 (LLM),以及任何可表示為密集矩陣運算的工作負載。對於相同資料類型,Tensor Core 的處理量遠高於 CUDA Core。
向量或標準 CUDA 核心:向量效能是指標準 CUDA 核心達成的輸送量。這些是通用單元,採用單一指令、多個執行緒 (SIMT) 模型運作,通常會對個別資料元素或向量執行作業。
這類效能最適合一般運算、圖像算繪,以及不涉及密集矩陣數學的工作負載。
Blackwell 架構
A4X Max、A4X、A4 和 G4 機型採用 NVIDIA 的 Blackwell 架構。
Tensor Core
這些機器類型採用 NVIDIA Blackwell 架構,支援 FP4 精確度的 Tensor Core,並擴充 INT4 功能,可大幅提升大型模型推論效能。
| 機器類型 (GPU 型號) | FP64 (TFLOPS) | TF32 (TFLOPS) | 混合 FP16/32 (TFLOPS) | INT8 (TOPS) | INT4 (TOPS) | FP8 (TFLOPS) | FP4 (TFLOPS) |
|---|---|---|---|---|---|---|---|
| A4X Max (GB300) | 1.3 | 2,500 | 5,000 | 330 | 155 | 10,000 | 15,000 |
| A4X (GB200) | 40 | 2,500 | 5,000 | 10,000 | 20,000 | 10,000 | 10,000 |
| A4 (B200) | 40 | 1,100 | 4,500 | 9,000 | - | 9,000 | - |
| G4 (RTX PRO 6000) | 1.8 | 140 | 935.6 | 1,871.2 | - | - | 2,200 |
- 如要進行混合精確度訓練,NVIDIA GB300、GB200、B200 和 RTX PRO 6000 也支援
bfloat16資料型別。 - NVIDIA GB300、GB200、B200 和 RTX PRO 6000 GPU 支援結構稀疏性,可將運算總處理量提高一倍。本節中的效能值假設為密集矩陣乘法,如果您使用結構稀疏性,效能會加倍。
標準 CUDA 核心
採用 Blackwell 架構的機器類型可提供高效能 FP64 和 FP32 運算,滿足 HPC 和 AI 工作負載的嚴苛需求。
對於 A4X Max、A4X 和 A4,FP16 運算會由 Tensor Core 加速。對於 G4,標準 CUDA 核心的 FP16 效能會納入考量,因為即使不使用 Tensor Core,FP16 精確度也能減少記憶體用量和頻寬需求,因此繪圖工作負載 (例如算繪和視覺化) 可從中受益。
| 機器類型 (GPU 型號) | FP64 (TFLOPS) | FP32 (TFLOPS) | FP16 (TFLOPS) |
|---|---|---|---|
| A4X Max (GB300) | 1.3 | 80 | - |
| A4X (GB200) | 40 | 80 | - |
| A4 (B200) | 40 | 80 | - |
| G4 (RTX PRO 6000) | 2 | 117 | 117 |
Hopper、Ada Lovelace 和 Ampere 架構
A3 系列採用 Hopper 架構,並導入 Transformer 模型專用引擎。A2 系列採用 Ampere 架構,為高效能訓練和推論提供均衡的基礎。G2 系列採用 Ada Lovelace 架構,可為 AI 推論、影片轉碼和圖形工作負載提供多功能且節能的加速功能。
Tensor Core
Hopper、Ada Lovelace 和 Ampere 架構搭載進階張量核心,可加速 TF32、FP16、FP8 和 INT8 資料類型,為混合精度訓練和推論提供高輸送量。
| 機器類型 (GPU 型號) | FP64 (TFLOPS) | TF32 (TFLOPS) | 混合 FP16/32 (TFLOPS) | INT8 (TOPS) | INT4 (TOPS) | FP8 (TFLOPS) |
|---|---|---|---|---|---|---|
| A3 Ultra (H200) | 67 | 989 | 1,979 | 3,958 | - | 3,958 |
| A3 Mega/High/Edge (H100) | 67 | 989 | 1,979 | 3,958 | - | 3,958 |
| A2 Ultra (A100 80GB) | 19.5 | 156 | 312 | 624 | 1248 | - |
| A2 Standard (A100 40GB) | 19.5 | 156 | 312 | 624 | 1248 | - |
| G2 (L4) | - | 120 | 242 | 485 | - | 485 |
- 如要進行混合精度訓練,NVIDIA H200、H100、A100 和 L4 也支援
bfloat16資料類型。 - NVIDIA H200、H100、A100 和 L4 GPU 支援結構稀疏性,可將運算輸送量提高一倍。本節中的效能值假設為密集矩陣乘法,如果您使用結構稀疏性,效能會加倍。
標準 CUDA 核心
使用 Hopper、Ada Lovelace 和 Ampere 架構的機器類型,可為需要大量運算資源的 HPC 和 AI 工作負載提供高效能的 FP64 和 FP32 作業。
| 機器類型 (GPU 型號) | FP64 (TFLOPS) | FP32 (TFLOPS) |
|---|---|---|
| A3 Ultra (H200) | 34 | 67 |
| A3 Mega、High、Edge (H100) | 34 | 67 |
| A2 Ultra (A100 80GB) | 9.7 | 19.5 |
| A2 Standard (A100 40GB) | 9.7 | 19.5 |
| G2 (L4) | 0.5 | 30.3 |
Volta、Pascal 和 Turing 架構
N1 機器類型使用下列 GPU 架構:
Tensor Core
N1 執行個體搭載 NVIDIA 的 Turing 和 Volta 架構,支援混合精度、INT8 和 INT4 運算的 Tensor Core,為深度學習推論提供基礎加速功能。
這些 GPU 首次採用 Tensor Core,主要用於 FP16 訓練,以及推論中的 INT8 和 INT4 量化。這份表格未列出 N1 (P4) 和 N1 (P100) 機器類型,因為這些類型沒有 Tensor 核心。
| 機器類型 (GPU 型號) | 混合 FP16/32 (TFLOPS) | INT8 (TOPS) | INT4 (TOPS) |
|---|---|---|---|
| N1 (V100) | 125 | - | - |
| N1 (T4) | 65 | 130 | 260 |
標準 CUDA 核心
使用 Volta、Pascal 和 Turing 架構的機器類型配備 FP64 和 FP32 CUDA 核心,可加速處理各種 HPC 和 AI 工作負載。此外,P100 和 P4 GPU 也提供 FP16 和 INT8 效能,支援深度學習工作負載。
| 機器類型 (GPU 型號) | FP64 (TFLOPS) | FP32 (TFLOPS) | 其他指標 |
|---|---|---|---|
| N1 (V100) | 7.8 | 15.7 | - |
| N1 (P100) | 4.7 | 9.3 | FP16:18.7 TFLOPS |
| N1 (T4) | 0.25 | 8.1 | - |
| N1 (P4) | 0.2 | 5.5 | INT8:22 TOPS |
後續步驟
- 進一步瞭解 Compute Engine GPU。
- 查看 GPU 區域和可用區。
- 查看網路頻寬和 GPU。
- 查看 GPU 定價詳細資料。