GPU 機器類型

本文列出 NVIDIA GPU 型號,可用於加速 Compute Engine 執行個體上的機器學習 (ML)、資料處理和圖形密集型工作負載。本文也詳細說明哪些 GPU 預先附加至加速器最佳化機器系列 (例如 A4X Max、A4X、A4、A3、A2、G4 和 G2),以及哪些 GPU 可附加至 N1 一般用途執行個體。

您可以參考這份文件,比較不同 GPU 型號的效能、記憶體和功能。如要進一步瞭解加速器最佳化機器家族,包括 CPU 平台、儲存空間選項和網路功能,以及找出符合工作負載的特定機型,請參閱「加速器最佳化機器家族」。

如要進一步瞭解 Compute Engine 上的 GPU,請參閱「關於 GPU」一文。

如要查看 Compute Engine 中 GPU 的可用區域和可用區,請參閱「GPU 區域和可用區」。

總覽

Compute Engine 提供不同機器類型,支援各種工作負載。

部分機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)。建立使用 NVIDIA RTX Virtual Workstation 的執行個體時,Compute Engine 會自動新增 vWS 授權。如要瞭解虛擬工作站的定價,請參閱 GPU 定價頁面

GPU 機器類型
AI 和機器學習工作負載 圖形和視覺化 其他 GPU 工作負載
加速器最佳化 A 系列機器類型專為高效能運算 (HPC)、人工智慧 (AI) 和機器學習 (ML) 工作負載設計。

後續世代的 A 系列非常適合預先訓練和微調基礎模型,這類模型需要大量加速器叢集;而 A2 系列則可用於訓練較小的模型和單一主機推論。

對於這些機器類型,系統會自動將 GPU 型號附加至執行個體。

加速器最佳化 G 系列機型專為工作負載設計,例如 NVIDIA Omniverse 模擬工作負載、需要大量圖案的應用程式、影片轉碼和虛擬桌面。這些機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)

G 系列也可用於訓練較小的模型,以及單一主機推論。

對於這些機器類型,系統會自動將 GPU 型號附加至執行個體。

對於 N1 一般用途機器類型 (N1 共用核心除外,即 f1-microg1-small),您可以附加一組選定的 GPU 型號。部分 GPU 型號也支援 NVIDIA RTX 虛擬工作站 (vWS)。

  • A4X Max (NVIDIA GB300 Ultra Superchips)
    (nvidia-gb300)
  • A4X (NVIDIA GB200 Superchips)
    (nvidia-gb200)
  • A4 (NVIDIA B200)
    (nvidia-b200)
  • A3 Ultra (NVIDIA H200)
    (nvidia-h200-141gb)
  • A3 Mega (NVIDIA H100)
    (nvidia-h100-mega-80gb)
  • A3 High (NVIDIA H100)
    (nvidia-h100-80gb)
  • A3 Edge (NVIDIA H100)
    (nvidia-h100-80gb)
  • A2 Ultra (NVIDIA A100 80GB)
    (nvidia-a100-80gb)
  • A2 Standard (NVIDIA A100)
    (nvidia-a100-40gb)
  • G4 (NVIDIA RTX PRO 6000)
    (nvidia-rtx-pro-6000)
    (nvidia-rtx-pro-6000-vws)
  • G2 (NVIDIA L4)
    (nvidia-l4)
    (nvidia-l4-vws)
下列 GPU 型號可附加至 N1 一般用途機器類型:
  • NVIDIA T4
    (nvidia-tesla-t4)
    (nvidia-tesla-t4-vws)
  • NVIDIA P4
    (nvidia-tesla-p4)
    (nvidia-tesla-p4-vws)
  • NVIDIA V100
    (nvidia-tesla-v100)
  • NVIDIA P100
    (nvidia-tesla-p100)
    (nvidia-tesla-p100-vws)

您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是經過最佳化調整的超級運算系統,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立密集分配的基礎架構,並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器,以達到最佳效能。

A4X Max 和 A4X 系列機器

A4X Max 和 A4X 系列機器採用以 NVIDIA 的機架規模架構為基礎的百億級平台,並針對運算和記憶體密集型、受網路限制的機器學習訓練和 HPC 工作負載進行最佳化。A4X Max 和 A4X 的主要差異在於 GPU 和網路元件。A4X Max 也提供裸機執行個體,可直接存取主機伺服器的 CPU 和記憶體,不需要 Compute Engine 管理程序層。

A4X Max 機型 (裸機)

A4X Max 加速器最佳化 機型使用 NVIDIA GB300 Grace Blackwell Ultra Superchip (nvidia-gb300),非常適合用於基礎模型訓練和服務。A4X Max 機型可做為裸機執行個體使用。

A4X Max 是以 NVIDIA GB300 NVL72 為基礎的百京級平台。每部機器都有兩個插槽,搭載 NVIDIA Grace CPU 和 Arm Neoverse V2 核心。這些 CPU 會透過快速晶片對晶片 (NVLink-C2C) 通訊,連線至四個 NVIDIA B300 Blackwell GPU。

已連結 NVIDIA GB300 Grace Blackwell Ultra Superchip
機型 vCPU 數量1 執行個體記憶體 (GB) 附加的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3e)
a4x-maxgpu-4g-metal 144 960 12,000 6 3,600 4 1,116

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

A4X 機型

A4X 加速器最佳化 機型採用 NVIDIA GB200 Grace Blackwell Superchip (nvidia-gb200),非常適合用於基礎模型訓練和服務。

A4X 是以 NVIDIA GB200 NVL72 為基礎的百京級平台。每部機器都有兩個插槽,搭載 NVIDIA Grace CPU 和 Arm Neoverse V2 核心。這些 CPU 會透過快速晶片對晶片 (NVLink-C2C) 通訊,連線至四個 NVIDIA B200 Blackwell GPU。

已連結 NVIDIA GB200 Grace Blackwell 超級晶片
機型 vCPU 數量1 執行個體記憶體 (GB) 附加的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3e)
a4x-highgpu-4g 140 884 12,000 6 2,000 4 744

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

A4 系列機型

A4 加速器最佳化機型連接 NVIDIA B200 Blackwell GPU (nvidia-b200),非常適合用於基礎模型訓練和服務。

已連結的 NVIDIA B200 Blackwell GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 附加的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3e)
a4-highgpu-8g 224 3,968 12,000 10 3,600 8 1,440

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

A3 系列機器

A3 加速器最佳化機型連接的是 NVIDIA H100 SXM 或 NVIDIA H200 SXM GPU。

A3 Ultra 機型

A3 Ultra 機型連接 NVIDIA H200 SXM GPU (nvidia-h200-141gb),是 A3 系列中網路效能最高的機型。A3 Ultra 機型非常適合基礎模型訓練和服務。

已附加的 NVIDIA H200 GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 附加的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3e)
a3-ultragpu-8g 224 2,952 12,000 10 3,600 8 1128

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

A3 Mega、High 和 Edge 機型

如要使用 NVIDIA H100 SXM GPU,請選擇下列其中一種做法:

  • A3 Mega:這類機型搭載 H100 SXM GPU (nvidia-h100-mega-80gb),非常適合大規模訓練和服務工作負載。
  • A3 High:這類機型配備 H100 SXM GPU (nvidia-h100-80gb),非常適合用於訓練和服務工作。
  • A3 Edge:這類機型搭載 H100 SXM GPU (nvidia-h100-80gb),專為服務而設計,僅在特定區域提供。

A3 Mega

附加的 NVIDIA H100 GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 附加的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3)
a3-megagpu-8g 208 1,872 6,000 9 1,800 8 640

A3 High

附加的 NVIDIA H100 GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 附加的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1,500 1 50 2 160
a3-highgpu-4g 104 936 3,000 1 100 4 320
a3-highgpu-8g 208 1,872 6,000 5 1,000 8 640

A3 Edge

附加的 NVIDIA H100 GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 附加的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM3)
a3-edgegpu-8g 208 1,872 6,000 5
  • 800:適用於 asia-south1 和 northamerica-northeast2
  • 400:適用於所有其他 A3 Edge 區域
8 640

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

A2 系列機器

A2 加速器最佳化機型連接 NVIDIA A100 GPU,非常適合模型微調、大型模型和符合成本效益的推論。

A2 系列提供兩種機型:

  • A2 Ultra:這類機型連接 A100 80GB GPU (nvidia-a100-80gb) 和本機 SSD 磁碟。
  • A2 Standard:這類機型連接 A100 40GB GPU (nvidia-tesla-a100)。建立 A2 Standard 執行個體時,您也可以新增本機 SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型

A2 Ultra

已連結 NVIDIA A100 80GB GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 附加的本機 SSD (GiB) 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM2e)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1,500 50 4 320
a2-ultragpu-8g 96 1,360 3,000 100 8 640

A2 Standard

已連結 NVIDIA A100 40GB GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 支援本機 SSD 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3
(GB HBM2)
a2-highgpu-1g 12 85 24 1 40
a2-highgpu-2g 24 170 32 2 80
a2-highgpu-4g 48 340 50 4 160
a2-highgpu-8g 96 680 100 8 320
a2-megagpu-16g 96 1,360 100 16 640

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

G4 系列機型

G4 加速器最佳化 機型使用 NVIDIA RTX PRO 6000 Blackwell Server Edition GPU (nvidia-rtx-pro-6000), 適合用於 NVIDIA Omniverse 模擬工作負載、需要大量圖形處理的應用程式、影片轉碼和虛擬桌面。與 A 系列機型相比,G4 機型也提供低成本解決方案,可執行單一主機推論和模型調整作業。

G4 系列的主要功能是支援多 GPU 機型 (g4-standard-96g4-standard-192g4-standard-384) 的直接 GPU 對等 (P2P) 通訊。這項功能可讓同一執行個體內的 GPU 透過 PCIe 匯流排直接交換資料,不必經過 CPU 主機。如要進一步瞭解 G4 GPU 對等互連通訊,請參閱「G4 GPU 對等互連通訊」。

已連結的 NVIDIA RTX PRO 6000 GPU
機型 vCPU 數量1 執行個體記憶體 (GB) 支援的 Titanium SSD 容量上限 (GiB)2 實體 NIC 數量 網路頻寬上限 (Gbps)3 GPU 數量 GPU 記憶體4
(GB GDDR7)
g4-standard-48 48 180 1,500 1 50 1 96
g4-standard-96 96 360 3,000 1 100 2 192
g4-standard-192 192 720 6,000 1 200 4 384
g4-standard-384 384 1,440 12,000 2 400 8 768

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2建立 G4 執行個體時,可以新增 Titanium SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型
3輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。
4GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

G2 系列機器

G2 加速器最佳化機型連接的是 NVIDIA L4 GPU,非常適合用於成本最佳化的推論、需要大量圖形處理的作業,以及高效能運算工作負載。

每個 G2 機型也都有預設記憶體和自訂記憶體範圍。自訂記憶體範圍會定義每個機器類型可分配給執行個體的記憶體大小。您也可以在建立 G2 執行個體時新增本機 SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型

附加的 NVIDIA L4 GPU
機型 vCPU 數量1 預設執行個體記憶體 (GB) 自訂執行個體記憶體範圍 (GB) 支援的最大本機 SSD (GiB) 網路頻寬上限 (Gbps)2 GPU 數量 GPU 記憶體3 (GB GDDR6)
g2-standard-4 4 16 16 至 32 375 10 1 24
g2-standard-8 8 32 32 至 54 375 16 1 24
g2-standard-12 12 48 48 到 54 歲 375 16 1 24
g2-standard-16 16 64 54 到 64 375 32 1 24
g2-standard-24 24 96 96 至 108 750 32 2 48
g2-standard-32 32 128 96 到 128 375 32 1 24
g2-standard-48 48 192 192 至 216 1,500 50 4 96
g2-standard-96 96 384 384 到 432 3,000 100 8 192

1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

N1 機器系列

您可以將下列 GPU 型號附加至N1 機器類型,但N1 共用核心機器類型除外。

與加速器最佳化機器系列中的機器類型不同,N1 機器類型不會隨附一組固定數量的附加 GPU。而是在建立執行個體時,指定要附加的 GPU 數量。

GPU 數量較少的 N1 執行個體會有 vCPU 數量上限。一般而言,GPU 數量越多,表示您可以建立 vCPU 較多且記憶體較大的執行個體。

N1+T4 GPU

您可以將 NVIDIA T4 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。

加速器類型 GPU 數量 GPU 記憶體1 (GB GDDR6) vCPU 數量 執行個體記憶體 (GB) 支援本機 SSD
nvidia-tesla-t4
nvidia-tesla-t4-vws
1 16 1 至 48 1 至 312
2 32 1 至 48 1 至 312
4 64 1 至 96 1 至 624

1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

N1+P4 GPU

您可以將 NVIDIA P4 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。

加速器類型 GPU 數量 GPU 記憶體1 (GB GDDR5) vCPU 數量 執行個體記憶體 (GB) 支援本機 SSD2
nvidia-tesla-p4
nvidia-tesla-p4-vws
1 8 1 至 24 1 至 156
2 16 1 至 48 1 至 312
4 32 1 至 96 1 至 624

1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要大量頻寬的圖形密集型工作負載。
2如果執行個體已連結 NVIDIA P4 GPU,則僅在 us-central1-cnorthamerica-northeast1-b 區域中支援本機 SSD 磁碟。

N1+V100 GPU

您可以將 NVIDIA V100 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。

加速器類型 GPU 數量 GPU 記憶體1 (GB HBM2) vCPU 數量 執行個體記憶體 (GB) 支援本機 SSD2
nvidia-tesla-v100 1 16 1 至 12 1 至 78
2 32 1 至 24 1 至 156
4 64 1 至 48 1 至 312
8 128 1 至 96 1 至 624

1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
2對於搭載 NVIDIA V100 GPU 的執行個體,us-east1-c 不支援本機 SSD 磁碟。

N1+P100 GPU

您可以將 NVIDIA P100 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。

對於部分 NVIDIA P100 GPU,某些設定的可用 CPU 和記憶體上限取決於 GPU 資源執行的區域。

加速器類型 GPU 數量 GPU 記憶體1 (GB HBM2) 可用區 vCPU 數量 執行個體記憶體 (GB) 支援本機 SSD
nvidia-tesla-p100
nvidia-tesla-p100-vws
1 16 所有 P100 區域 1 至 16 1 至 104
2 32 所有 P100 區域 1 至 32 1 至 208
4 64 us-east1-c
europe-west1-d
europe-west1-b
1 至 64 1 至 208
所有其他 P100 區域 1 至 96 1 至 624

1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。

一般比較圖表

下表說明 Compute Engine 上不同 GPU 型號的 GPU 記憶體大小、功能可用性,以及理想的工作負載類型。

機器類型 (GPU 型號) GPU 記憶體 互連網路 支援 NVIDIA RTX 虛擬工作站 (vWS) 最適用
A4X Max (GB300) 279 GB HBM3e @ 8 TBps NVLink 全網格 @ 1,800 GBps 大規模分散式訓練和推論 MoE LLM、推薦系統、HPC
A4X (GB200) 186 GB HBM3e @ 8 TBps NVLink 全網格 @ 1,800 GBps 大規模分散式訓練和推論 LLM、推薦系統、HPC
A4 (B200) 180 GB HBM3e @ 8 TBps NVLink 全網格 @ 1,800 GBps 大規模分散式訓練和推論 LLM、推薦系統、HPC
A3 Ultra (H200) 141 GB HBM3e @ 4.8 TBps NVLink 全網格 @ 900 GBps 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、高效能運算、BERT、DLRM
A3 Mega、A3 High、A3 Edge (H100) 80 GB HBM3 @ 3.35 TBps NVLink 全網格 @ 900 GBps 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、高效能運算、BERT、DLRM
A2 Ultra (A100 80GB) 80 GB HBM2e @ 1.9 TBps NVLink 全網格 @ 600 GBps 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、高效能運算、BERT、DLRM
A2 Standard (A100 40GB) 40 GB HBM2 @ 1.6 TBps NVLink 全網格 @ 600 GBps 機器學習訓練、推論、HPC
G4 (RTX PRO 6000) 96 GB GDDR7 (含 ECC) @ 1597 GBps 不適用 機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC
G2 (L4) 24 GB GDDR6 @ 300 GBps 不適用 機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC
N1 (T4) 16 GB GDDR6 @ 320 GBps 不適用 機器學習推論、訓練、遠端視覺化工作站、影片轉碼
N1 (P4) 8 GB GDDR5 @ 192 GBps 不適用 遠端視覺化工作站、機器學習推論與影片轉碼
N1 (V100) 16 GB HBM2 @ 900 GBps NVLink 環狀拓撲 @ 300 GBps 機器學習訓練、推論、HPC
N1 (P100) 16 GB HBM2 @ 732 GBps 不適用 機器學習訓練、推論、HPC、遠端視覺化工作站

如要比較 Compute Engine 提供之不同 GPU 型號和地區的 GPU 定價,請參閱 GPU 定價一文。

Tensor Core 和標準 CUDA 核心效能

以下各節將提供各 GPU 架構的效能指標,並區分為向量或標準 CUDA 核心,以及 Tensor Core 效能。

  • Tensor 核心:Tensor 效能是指專用 Tensor 核心達成的輸送量。這些是專用硬體單元 (通常稱為「矩陣單元」),專門用於加速大型矩陣乘法累加作業,這類作業是深度學習、訓練和推論作業的骨幹。

    這類效能最適合用於深度學習、大型語言模型 (LLM),以及任何可表示為密集矩陣運算的工作負載。對於相同資料類型,Tensor Core 的處理量遠高於 CUDA Core。

  • 向量或標準 CUDA 核心:向量效能是指標準 CUDA 核心達成的輸送量。這些是通用單元,採用單一指令、多個執行緒 (SIMT) 模型運作,通常會對個別資料元素或向量執行作業。

    這類效能最適合一般運算、圖像算繪,以及不涉及密集矩陣數學的工作負載。

Blackwell 架構

A4X Max、A4X、A4 和 G4 機型採用 NVIDIA 的 Blackwell 架構

Tensor Core

這些機器類型採用 NVIDIA Blackwell 架構,支援 FP4 精確度的 Tensor Core,並擴充 INT4 功能,可大幅提升大型模型推論效能。

機器類型 (GPU 型號) FP64 (TFLOPS) TF32 (TFLOPS) 混合 FP16/32 (TFLOPS) INT8 (TOPS) INT4 (TOPS) FP8 (TFLOPS) FP4 (TFLOPS)
A4X Max (GB300) 1.3 2,500 5,000 330 155 10,000 15,000
A4X (GB200) 40 2,500 5,000 10,000 20,000 10,000 10,000
A4 (B200) 40 1,100 4,500 9,000 - 9,000 -
G4 (RTX PRO 6000) 1.8 140 935.6 1,871.2 - - 2,200
其他注意事項
  • 如要進行混合精確度訓練,NVIDIA GB300、GB200、B200 和 RTX PRO 6000 也支援 bfloat16 資料型別。
  • NVIDIA GB300、GB200、B200 和 RTX PRO 6000 GPU 支援結構稀疏性,可將運算總處理量提高一倍。本節中的效能值假設為密集矩陣乘法,如果您使用結構稀疏性,效能會加倍。

標準 CUDA 核心

採用 Blackwell 架構的機器類型可提供高效能 FP64 和 FP32 運算,滿足 HPC 和 AI 工作負載的嚴苛需求。

對於 A4X Max、A4X 和 A4,FP16 運算會由 Tensor Core 加速。對於 G4,標準 CUDA 核心的 FP16 效能會納入考量,因為即使不使用 Tensor Core,FP16 精確度也能減少記憶體用量和頻寬需求,因此繪圖工作負載 (例如算繪和視覺化) 可從中受益。

機器類型 (GPU 型號) FP64 (TFLOPS) FP32 (TFLOPS) FP16 (TFLOPS)
A4X Max (GB300) 1.3 80 -
A4X (GB200) 40 80 -
A4 (B200) 40 80 -
G4 (RTX PRO 6000) 2 117 117

Hopper、Ada Lovelace 和 Ampere 架構

A3 系列採用 Hopper 架構,並導入 Transformer 模型專用引擎。A2 系列採用 Ampere 架構,為高效能訓練和推論提供均衡的基礎。G2 系列採用 Ada Lovelace 架構,可為 AI 推論、影片轉碼和圖形工作負載提供多功能且節能的加速功能。

Tensor Core

Hopper、Ada Lovelace 和 Ampere 架構搭載進階張量核心,可加速 TF32、FP16、FP8 和 INT8 資料類型,為混合精度訓練和推論提供高輸送量。

機器類型 (GPU 型號) FP64 (TFLOPS) TF32 (TFLOPS) 混合 FP16/32 (TFLOPS) INT8 (TOPS) INT4 (TOPS) FP8 (TFLOPS)
A3 Ultra (H200) 67 989 1,979 3,958 - 3,958
A3 Mega/High/Edge (H100) 67 989 1,979 3,958 - 3,958
A2 Ultra (A100 80GB) 19.5 156 312 624 1248 -
A2 Standard (A100 40GB) 19.5 156 312 624 1248 -
G2 (L4) - 120 242 485 - 485
其他注意事項
  • 如要進行混合精度訓練,NVIDIA H200、H100、A100 和 L4 也支援 bfloat16 資料類型。
  • NVIDIA H200、H100、A100 和 L4 GPU 支援結構稀疏性,可將運算輸送量提高一倍。本節中的效能值假設為密集矩陣乘法,如果您使用結構稀疏性,效能會加倍。

標準 CUDA 核心

使用 Hopper、Ada Lovelace 和 Ampere 架構的機器類型,可為需要大量運算資源的 HPC 和 AI 工作負載提供高效能的 FP64 和 FP32 作業。

機器類型 (GPU 型號) FP64 (TFLOPS) FP32 (TFLOPS)
A3 Ultra (H200) 34 67
A3 Mega、High、Edge (H100) 34 67
A2 Ultra (A100 80GB) 9.7 19.5
A2 Standard (A100 40GB) 9.7 19.5
G2 (L4) 0.5 30.3

Volta、Pascal 和 Turing 架構

N1 機器類型使用下列 GPU 架構:

Tensor Core

N1 執行個體搭載 NVIDIA 的 Turing 和 Volta 架構,支援混合精度、INT8 和 INT4 運算的 Tensor Core,為深度學習推論提供基礎加速功能。

這些 GPU 首次採用 Tensor Core,主要用於 FP16 訓練,以及推論中的 INT8 和 INT4 量化。這份表格未列出 N1 (P4) 和 N1 (P100) 機器類型,因為這些類型沒有 Tensor 核心。

機器類型 (GPU 型號) 混合 FP16/32 (TFLOPS) INT8 (TOPS) INT4 (TOPS)
N1 (V100) 125 - -
N1 (T4) 65 130 260

標準 CUDA 核心

使用 Volta、Pascal 和 Turing 架構的機器類型配備 FP64 和 FP32 CUDA 核心,可加速處理各種 HPC 和 AI 工作負載。此外,P100 和 P4 GPU 也提供 FP16 和 INT8 效能,支援深度學習工作負載。

機器類型 (GPU 型號) FP64 (TFLOPS) FP32 (TFLOPS) 其他指標
N1 (V100) 7.8 15.7 -
N1 (P100) 4.7 9.3 FP16:18.7 TFLOPS
N1 (T4) 0.25 8.1 -
N1 (P4) 0.2 5.5 INT8:22 TOPS

後續步驟