GPU マシンタイプ

このドキュメントでは、Compute Engine で使用可能な NVIDIA GPU モデルの概要について説明します。これらのモデルを使用すると、仮想マシン(VM)インスタンスで ML、データ処理、グラフィック処理を多用するワークロードを高速化できます。このドキュメントでは、A4X、A4、A3、A2、G2 などのアクセラレータ最適化マシンシリーズに事前アタッチされている GPU と、N1 汎用インスタンスにアタッチできる GPU についても詳しく説明します。

このドキュメントでは、さまざまな GPU モデルのパフォーマンス、メモリ、機能を比較します。CPU プラットフォーム、ストレージ オプション、ネットワーキング機能などのアクセラレータ最適化マシン ファミリーの詳細な概要と、ワークロードに一致する特定のマシンタイプについては、アクセラレータ最適化マシン ファミリーをご覧ください。

Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。

Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。

利用可能な GPU モデル

次の GPU モデルは、指定されたマシンタイプで使用でき、AI、ML、HPC ワークロードをサポートします。3D 可視化などのグラフィックを多用するワークロードが存在する場合は、NVIDIA RTX 仮想ワークステーション(vWS)を使用する仮想ワークステーションを作成することもできます。NVIDIA RTX 仮想ワークステーションは、一部の GPU モデルで使用できます。NVIDIA RTX 仮想ワークステーションを使用するインスタンスを作成すると、Compute Engine によって vWS ライセンスが自動的に追加されます。仮想ワークステーションの料金については、GPU の料金ページをご覧ください。

A シリーズと G シリーズのアクセラレータ最適化マシンタイプの場合、指定した GPU モデルがインスタンスに自動的に接続されます。N1 汎用マシンタイプには、指定された GPU モデルを接続できます。

マシンタイプ GPU モデル NVIDIA RTX 仮想ワークステーション(vWS)モデル
A4X NVIDIA GB200 Grace Blackwell Superchip(nvidia-gb200)。

各 Superchip には 4 個の NVIDIA B200 Blackwell GPU が搭載されています。

A4 NVIDIA B200 Blackwell GPU(nvidia-b200
A3 Ultra NVIDIA H200 SXM GPU(nvidia-h200-141gb
A3 Mega
NVIDIA H100 SXM GPU(nvidia-h100-mega-80gb
A3 High
A3 Edge
NVIDIA H100 SXM GPU(nvidia-h100-80gb
A2 Ultra NVIDIA A100 80 GB GPU(nvidia-a100-80gb
A2 標準 NVIDIA A100 40 GB GPU(nvidia-a100-40gb
G4プレビュー NVIDIA RTX PRO 6000 Blackwell Server Edition(nvidia-rtx-pro-6000
G2 NVIDIA L4(nvidia-l4 NVIDIA L4 仮想ワークステーション(vWS)(nvidia-l4-vws
N1 NVIDIA T4 GPU(nvidia-tesla-t4 NVIDIA T4 仮想ワークステーション(vWS)(nvidia-tesla-t4-vws
NVIDIA P4 GPU(nvidia-tesla-p4 NVIDIA P4 仮想ワークステーション(vWS)(nvidia-tesla-p4-vws
NVIDIA V100 GPU(nvidia-tesla-v100
NVIDIA P100 GPU(nvidia-tesla-p100 NVIDIA P100 仮想ワークステーション(vWS)(nvidia-tesla-p100-vws

一部の GPU マシンタイプは AI Hypercomputer でも使用できます。AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティング システムです。このオプションは、Google Kubernetes Engine(GKE)スケジューラや Slurm スケジューラの統合を含む、パフォーマンスが最適化された密な割り当てのインフラストラクチャを作成する場合に推奨されます。

A4X マシンシリーズ

A4X アクセラレータ最適化マシンタイプは、NVIDIA GB200 Grace Blackwell Superchip(nvidia-gb200)を使用しており、基盤モデルのトレーニングとサービングに最適です。

A4X は、NVIDIA GB200 NVL72 に基づくエクサスケール プラットフォームです。各マシンには、Arm Neoverse V2 コアの NVIDIA Grace CPU を搭載した 2 つのソケットがあります。これらの CPU は、高速チップ間(NVLink-C2C)通信対応の 4 つの NVIDIA B200 Blackwell GPU に接続されています。

アタッチされた NVIDIA GB200 Grace Blackwell Superchip
マシンタイプ vCPU 数1 インスタンスのメモリ(GB) アタッチされたローカル SSD(GiB) 物理 NIC の数 最大ネットワーク帯域幅(Gbps)2 GPU 数 GPU メモリ3
(GB HBM3e)
a4x-highgpu-4g 140 884 12,000 6 2,000 4 720

1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
3 GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。

A4 マシンシリーズ

A4 アクセラレータ最適化マシンタイプには、NVIDIA B200 Blackwell GPUnvidia-b200)がアタッチされており、基盤モデルのトレーニングとサービングに最適です。

接続された NVIDIA B200 Blackwell GPU
マシンタイプ vCPU 数1 インスタンスのメモリ(GB) アタッチされたローカル SSD(GiB) 物理 NIC の数 最大ネットワーク帯域幅(Gbps)2 GPU 数 GPU メモリ3
(GB HBM3e)
a4-highgpu-8g 224 3,968 12,000 10 3,600 8 1,440

1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
3 GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。

A3 マシンシリーズ

A3 アクセラレータ最適化マシンタイプには、NVIDIA H100 SXM または NVIDIA H200 SXM GPU がアタッチされています。

A3 Ultra マシンタイプ

A3 Ultra マシンタイプには NVIDIA H200 SXM GPUnvidia-h200-141gb)がアタッチされており、A3 シリーズで最も高いネットワーク パフォーマンスを提供します。A3 Ultra マシンタイプは、基盤モデルのトレーニングとサービングに最適です。

接続された NVIDIA H200 GPU
マシンタイプ vCPU 数1 インスタンスのメモリ(GB) アタッチされたローカル SSD(GiB) 物理 NIC の数 最大ネットワーク帯域幅(Gbps)2 GPU 数 GPU メモリ3
(GB HBM3e)
a3-ultragpu-8g 224 2,952 12,000 10 3,600 8 1128

1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
3 GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。

A3 Mega、High、Edge マシンタイプ

NVIDIA H100 SXM GPU を使用するには、次のオプションがあります。

  • A3 Mega: これらのマシンタイプには H100 SXM GPU(nvidia-h100-mega-80gb)がアタッチされており、大規模なトレーニングとサービング ワークロードに最適です。
  • A3 High: これらのマシンタイプには H100 SXM GPU(nvidia-h100-80gb)がアタッチされており、トレーニングとサービング タスクの両方に適しています。
  • A3 Edge: これらのマシンタイプには H100 SXM GPU(nvidia-h100-80gb)がアタッチされており、サービング専用に設計されています。限定されたリージョン セットで使用できます。

A3 Mega

アタッチされた NVIDIA H100 GPU
マシンタイプ vCPU 数1 インスタンスのメモリ(GB) アタッチされたローカル SSD(GiB) 物理 NIC の数 最大ネットワーク帯域幅(Gbps)2 GPU 数 GPU メモリ3
(GB HBM3)
a3-megagpu-8g 208 1,872 6,000 9 1,800 8 640

A3 High

アタッチされた NVIDIA H100 GPU
マシンタイプ vCPU 数1 インスタンスのメモリ(GB) アタッチされたローカル SSD(GiB) 物理 NIC の数 最大ネットワーク帯域幅(Gbps)2 GPU 数 GPU メモリ3
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1,500 1 50 2 160
a3-highgpu-4g 104 936 3,000 1 100 4 320
a3-highgpu-8g 208 1,872 6,000 5 1,000 8 640

A3 Edge

アタッチされた NVIDIA H100 GPU
マシンタイプ vCPU 数1 インスタンスのメモリ(GB) アタッチされたローカル SSD(GiB) 物理 NIC の数 最大ネットワーク帯域幅(Gbps)2 GPU 数 GPU メモリ3
(GB HBM3)
a3-edgegpu-8g 208 1,872 6,000 5 8 640

1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
3 GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。

A2 マシンシリーズ

A2 アクセラレータ最適化マシンタイプには NVIDIA A100 GPU がアタッチされており、モデルのファインチューニング、大規模モデル、費用最適化された推論に最適です。

A2 マシンシリーズは次の 2 つのタイプで用意されています。

  • A2 Ultra: A100 80 GB GPU(nvidia-a100-80gb)とローカル SSD ディスクがアタッチされるマシンタイプです。
  • A2 Standard: A100 40 GB GPU(nvidia-tesla-a100)がアタッチされるマシンタイプです。A2 標準インスタンスの作成時にローカル SSD ディスクを追加することもできます。アタッチできるディスクの数については、複数のローカル SSD ディスクを選択する必要があるマシンタイプをご覧ください。

A2 Ultra

アタッチされた NVIDIA A100 80 GB GPU
マシンタイプ vCPU 数1 インスタンスのメモリ(GB) アタッチされたローカル SSD(GiB) 最大ネットワーク帯域幅(Gbps)2 GPU 数 GPU メモリ3
(GB HBM2e)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1,500 50 4 320
a2-ultragpu-8g 96 1,360 3,000 100 8 640

A2 標準

アタッチされた NVIDIA A100 40 GB GPU
マシンタイプ vCPU 数1 インスタンスのメモリ(GB) サポート対象のローカル SSD 最大ネットワーク帯域幅(Gbps)2 GPU 数 GPU メモリ3
(GB HBM2)
a2-highgpu-1g 12 85 はい 24 1 40
a2-highgpu-2g 24 170 はい 32 2 80
a2-highgpu-4g 48 340 はい 50 4 160
a2-highgpu-8g 96 680 はい 100 8 320
a2-megagpu-16g 96 1,360 はい 100 16 640

1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
3 GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。

G4 マシンシリーズ

G4 アクセラレータ最適化マシンタイプは、 NVIDIA RTX PRO 6000 Blackwell Server Edition GPUnvidia-rtx-pro-6000)を使用し、NVIDIA Omniverse シミュレーション ワークロード、グラフィックを多用するアプリケーション、動画のトランスコーディング、仮想デスクトップに適しています。また、G4 マシンタイプは、A シリーズのマシンタイプと比較して、単一ホストの推論とモデル チューニングを実行するための低コストのソリューションを提供します。

G4 シリーズの主な機能は、マルチ GPU マシンタイプ(g4-standard-96g4-standard-192g4-standard-384)での GPU 間の直接 P2P 通信のサポートです。これにより、同じインスタンス内の GPU が CPU ホストを介さずに PCIe バス経由で直接データを交換できます。G4 GPU ピアツーピア通信の詳細については、G4 GPU ピアツーピア通信をご覧ください。

接続された NVIDIA RTX PRO 6000 GPU
マシンタイプ vCPU 数1 インスタンスのメモリ(GB) サポートされている Titanium SSD の最大容量(GiB)2 物理 NIC の数 最大ネットワーク帯域幅(Gbps)3 GPU 数 GPU メモリ4
(GB GDDR7)
g4-standard-48 48 180 1,500 1 50 1 96
g4-standard-96 96 360 3,000 1 100 2 192
g4-standard-192 192 720 6,000 1 200 4 384
g4-standard-384 384 1,440 12,000 2 400 8 768

1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2G4 インスタンスの作成時に Titanium SSD ディスクを追加できます。アタッチできるディスクの数については、複数のローカル SSD ディスクを選択する必要があるマシンタイプをご覧ください。
3 最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅をご覧ください。
4GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。

G2 マシンシリーズ

G2 アクセラレータ最適化マシンタイプには NVIDIA L4 GPU がアタッチされており、費用対効果に優れた推論、グラフィック処理を多用するワークロード、ハイ パフォーマンス コンピューティング ワークロードに最適です。

各 G2 マシンタイプにはデフォルトのメモリとカスタムメモリ範囲もあります。カスタムメモリ範囲はマシンタイプごとにインスタンスに割り当てることができるメモリの量を定義します。G2 インスタンスの作成時にローカル SSD ディスクを追加することもできます。アタッチできるディスクの数については、複数のローカル SSD ディスクを選択する必要があるマシンタイプをご覧ください。

アタッチされた NVIDIA L4 GPU
マシンタイプ vCPU 数1 デフォルトのインスタンス メモリ(GB) カスタム インスタンス メモリ範囲(GB) サポート対象の最大ローカル SSD(GiB) 最大ネットワーク帯域幅(Gbps)2 GPU 数 GPU メモリ3(GB GDDR6)
g2-standard-4 4 16 16~32 375 10 1 24
g2-standard-8 8 32 32~54 375 16 1 24
g2-standard-12 12 48 48~54 375 16 1 24
g2-standard-16 16 64 54~64 375 32 1 24
g2-standard-24 24 96 96~108 750 32 2 48
g2-standard-32 32 128 96~128 375 32 1 24
g2-standard-48 48 192 192~216 1,500 50 4 96
g2-standard-96 96 384 384~432 3,000 100 8 192

1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
3 GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。

N1 マシンシリーズ

N1 共有コア マシンタイプを除き、次の GPU モデルを N1 マシンタイプに接続できます。

アクセラレータ最適化マシンシリーズのマシンタイプとは異なり、N1 マシンタイプにはアタッチされた GPU の数が設定されていません。代わりに、インスタンスの作成時に接続する GPU の数を指定します。

GPU 数が少ない N1 インスタンスでは、vCPU の最大数が制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きいインスタンスを作成できます。

N1+T4 GPU

次のインスタンス構成で、NVIDIA T4 GPU を N1 汎用インスタンスに接続できます。

アクセラレータ タイプ GPU 数 GPU メモリ1(GB GDDR6) vCPU 数 インスタンスのメモリ(GB) サポート対象のローカル SSD
nvidia-tesla-t4 または
nvidia-tesla-t4-vws
1 16 1~48 1~312 はい
2 32 1~48 1~312 はい
4 64 1~96 1~624 はい

1 GPU メモリは GPU デバイスで利用可能なメモリで、一時的なデータ保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。

N1+P4 GPU

次のインスタンス構成で、NVIDIA P4 GPU を N1 汎用インスタンスに接続できます。

アクセラレータ タイプ GPU 数 GPU メモリ1(GB GDDR5) vCPU 数 インスタンスのメモリ(GB) サポート対象のローカル SSD2
nvidia-tesla-p4 または
nvidia-tesla-p4-vws
1 8 1~24 1~156 はい
2 16 1~48 1~312 はい
4 32 1~96 1~624 はい

1GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
2NVIDIA P4 GPU がアタッチされているインスタンスの場合、ローカル SSD ディスクはゾーン us-central1-cnorthamerica-northeast1-b でのみサポートされます。

N1+V100 GPU

次のインスタンス構成で、NVIDIA V100 GPU を N1 汎用インスタンスに接続できます。

アクセラレータ タイプ GPU 数 GPU メモリ1(GB HBM2) vCPU 数 インスタンスのメモリ(GB) サポート対象のローカル SSD2
nvidia-tesla-v100 1 16 1~12 1~78 はい
2 32 1~24 1~156 はい
4 64 1~48 1~312 はい
8 128 1~96 1~624 はい

1 GPU メモリは GPU デバイスで利用可能なメモリで、一時的なデータ保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
2NVIDIA V100 GPU がアタッチされているインスタンスの場合、us-east1-c ではローカル SSD ディスクがサポートされません。

N1+P100 GPU

次のインスタンス構成で、NVIDIA P100 GPU を N1 汎用インスタンスに接続できます。

一部の NVIDIA P100 GPU では、一部の構成で使用できる CPU とメモリの最大値が、GPU リソースが実行されているゾーンによって異なります。

アクセラレータ タイプ GPU 数 GPU メモリ1(GB HBM2) ゾーン vCPU 数 インスタンスのメモリ(GB) サポート対象のローカル SSD
nvidia-tesla-p100 または
nvidia-tesla-p100-vws
1 16 すべての P100 ゾーン 1~16 1~104 はい
2 32 すべての P100 ゾーン 1~32 1~208 はい
4 64 us-east1-c
europe-west1-d
europe-west1-b
1 ~ 64 1~208 はい
その他のすべての P100 ゾーン 1~96 1~624 はい

1 GPU メモリは GPU デバイスで利用可能なメモリで、一時的なデータ保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。

一般的な比較表

次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的なワークロード タイプを示します。

GPU モデル GPU メモリ 相互接続 NVIDIA RTX 仮想ワークステーション(vWS)のサポート 最適な用途
GB200 180 GB HBM3e @ 8 TBps NVLink Full Mesh @ 1,800 GBps LLM、Recommender、HPC の大規模な分散トレーニングと推論
B200 180 GB HBM3e @ 8 TBps NVLink Full Mesh @ 1,800 GBps LLM、Recommender、HPC の大規模な分散トレーニングと推論
H200 141 GB HBM3e @ 4.8 TBps NVLink Full Mesh @ 900 GBps ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
H100 80 GB HBM3 @ 3.35 TBps NVLink Full Mesh @ 900 GBps ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 80 GB 80 GB HBM2e @ 1.9 TBps NVLink Full Mesh @ 600 GBps ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 40 GB 40 GB HBM2 @ 1.6 TBps NVLink Full Mesh @ 600 GBps 機械学習のトレーニング、推論、HPC
RTX PRO 6000(プレビュー 96 GB GDDR7(ECC 付き)@ 1,597 GBps なし 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC
L4 24 GB GDDR6 @ 300 GBps なし 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC
T4 16 GB GDDR6 @ 320 GBps なし 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換
V100 16 GB HBM2 @ 900 GBps NVLink Ring @ 300 GBps ML のトレーニング、推論、HPC
P4 8 GB GDDR5 @ 192 GBps なし リモート可視化のワークステーション、機械学習における推論、動画のコード変換
P100 16 GB HBM2 @ 732 GBps なし ML のトレーニング、推論、HPC、リモート可視化のワークステーション

Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。

パフォーマンスの比較グラフ

次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。

コンピューティング パフォーマンス

GPU モデル FP64 FP32 FP16 INT8
GB200 90 TFLOPS 180 TFLOPS
B200 40 TFLOPS 80 TFLOPS
H200 34 TFLOPS 67 TFLOPS
H100 34 TFLOPS 67 TFLOPS
A100 80 GB 9.7 TFLOPS 19.5 TFLOPS
A100 40GB 9.7 TFLOPS 19.5 TFLOPS
L4 0.5 TFLOPS1 30.3 TFLOPS
T4 0.25 TFLOPS1 8.1 TFLOPS
V100 7.8 TFLOPS 15.7 TFLOPS
P4 0.2 TFLOPS1 5.5 TFLOPS 22 TOPS2
P100 4.7 TFLOPS 9.3 TFLOPS 18.7 TFLOPS

1FP64 コードを正しく動作させるため、T4、L4、P4 GPU アーキテクチャには、少数の FP64 ハードウェア ユニットが組み込まれています。
2TeraOperations/秒

Tensor Core のパフォーマンス

GPU モデル FP64 TF32 混合精度 FP16/FP32 INT8 INT4 FP8
GB200 90 TFLOPS 2,500 TFLOPS2 5,000 TFLOPS1, 2 10,000 TFLOPS2 20,000 TFLOPS2 10,000 TFLOPS2
B200 40 TFLOPS 1,100 TFLOPS2 4,500 TFLOPS1, 2 9,000 TFLOPS2 9,000 TFLOPS2
H200 67 TFLOPS 989 TFLOPS2 1,979 TFLOPS1、2 3,958 TOPS2 3,958 TFLOPS2
H100 67 TFLOPS 989 TFLOPS2 1,979 TFLOPS1、2 3,958 TOPS2 3,958 TFLOPS2
A100 80GB 19.5 TFLOPS 156 TFLOPS 312 TFLOPS1 624 TOPS 1248 TOPS
A100 40GB 19.5 TFLOPS 156 TFLOPS 312 TFLOPS1 624 TOPS 1248 TOPS
L4 120 TFLOPS2 242 TFLOPS1、2 485 TOPS2 485 TFLOPS2
T4 65 TFLOPS 130 TOPS 260 TOPS
V100 125 TFLOPS
P4
P100

1 混合適合率トレーニングでは、NVIDIA GB200、B200、H200、H100、A100、L4 GPU は bfloat16 データタイプもサポートします。
2NVIDIA GB200、B200、H200、H100、L4 GPU は構造的スパース性をサポートしています。構造的スパース性を使用すると、モデルのパフォーマンスを 2 倍にできます。記載されている値は、構造化スパース性を使用する場合に適用されます。構造化スパース性を使用していない場合、値は半分になります。

次のステップ