このドキュメントでは、Compute Engine で使用可能な NVIDIA GPU モデルの概要について説明します。これらのモデルを使用すると、仮想マシン(VM)インスタンスで ML、データ処理、グラフィック処理を多用するワークロードを高速化できます。このドキュメントでは、A4X、A4、A3、A2、G2 などのアクセラレータ最適化マシンシリーズに事前アタッチされている GPU と、N1 汎用インスタンスにアタッチできる GPU についても詳しく説明します。
このドキュメントでは、さまざまな GPU モデルのパフォーマンス、メモリ、機能を比較します。CPU プラットフォーム、ストレージ オプション、ネットワーキング機能などのアクセラレータ最適化マシン ファミリーの詳細な概要と、ワークロードに一致する特定のマシンタイプについては、アクセラレータ最適化マシン ファミリーをご覧ください。
Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。
Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。
利用可能な GPU モデル
次の GPU モデルは、指定されたマシンタイプで使用でき、AI、ML、HPC ワークロードをサポートします。3D 可視化などのグラフィックを多用するワークロードが存在する場合は、NVIDIA RTX 仮想ワークステーション(vWS)を使用する仮想ワークステーションを作成することもできます。NVIDIA RTX 仮想ワークステーションは、一部の GPU モデルで使用できます。NVIDIA RTX 仮想ワークステーションを使用するインスタンスを作成すると、Compute Engine によって vWS ライセンスが自動的に追加されます。仮想ワークステーションの料金については、GPU の料金ページをご覧ください。
A シリーズと G シリーズのアクセラレータ最適化マシンタイプの場合、指定した GPU モデルがインスタンスに自動的に接続されます。N1 汎用マシンタイプには、指定された GPU モデルを接続できます。
マシンタイプ | GPU モデル | NVIDIA RTX 仮想ワークステーション(vWS)モデル |
---|---|---|
A4X | NVIDIA GB200 Grace Blackwell Superchip(nvidia-gb200 )。各 Superchip には 4 個の NVIDIA B200 Blackwell GPU が搭載されています。 |
|
A4 | NVIDIA B200 Blackwell GPU(nvidia-b200 ) |
|
A3 Ultra | NVIDIA H200 SXM GPU(nvidia-h200-141gb ) |
|
A3 Mega |
NVIDIA H100 SXM GPU(nvidia-h100-mega-80gb ) |
|
A3 High と A3 Edge |
NVIDIA H100 SXM GPU(nvidia-h100-80gb ) |
|
A2 Ultra | NVIDIA A100 80 GB GPU(nvidia-a100-80gb ) |
|
A2 標準 | NVIDIA A100 40 GB GPU(nvidia-a100-40gb ) |
|
G4(プレビュー) | NVIDIA RTX PRO 6000 Blackwell Server Edition(nvidia-rtx-pro-6000 ) |
|
G2 | NVIDIA L4(nvidia-l4 ) |
NVIDIA L4 仮想ワークステーション(vWS)(nvidia-l4-vws ) |
N1 | NVIDIA T4 GPU(nvidia-tesla-t4 ) |
NVIDIA T4 仮想ワークステーション(vWS)(nvidia-tesla-t4-vws ) |
NVIDIA P4 GPU(nvidia-tesla-p4 ) |
NVIDIA P4 仮想ワークステーション(vWS)(nvidia-tesla-p4-vws ) |
|
NVIDIA V100 GPU(nvidia-tesla-v100 ) |
||
NVIDIA P100 GPU(nvidia-tesla-p100 ) |
NVIDIA P100 仮想ワークステーション(vWS)(nvidia-tesla-p100-vws ) |
一部の GPU マシンタイプは AI Hypercomputer でも使用できます。AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティング システムです。このオプションは、Google Kubernetes Engine(GKE)スケジューラや Slurm スケジューラの統合を含む、パフォーマンスが最適化された密な割り当てのインフラストラクチャを作成する場合に推奨されます。
A4X マシンシリーズ
A4X アクセラレータ最適化マシンタイプは、NVIDIA GB200 Grace Blackwell Superchip(nvidia-gb200
)を使用しており、基盤モデルのトレーニングとサービングに最適です。
A4X は、NVIDIA GB200 NVL72 に基づくエクサスケール プラットフォームです。各マシンには、Arm Neoverse V2 コアの NVIDIA Grace CPU を搭載した 2 つのソケットがあります。これらの CPU は、高速チップ間(NVLink-C2C)通信対応の 4 つの NVIDIA B200 Blackwell GPU に接続されています。
アタッチされた NVIDIA GB200 Grace Blackwell Superchip | |||||||
---|---|---|---|---|---|---|---|
マシンタイプ | vCPU 数1 | インスタンスのメモリ(GB) | アタッチされたローカル SSD(GiB) | 物理 NIC の数 | 最大ネットワーク帯域幅(Gbps)2 | GPU 数 | GPU メモリ3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12,000 | 6 | 2,000 | 4 | 720 |
1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
3 GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
A4 マシンシリーズ
A4 アクセラレータ最適化マシンタイプには、NVIDIA B200 Blackwell GPU(nvidia-b200
)がアタッチされており、基盤モデルのトレーニングとサービングに最適です。
接続された NVIDIA B200 Blackwell GPU | |||||||
---|---|---|---|---|---|---|---|
マシンタイプ | vCPU 数1 | インスタンスのメモリ(GB) | アタッチされたローカル SSD(GiB) | 物理 NIC の数 | 最大ネットワーク帯域幅(Gbps)2 | GPU 数 | GPU メモリ3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3,968 | 12,000 | 10 | 3,600 | 8 | 1,440 |
1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
3 GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
A3 マシンシリーズ
A3 アクセラレータ最適化マシンタイプには、NVIDIA H100 SXM または NVIDIA H200 SXM GPU がアタッチされています。
A3 Ultra マシンタイプ
A3 Ultra マシンタイプには NVIDIA H200 SXM GPU(nvidia-h200-141gb
)がアタッチされており、A3 シリーズで最も高いネットワーク パフォーマンスを提供します。A3 Ultra マシンタイプは、基盤モデルのトレーニングとサービングに最適です。
接続された NVIDIA H200 GPU | |||||||
---|---|---|---|---|---|---|---|
マシンタイプ | vCPU 数1 | インスタンスのメモリ(GB) | アタッチされたローカル SSD(GiB) | 物理 NIC の数 | 最大ネットワーク帯域幅(Gbps)2 | GPU 数 | GPU メモリ3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2,952 | 12,000 | 10 | 3,600 | 8 | 1128 |
1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
3 GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
A3 Mega、High、Edge マシンタイプ
NVIDIA H100 SXM GPU を使用するには、次のオプションがあります。
- A3 Mega: これらのマシンタイプには H100 SXM GPU(
nvidia-h100-mega-80gb
)がアタッチされており、大規模なトレーニングとサービング ワークロードに最適です。 - A3 High: これらのマシンタイプには H100 SXM GPU(
nvidia-h100-80gb
)がアタッチされており、トレーニングとサービング タスクの両方に適しています。 - A3 Edge: これらのマシンタイプには H100 SXM GPU(
nvidia-h100-80gb
)がアタッチされており、サービング専用に設計されています。限定されたリージョン セットで使用できます。
A3 Mega
アタッチされた NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
マシンタイプ | vCPU 数1 | インスタンスのメモリ(GB) | アタッチされたローカル SSD(GiB) | 物理 NIC の数 | 最大ネットワーク帯域幅(Gbps)2 | GPU 数 | GPU メモリ3 (GB HBM3) |
a3-megagpu-8g |
208 | 1,872 | 6,000 | 9 | 1,800 | 8 | 640 |
A3 High
アタッチされた NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
マシンタイプ | vCPU 数1 | インスタンスのメモリ(GB) | アタッチされたローカル SSD(GiB) | 物理 NIC の数 | 最大ネットワーク帯域幅(Gbps)2 | GPU 数 | GPU メモリ3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3,000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1,872 | 6,000 | 5 | 1,000 | 8 | 640 |
A3 Edge
アタッチされた NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
マシンタイプ | vCPU 数1 | インスタンスのメモリ(GB) | アタッチされたローカル SSD(GiB) | 物理 NIC の数 | 最大ネットワーク帯域幅(Gbps)2 | GPU 数 | GPU メモリ3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1,872 | 6,000 | 5 |
|
8 | 640 |
1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
3 GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
A2 マシンシリーズ
A2 アクセラレータ最適化マシンタイプには NVIDIA A100 GPU がアタッチされており、モデルのファインチューニング、大規模モデル、費用最適化された推論に最適です。
A2 マシンシリーズは次の 2 つのタイプで用意されています。
- A2 Ultra: A100 80 GB GPU(
nvidia-a100-80gb
)とローカル SSD ディスクがアタッチされるマシンタイプです。 - A2 Standard: A100 40 GB GPU(
nvidia-tesla-a100
)がアタッチされるマシンタイプです。A2 標準インスタンスの作成時にローカル SSD ディスクを追加することもできます。アタッチできるディスクの数については、複数のローカル SSD ディスクを選択する必要があるマシンタイプをご覧ください。
A2 Ultra
アタッチされた NVIDIA A100 80 GB GPU | ||||||
---|---|---|---|---|---|---|
マシンタイプ | vCPU 数1 | インスタンスのメモリ(GB) | アタッチされたローカル SSD(GiB) | 最大ネットワーク帯域幅(Gbps)2 | GPU 数 | GPU メモリ3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1,500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1,360 | 3,000 | 100 | 8 | 640 |
A2 標準
アタッチされた NVIDIA A100 40 GB GPU | ||||||
---|---|---|---|---|---|---|
マシンタイプ | vCPU 数1 | インスタンスのメモリ(GB) | サポート対象のローカル SSD | 最大ネットワーク帯域幅(Gbps)2 | GPU 数 | GPU メモリ3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | はい | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | はい | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | はい | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | はい | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1,360 | はい | 100 | 16 | 640 |
1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
3 GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
G4 マシンシリーズ
G4 アクセラレータ最適化マシンタイプは、
NVIDIA RTX PRO 6000 Blackwell Server Edition GPU(nvidia-rtx-pro-6000
)を使用し、NVIDIA Omniverse シミュレーション ワークロード、グラフィックを多用するアプリケーション、動画のトランスコーディング、仮想デスクトップに適しています。また、G4 マシンタイプは、A シリーズのマシンタイプと比較して、単一ホストの推論とモデル チューニングを実行するための低コストのソリューションを提供します。
G4 シリーズの主な機能は、マルチ GPU マシンタイプ(g4-standard-96
、g4-standard-192
、g4-standard-384
)での GPU 間の直接 P2P 通信のサポートです。これにより、同じインスタンス内の GPU が CPU ホストを介さずに PCIe バス経由で直接データを交換できます。G4 GPU ピアツーピア通信の詳細については、G4 GPU ピアツーピア通信をご覧ください。
接続された NVIDIA RTX PRO 6000 GPU | |||||||
---|---|---|---|---|---|---|---|
マシンタイプ | vCPU 数1 | インスタンスのメモリ(GB) | サポートされている Titanium SSD の最大容量(GiB)2 | 物理 NIC の数 | 最大ネットワーク帯域幅(Gbps)3 | GPU 数 | GPU メモリ4 (GB GDDR7) |
g4-standard-48 |
48 | 180 | 1,500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3,000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6,000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1,440 | 12,000 | 2 | 400 | 8 | 768 |
1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2G4 インスタンスの作成時に Titanium SSD ディスクを追加できます。アタッチできるディスクの数については、複数のローカル SSD ディスクを選択する必要があるマシンタイプをご覧ください。
3 最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅をご覧ください。
4GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
G2 マシンシリーズ
G2 アクセラレータ最適化マシンタイプには NVIDIA L4 GPU がアタッチされており、費用対効果に優れた推論、グラフィック処理を多用するワークロード、ハイ パフォーマンス コンピューティング ワークロードに最適です。
各 G2 マシンタイプにはデフォルトのメモリとカスタムメモリ範囲もあります。カスタムメモリ範囲はマシンタイプごとにインスタンスに割り当てることができるメモリの量を定義します。G2 インスタンスの作成時にローカル SSD ディスクを追加することもできます。アタッチできるディスクの数については、複数のローカル SSD ディスクを選択する必要があるマシンタイプをご覧ください。
アタッチされた NVIDIA L4 GPU | |||||||
---|---|---|---|---|---|---|---|
マシンタイプ | vCPU 数1 | デフォルトのインスタンス メモリ(GB) | カスタム インスタンス メモリ範囲(GB) | サポート対象の最大ローカル SSD(GiB) | 最大ネットワーク帯域幅(Gbps)2 | GPU 数 | GPU メモリ3(GB GDDR6) |
g2-standard-4 |
4 | 16 | 16~32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32~54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48~54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54~64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96~108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96~128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192~216 | 1,500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384~432 | 3,000 | 100 | 8 | 192 |
1vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
2最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
3 GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
N1 マシンシリーズ
N1 共有コア マシンタイプを除き、次の GPU モデルを N1 マシンタイプに接続できます。
アクセラレータ最適化マシンシリーズのマシンタイプとは異なり、N1 マシンタイプにはアタッチされた GPU の数が設定されていません。代わりに、インスタンスの作成時に接続する GPU の数を指定します。
GPU 数が少ない N1 インスタンスでは、vCPU の最大数が制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きいインスタンスを作成できます。
N1+T4 GPU
次のインスタンス構成で、NVIDIA T4 GPU を N1 汎用インスタンスに接続できます。
アクセラレータ タイプ | GPU 数 | GPU メモリ1(GB GDDR6) | vCPU 数 | インスタンスのメモリ(GB) | サポート対象のローカル SSD |
---|---|---|---|---|---|
nvidia-tesla-t4 またはnvidia-tesla-t4-vws |
1 | 16 | 1~48 | 1~312 | はい |
2 | 32 | 1~48 | 1~312 | はい | |
4 | 64 | 1~96 | 1~624 | はい |
1 GPU メモリは GPU デバイスで利用可能なメモリで、一時的なデータ保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
N1+P4 GPU
次のインスタンス構成で、NVIDIA P4 GPU を N1 汎用インスタンスに接続できます。
アクセラレータ タイプ | GPU 数 | GPU メモリ1(GB GDDR5) | vCPU 数 | インスタンスのメモリ(GB) | サポート対象のローカル SSD2 |
---|---|---|---|---|---|
nvidia-tesla-p4 またはnvidia-tesla-p4-vws |
1 | 8 | 1~24 | 1~156 | はい |
2 | 16 | 1~48 | 1~312 | はい | |
4 | 32 | 1~96 | 1~624 | はい |
1GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
2NVIDIA P4 GPU がアタッチされているインスタンスの場合、ローカル SSD ディスクはゾーン us-central1-c
と northamerica-northeast1-b
でのみサポートされます。
N1+V100 GPU
次のインスタンス構成で、NVIDIA V100 GPU を N1 汎用インスタンスに接続できます。
アクセラレータ タイプ | GPU 数 | GPU メモリ1(GB HBM2) | vCPU 数 | インスタンスのメモリ(GB) | サポート対象のローカル SSD2 |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1~12 | 1~78 | はい |
2 | 32 | 1~24 | 1~156 | はい | |
4 | 64 | 1~48 | 1~312 | はい | |
8 | 128 | 1~96 | 1~624 | はい |
1 GPU メモリは GPU デバイスで利用可能なメモリで、一時的なデータ保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
2NVIDIA V100 GPU がアタッチされているインスタンスの場合、us-east1-c
ではローカル SSD ディスクがサポートされません。
N1+P100 GPU
次のインスタンス構成で、NVIDIA P100 GPU を N1 汎用インスタンスに接続できます。
一部の NVIDIA P100 GPU では、一部の構成で使用できる CPU とメモリの最大値が、GPU リソースが実行されているゾーンによって異なります。
アクセラレータ タイプ | GPU 数 | GPU メモリ1(GB HBM2) | ゾーン | vCPU 数 | インスタンスのメモリ(GB) | サポート対象のローカル SSD |
---|---|---|---|---|---|---|
nvidia-tesla-p100 またはnvidia-tesla-p100-vws |
1 | 16 | すべての P100 ゾーン | 1~16 | 1~104 | はい |
2 | 32 | すべての P100 ゾーン | 1~32 | 1~208 | はい | |
4 | 64 | us-east1-c 、europe-west1-d 、europe-west1-b |
1 ~ 64 | 1~208 | はい | |
その他のすべての P100 ゾーン | 1~96 | 1~624 | はい |
1 GPU メモリは GPU デバイスで利用可能なメモリで、一時的なデータ保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
一般的な比較表
次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的なワークロード タイプを示します。
GPU モデル | GPU メモリ | 相互接続 | NVIDIA RTX 仮想ワークステーション(vWS)のサポート | 最適な用途 |
---|---|---|---|---|
GB200 | 180 GB HBM3e @ 8 TBps | NVLink Full Mesh @ 1,800 GBps | LLM、Recommender、HPC の大規模な分散トレーニングと推論 | |
B200 | 180 GB HBM3e @ 8 TBps | NVLink Full Mesh @ 1,800 GBps | LLM、Recommender、HPC の大規模な分散トレーニングと推論 | |
H200 | 141 GB HBM3e @ 4.8 TBps | NVLink Full Mesh @ 900 GBps | ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル | |
H100 | 80 GB HBM3 @ 3.35 TBps | NVLink Full Mesh @ 900 GBps | ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル | |
A100 80 GB | 80 GB HBM2e @ 1.9 TBps | NVLink Full Mesh @ 600 GBps | ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル | |
A100 40 GB | 40 GB HBM2 @ 1.6 TBps | NVLink Full Mesh @ 600 GBps | 機械学習のトレーニング、推論、HPC | |
RTX PRO 6000(プレビュー) | 96 GB GDDR7(ECC 付き)@ 1,597 GBps | なし | 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC | |
L4 | 24 GB GDDR6 @ 300 GBps | なし | 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC | |
T4 | 16 GB GDDR6 @ 320 GBps | なし | 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換 | |
V100 | 16 GB HBM2 @ 900 GBps | NVLink Ring @ 300 GBps | ML のトレーニング、推論、HPC | |
P4 | 8 GB GDDR5 @ 192 GBps | なし | リモート可視化のワークステーション、機械学習における推論、動画のコード変換 | |
P100 | 16 GB HBM2 @ 732 GBps | なし | ML のトレーニング、推論、HPC、リモート可視化のワークステーション |
Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。
パフォーマンスの比較グラフ
次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。
コンピューティング パフォーマンス
GPU モデル | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90 TFLOPS | 180 TFLOPS | ||
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 | 34 TFLOPS | 67 TFLOPS | ||
H100 | 34 TFLOPS | 67 TFLOPS | ||
A100 80 GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
L4 | 0.5 TFLOPS1 | 30.3 TFLOPS | ||
T4 | 0.25 TFLOPS1 | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS1 | 5.5 TFLOPS | 22 TOPS2 | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS |
1FP64 コードを正しく動作させるため、T4、L4、P4 GPU アーキテクチャには、少数の FP64 ハードウェア ユニットが組み込まれています。
2TeraOperations/秒
Tensor Core のパフォーマンス
GPU モデル | FP64 | TF32 | 混合精度 FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90 TFLOPS | 2,500 TFLOPS2 | 5,000 TFLOPS1, 2 | 10,000 TFLOPS2 | 20,000 TFLOPS2 | 10,000 TFLOPS2 |
B200 | 40 TFLOPS | 1,100 TFLOPS2 | 4,500 TFLOPS1, 2 | 9,000 TFLOPS2 | 9,000 TFLOPS2 | |
H200 | 67 TFLOPS | 989 TFLOPS2 | 1,979 TFLOPS1、2 | 3,958 TOPS2 | 3,958 TFLOPS2 | |
H100 | 67 TFLOPS | 989 TFLOPS2 | 1,979 TFLOPS1、2 | 3,958 TOPS2 | 3,958 TFLOPS2 | |
A100 80GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
A100 40GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS2 | 242 TFLOPS1、2 | 485 TOPS2 | 485 TFLOPS2 | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
1 混合適合率トレーニングでは、NVIDIA GB200、B200、H200、H100、A100、L4 GPU は bfloat16
データタイプもサポートします。
2NVIDIA GB200、B200、H200、H100、L4 GPU は構造的スパース性をサポートしています。構造的スパース性を使用すると、モデルのパフォーマンスを 2 倍にできます。記載されている値は、構造化スパース性を使用する場合に適用されます。構造化スパース性を使用していない場合、値は半分になります。
次のステップ
- Compute Engine GPU の詳細を確認する。
- GPU のリージョンとゾーンの可用性を確認します。
- ネットワーク帯域幅と GPU を確認する。
- GPU の料金の詳細をご覧ください。