GPU インスタンスについて

このドキュメントでは、Compute Engine で実行される GPU 仮想マシン（VM）インスタンスの機能と制限事項について説明します。

Compute Engine で特定のワークロードを高速化するには、GPU が割り当てられたアクセラレータ最適化インスタンスをデプロイするか、N1 汎用 VM にインスタンスを割り当てます。Compute Engine は、インスタンスにパススルーモードで GPU を提供します。パススルーモードでは、インスタンスで GPU とそのメモリを直接制御できます。

一部の GPU マシンタイプは AI Hypercomputer でも使用できます。AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティングシステムです。このオプションは、Google Kubernetes Engine（GKE）スケジューラや Slurm スケジューラの統合を含む、パフォーマンスが最適化された密な割り当てのインフラストラクチャを作成する場合に推奨されます。

サポートされているマシンタイプ

Compute Engine には、さまざまなワークロードをサポートするさまざまなマシンタイプが用意されています。

一部のマシンタイプは、NVIDIA RTX 仮想ワークステーション（vWS）をサポートしています。NVIDIA RTX 仮想ワークステーションを使用するインスタンスを作成すると、Compute Engine によって vWS ライセンスが自動的に追加されます。仮想ワークステーションの料金については、GPU の料金ページをご覧ください。

GPU マシンタイプ
AI と ML のワークロード	グラフィックと可視化	その他の GPU ワークロード
アクセラレータ最適化 A シリーズマシンタイプは、ハイパフォーマンスコンピューティング（HPC）、AI、ML のワークロード向けに設計されています。後世代の A シリーズは、アクセラレータの大規模なクラスタを必要とする基盤モデルの事前トレーニングとファインチューニングに最適です。一方、A2 シリーズは、小規模なモデルのトレーニングと単一ホストの推論に使用できます。これらのマシンタイプの場合、GPU モデルはインスタンスに自動的に割り当てられます。	アクセラレータ最適化 G シリーズマシンタイプは、NVIDIA Omniverse シミュレーションワークロード、グラフィック処理を多用するアプリケーション、動画のコード変換、仮想デスクトップなどのワークロード向けに設計されています。これらのマシンタイプは、NVIDIA RTX 仮想ワークステーション（vWS）をサポートしています。 G シリーズは、小規模なモデルのトレーニングや単一ホストの推論にも使用できます。これらのマシンタイプの場合、GPU モデルはインスタンスに自動的に割り当てられます。	N1 共有コア（`f1-micro` と `g1-small`）を除く N1 汎用マシンタイプには、選択した GPU モデルのセットを割り当てることができます。これらの GPU モデルの一部は、NVIDIA RTX 仮想ワークステーション（vWS）もサポートしています。
A4X（NVIDIA GB200 Superchip）（`nvidia-gb200`） A4（NVIDIA B200）（`nvidia-b200`） A3 Ultra（NVIDIA H200）（`nvidia-h200-141gb`） A3 Mega（NVIDIA H100）（`nvidia-h100-mega-80gb`） A3 High（NVIDIA H100）（`nvidia-h100-80gb`） A3 Edge（NVIDIA H100）（`nvidia-h100-80gb`） A2 Ultra（NVIDIA A100 80 GB）（`nvidia-a100-80gb`） A2 標準（NVIDIA A100）（`nvidia-a100-40gb`）	G4（NVIDIA RTX PRO 6000）（`nvidia-rtx-pro-6000`）（`nvidia-rtx-pro-6000-vws`） G2（NVIDIA L4）（`nvidia-l4`）（`nvidia-l4-vws`）	次の GPU モデルを N1 汎用マシンタイプに割り当てることができます。 NVIDIA T4 （`nvidia-tesla-t4`）（`nvidia-tesla-t4-vws`） NVIDIA P4 （`nvidia-tesla-p4`）（`nvidia-tesla-p4-vws`） NVIDIA V100 （`nvidia-tesla-v100`） NVIDIA P100 （`nvidia-tesla-p100`）（`nvidia-tesla-p100-vws`）

GPU マシンタイプ

AI と ML のワークロードグラフィックと可視化その他の GPU ワークロード

アクセラレータ最適化 A シリーズマシンタイプは、ハイパフォーマンスコンピューティング（HPC）、AI、ML のワークロード向けに設計されています。

後世代の A シリーズは、アクセラレータの大規模なクラスタを必要とする基盤モデルの事前トレーニングとファインチューニングに最適です。一方、A2 シリーズは、小規模なモデルのトレーニングと単一ホストの推論に使用できます。

これらのマシンタイプの場合、GPU モデルはインスタンスに自動的に割り当てられます。

アクセラレータ最適化 G シリーズマシンタイプは、NVIDIA Omniverse シミュレーションワークロード、グラフィック処理を多用するアプリケーション、動画のコード変換、仮想デスクトップなどのワークロード向けに設計されています。これらのマシンタイプは、NVIDIA RTX 仮想ワークステーション（vWS）をサポートしています。

G シリーズは、小規模なモデルのトレーニングや単一ホストの推論にも使用できます。

これらのマシンタイプの場合、GPU モデルはインスタンスに自動的に割り当てられます。

N1 共有コア（f1-micro と g1-small）を除く N1 汎用マシンタイプには、選択した GPU モデルのセットを割り当てることができます。これらの GPU モデルの一部は、NVIDIA RTX 仮想ワークステーション（vWS）もサポートしています。

A4X（NVIDIA GB200 Superchip）
（nvidia-gb200）
A4（NVIDIA B200）
（nvidia-b200）
A3 Ultra（NVIDIA H200）
（nvidia-h200-141gb）
A3 Mega（NVIDIA H100）
（nvidia-h100-mega-80gb）
A3 High（NVIDIA H100）
（nvidia-h100-80gb）
A3 Edge（NVIDIA H100）
（nvidia-h100-80gb）
A2 Ultra（NVIDIA A100 80 GB）
（nvidia-a100-80gb）
A2 標準（NVIDIA A100）
（nvidia-a100-40gb）

G4（NVIDIA RTX PRO 6000）
（nvidia-rtx-pro-6000）
（nvidia-rtx-pro-6000-vws）
G2（NVIDIA L4）
（nvidia-l4）
（nvidia-l4-vws）

次の GPU モデルを N1 汎用マシンタイプに割り当てることができます。

NVIDIA T4
（nvidia-tesla-t4）
（nvidia-tesla-t4-vws）
NVIDIA P4
（nvidia-tesla-p4）
（nvidia-tesla-p4-vws）
NVIDIA V100
（nvidia-tesla-v100）
NVIDIA P100
（nvidia-tesla-p100）
（nvidia-tesla-p100-vws）

Spot VM 上の GPU

Spot VM には、低価格のスポット価格で GPU を追加できます。Spot VM に接続された GPU は、通常の GPU と同様に機能しますが、維持されるのは VM の存続期間中のみです。GPU を接続した Spot VM は、すべての Spot VM と同じプリエンプションプロセスに従います。

Spot VM の GPU に専用の Preemptible GPU 割り当てをリクエストすることを検討してください。詳細については、Spot VM の割り当てをご覧ください。

メンテナンスイベント中は、GPU を使用する Spot VM がデフォルトでプリエンプトされます。この VM を自動的に再起動することはできません。プリエンプトされた後で VM を再作成する場合には、マネージドインスタンスグループを使用します。マネージドインスタンスグループは、vCPU、メモリ、GPU リソースが利用可能であれば、VM インスタンスを再作成します。

VM のプリエンプト前に警告を受けるようにする場合、またはメンテナンスイベントの終了後に VM が自動的に再起動するように構成する場合は、GPU を搭載した標準の VM を使用します。GPU を搭載した標準 VM の場合、Compute Engine はプリエンプションの 1 時間前に通知を送信します。

VM の実行が開始してから 1 分以内に VM がプリエンプトされた場合、Compute Engine では GPU に対する課金を行いません。

GPU がアタッチされた Spot VM の作成方法については、GPU が接続された VM を作成すると Spot VM の作成をご覧ください。たとえば、Spot VM を使用して A3 Ultra インスタンスまたは A4 インスタンスを作成するをご覧ください。

実行時間が事前に定義されているインスタンスの GPU

通常、標準プロビジョニングモデルを使用するインスタンスは、プリエンプティブルの数量に基づく割り当てを使用できません。プリエンプティブル割り当ては一時的なワークロードを対象としており、通常はより利用しやすいものです。プロジェクトにプリエンプティブル割り当てがなく、リクエストしたことがない場合、プロジェクト内のすべてのインスタンスは標準の数量に基づく割り当てを消費します。

プリエンプティブルの数量に基づく割り当てをリクエストする場合、標準プロビジョニングモデルを使用するインスタンスは、プリエンプティブルの数量に基づく割り当てを消費するために次のすべての条件を満たす必要があります。

インスタンスに GPU が割り当てられている。
maxRunDuration フィールドまたは terminationTime フィールドを使用して、事前に定義された実行時間の後にインスタンスが自動的に削除されるように構成されている。詳しくは以下をご覧ください。
- インスタンスの実行時間を制限する
- MIG 内のインスタンスの実行時間を制限する
インスタンスに予約の使用が許可されていない。詳細については、コンピューティングインスタンスが予約を使用しないようにするをご覧ください。

時間制限のある GPU ワークロードにプリエンプティブル割り当てを使用すると、連続実行時間とプリエンプティブルの数量に基づく割り当ての高取得可能性の両方のメリットを享受できます。詳細については、プリエンプティブル割り当てをご覧ください。

GPU と Confidential VMs

A3 マシンシリーズで Intel TDX を使用する Confidential VM インスタンスで GPU を使用できます。詳細については、Confidential VM のサポートされている構成をご覧ください。GPU を使用して Confidential VM インスタンスを作成する方法については、GPU を使用して Confidential VM インスタンスを作成するをご覧ください。

GPU とブロックストレージ

GPU マシンタイプを使用してインスタンスを作成するときに、インスタンスに永続的ブロックストレージまたは一時的なブロックストレージを追加できます。一時的でないデータを保存するには、Hyperdisk や Persistent Disk などの永続ブロックストレージを使用します。ディスクはインスタンスのライフサイクルから独立しているためです。永続ストレージ上のデータは、インスタンスを削除した後も保持できます。

一時的なスクラッチストレージまたはキャッシュの場合は、インスタンスの作成時にローカル SSD ディスクを追加して、一時的なブロックストレージを使用します。

Persistent Disk ボリュームと Hyperdisk ボリュームを使用する永続ブロックストレージ

GPU 対応インスタンスには、Persistent Disk をアタッチし、Hyperdisk ボリュームを選択できます。

ML とサービングワークロードには、Hyperdisk ML ボリュームを使用します。これにより、スループットの向上とデータ読み込み時間の短縮が実現します。GPU アイドル時間が短くなるため、Hyperdisk ML は ML ワークロードにとって費用対効果に優れたオプションとなります。

Hyperdisk ML ボリュームは読み取り専用のマルチアタッチをサポートしているため、同じディスクを複数のインスタンスにアタッチして、各インスタンスが同じデータにアクセスできるようにできます。

GPU をサポートするマシンシリーズでサポートされているディスクタイプの詳細については、N1 とアクセラレータ最適化マシンシリーズのページをご覧ください。

ローカル SSD ディスク

ローカル SSD ディスクは、キャッシュ、データ処理、その他の一時的なデータ用の高速な一時ストレージです。ローカル SSD ディスクは、インスタンスをホストするサーバーに物理的にアタッチされているため、高速ストレージを提供します。ローカル SSD ディスクは、インスタンスが再起動するとデータが失われるため、一時ストレージを提供します。

永続性に関する厳しい要件を持つデータをローカル SSD ディスクに保存しないでください。一時的でないデータを保存するには、代わりに永続ストレージを使用します。

GPU が搭載されたインスタンスを手動で停止すると、ローカル SSD のデータを保持できますが、一定の制限があります。詳細については、ローカル SSD のドキュメントをご覧ください。

GPU タイプでのローカル SSD のリージョンサポートについては、GPU リージョンとゾーンごとのローカル SSD の可用性をご覧ください。

GPU とホストのメンテナンス

Compute Engine は、ホストサーバーでメンテナンスイベントを実行すると、GPU が割り当てられているインスタンスを常に停止します。インスタンスにローカル SSD ディスクがアタッチされている場合、インスタンスの停止後にローカル SSD データが失われます。

メンテナンスイベントの処理については、GPU ホストメンテナンスイベントの処理をご覧ください。

GPU 容量を予約する

予約を使用すると、GPU などのゾーン固有のリソースの容量を確実に確保できます。予約を使用すると、パフォーマンス重視のアプリケーションで GPU を使用する必要がある場合に、GPU を確実に利用できます。Compute Engine でゾーン固有のリソースを予約するさまざまな方法については、予約タイプを選択するをご覧ください。

GPU の確約利用割引（CUD）を利用する場合も予約が必要です。

GPU の料金

Spot、Flex Start、または予約にバインドされたプロビジョニングモデルを使用して GPU をプロビジョニングするように Compute Engine にリクエストすると、GPU のタイプに応じて割引価格で GPU を取得できます。GPU の使用量に対して、確約利用割引または継続利用割引（N1 VM のみ）を受けることもできます。

GPU の時間単位および月単位の料金については、GPU の料金ページをご覧ください。

GPU の確約利用割引

リソースベースのコミットメントでは、特定のリージョンでリソースを 1 年以上使用することを確約することで、Compute Engine リソースに対して大幅な割引が適用されます。通常、特定のマシンシリーズのリソース（vCPU、メモリ、GPU、ローカル SSD ディスクなど）のコミットメントを購入します。リソースを使用すると、対象となるリソース使用量が割引価格で提供されます。これらの割引について詳しくは、リソースベースの確約利用割引をご覧ください。

GPU を含むコミットメントを購入するには、GPU を予約し、予約をコミットメントに関連付ける必要があります。予約をコミットメントに関連付ける方法については、リソースベースのコミットメントに予約を関連付けるをご覧ください。

GPU の継続利用割引

GPU が割り当てられた N1 マシンタイプを使用するインスタンスには、vCPU と同様に継続利用割引（SUD）が適用されます。仮想ワークステーションの GPU を選択すると、Compute Engine によって NVIDIA RTX 仮想ワークステーションライセンスが自動的にインスタンスに追加されます。

GPU の制限事項

GPU が割り当てられたインスタンスの場合、次の制限事項が適用されます。

GPU をサポートしているのは、アクセラレータ最適化（A4X、A4、A3、A2、G4、G2）マシンタイプと汎用 N1 マシンタイプのみです。
Compute Engine システムとユーザーを保護するため、新しいプロジェクトにはグローバル GPU 割り当てが設定されます。この割り当ては、サポート対象のすべてのゾーンで作成できる GPU の総数を制限するものです。GPU 割り当てをリクエストするときは、各リージョンで作成する GPU モデルに対する割り当てに加え、すべてのゾーンにおけるすべてのタイプの GPU の総数に対するグローバル割り当てもリクエストする必要があります。
GPU を使用するインスタンスには、インスタンスに追加する GPU ごとに、vCPU の最大数が設定されます。各種 GPU 構成で使用可能な vCPU とメモリの範囲を確認するには、GPU リストをご覧ください。
GPU が正しく機能するにはデバイスドライバが必要です。Compute Engine で動作する NVIDIA GPU では、最小限のドライババージョンを使用する必要があります。ドライババージョンの詳細については、必要な NVIDIA ドライバのバージョンをご覧ください。
Compute Engine SLA は、割り当てられた GPU モデルが一般提供されている場合にのみ、割り当てられた GPU モデルを使用するインスタンスを対象とします。

複数のゾーンがあるリージョンの場合、Compute Engine SLA は、GPU モデルがそのリージョン内の複数のゾーンで使用可能な場合にのみ、インスタンスを対象とします。リージョンごとの GPU モデルについては、GPU のリージョンとゾーンをご覧ください。
Compute Engine は、GPU あたり 1 人の同時利用ユーザーをサポートしています。
また、GPU がアタッチされている各マシンタイプの制限事項もご覧ください。

次のステップ

GPU が接続されたインスタンスを作成する方法を学習する。
GPU の追加または削除方法を学習する。
GPU を接続した Confidential VM インスタンスの作成方法を学習する。