このドキュメントでは、グラフィック プロセッシング ユニット(GPU)がアタッチされた Compute Engine インスタンスを作成するために必要な手順の概要について説明します。GPU を使用して、ML やデータ処理などの特定のワークロードを高速化できます。
一部の GPU マシンタイプは AI Hypercomputer でも使用できます。AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティング システムです。このオプションは、Google Kubernetes Engine(GKE)スケジューラや Slurm スケジューラの統合を含む、パフォーマンスが最適化された密な割り当てのインフラストラクチャを作成する場合に推奨されます。
Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。
GPU モデルを選択する
利用可能な GPU モデルのリストについては、GPU プラットフォームをご覧ください。また、選択した GPU モデルでサポートされているマシンタイプをメモしておいてください。
モデルごとに、次の点も確認することをおすすめします。
- サポートされているリージョンとゾーン。
- GPU の料金。インスタンスで各 GPU モデルを使用する際の料金を確認します。アクセラレータ最適化マシンを使用するインスタンスについては、VM インスタンスの料金もご覧ください。
制限事項
GPU を備えたすべてのインスタンスの制限に加えて、GPU が割り当てられた各マシンシリーズには次の制限があります。
A4X インスタンス
- 容量をリクエストできるのは、A4X マシンタイプのサポートされている使用オプションを使用する場合のみです。
- A4X マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
- A4X マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
- A4X マシンタイプを使用するインスタンスでは、 Persistent Disk(リージョンまたはゾーン)を使用できません。
- A4X マシンタイプは、NVIDIA Grace プラットフォームでのみ使用できます。
- 既存のインスタンスのマシンタイプを A4X マシンタイプに変更することはできません。A4X インスタンスは新規作成のみ可能です。A4X マシンタイプを使用してインスタンスを作成した後、マシンタイプを変更することはできません。
- A4X マシンタイプでは Windows オペレーティング システムを実行できません。
- A4X インスタンスは、以下をサポートしていません。
A4 インスタンス
- 容量をリクエストできるのは、A4 マシンタイプのサポートされている使用オプションを使用する場合のみです。
- A4 マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
- A4 マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
- A4 マシンタイプを使用するインスタンスでは、 Persistent Disk(リージョンまたはゾーン)を使用できません。
- A4 マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
- 既存のインスタンスのマシンタイプを A4 マシンタイプに変更することはできません。新しい A4 インスタンスの作成は可能です。A4 マシンタイプを使用してインスタンスを作成した後、マシンタイプを変更することはできません。
- A4 マシンタイプは、単一テナンシーをサポートしません。
- A4 マシンタイプでは Windows オペレーティング システムを実行できません。
A3 Ultra インスタンス
- 容量をリクエストできるのは、A3 Ultra マシンタイプのサポートされている使用オプションを使用する場合のみです。
- A3 Ultra マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
- A3 Ultra マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
- A3 Ultra マシンタイプを使用するインスタンスでは、 Persistent Disk(リージョンまたはゾーン)を使用できません。
- A3 Ultra マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
- 既存のインスタンスのマシンタイプを A3 Ultra マシンタイプに変更することはできません。新しい A3-ultra インスタンスの作成は可能です。A3 Ultra マシンタイプを使用してインスタンスを作成した後、マシンタイプを変更することはできません。
- A3 Ultra マシンタイプは、単一テナンシーをサポートしません。
- A3 Ultra マシンタイプでは Windows オペレーティング システムを実行できません。
A3 Mega インスタンス
- 容量をリクエストできるのは、A3 Mega マシンタイプのサポートされている使用オプションを使用する場合のみです。
- A3 Mega マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
- A3 Mega マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
- A3 Mega マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
- A3 Mega マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
- 既存のインスタンスのマシンタイプを A3 Mega マシンタイプに変更することはできません。新しい A3-mega インスタンスの作成は可能です。A3 Mega マシンタイプを使用してインスタンスを作成した後は、マシンタイプを変更できません。
- A3 Mega マシンタイプは、単一テナンシーをサポートしません。
- A3 Mega マシンタイプでは Windows オペレーティング システムを実行できません。
A3 High インスタンス
- 容量をリクエストできるのは、A3 High マシンタイプのサポートされている使用オプションを使用する場合のみです。
- A3 High マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
- A3 High マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
- A3 High マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
- A3 High マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
- 既存のインスタンスのマシンタイプを A3 High マシンタイプに変更することはできません。新しい A3-high インスタンスの作成は可能です。A3 High マシンタイプを使用してインスタンスを作成した後、マシンタイプを変更することはできません。
- A3 High マシンタイプは、単一テナンシーをサポートしません。
- A3 High マシンタイプでは Windows オペレーティング システムを実行できません。
a3-highgpu-1g
、a3-highgpu-2g
、a3-highgpu-4g
のマシンタイプの場合、Spot VM または Flex-start VM を使用してインスタンスを作成する必要があります。これらのオプションの詳細な手順については、以下をご覧ください。- Spot VM を作成するには、アクセラレータ最適化 VM を作成するときにプロビジョニング モデルを
SPOT
に設定します。 - Flex Start VM を作成するには、次のいずれかの方法を使用します。
- スタンドアロン VM を作成し、アクセラレータ最適化 VM を作成するときにプロビジョニング モデルを
FLEX_START
に設定します。 - マネージド インスタンス グループ(MIG)でサイズ変更リクエストを作成します。手順については、GPU VM を使用する MIG を作成するをご覧ください。
- スタンドアロン VM を作成し、アクセラレータ最適化 VM を作成するときにプロビジョニング モデルを
- Spot VM を作成するには、アクセラレータ最適化 VM を作成するときにプロビジョニング モデルを
a3-highgpu-1g
マシンタイプを使用する Confidential VM は、限られたリージョンとゾーンでのみ使用できます。また、A3 High マシンタイプで実行される Confidential VM のすべての制限が適用されます。
A3 Edge インスタンス
- 容量をリクエストできるのは、A3 Edge マシンタイプのサポートされている使用オプションを使用する場合のみです。
- A3 Edge マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
- A3 Edge マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
- A3 Edge マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
- A3 Edge マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
- 既存のインスタンスのマシンタイプを A3 Edge マシンタイプに変更することはできません。新しい A3-edge インスタンスの作成は可能です。A3 Edge マシンタイプを使用してインスタンスを作成した後は、マシンタイプを変更できません。
- A3 Edge マシンタイプは、単一テナンシーをサポートしません。
- A3 Edge マシンタイプでは Windows オペレーティング システムを実行できません。
A2 Standard インスタンス
- 容量をリクエストできるのは、A2 標準マシンタイプのサポートされている消費オプションを使用する場合のみです。
- A2 標準マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
- A2 標準マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
- A2 標準マシンタイプは、Cascade Lake プラットフォームでのみ使用できます。
- インスタンスが A2 標準マシンタイプを使用している場合は、ある A2 標準マシンタイプから別の A2 標準マシンタイプにのみ切り替えることができます。他のマシンタイプには変更できません。詳細については、アクセラレータ最適化インスタンスを変更するをご覧ください。
a2-megagpu-16g
A2 標準マシンタイプでは Windows オペレーティング システムを使用できません。Windows オペレーティング システムを使用する場合は、別の A2 標準マシンタイプを選択します。- A2 標準マシンタイプを使用する Windows インスタンスでは、アタッチされたローカル SSD のクイック フォーマットを行うことができません。これらのローカル SSD をフォーマットするには、diskpart ユーティリティを使用し、
format fs=ntfs label=tmpfs
を指定して完全フォーマットを行う必要があります。 - A2 標準マシンタイプは、単一テナンシーをサポートしません。
A2 Ultra インスタンス
- 容量をリクエストできるのは、A2 Ultra マシンタイプのサポートされている使用量オプションを使用する場合のみです。
- A2 Ultra マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
- A2 Ultra マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
- A2 Ultra マシンタイプは、Cascade Lake プラットフォームでのみ使用できます。
- インスタンスが A2 Ultra マシンタイプを使用している場合、マシンタイプを変更することはできません。別の A2 Ultra マシンタイプやその他のマシンタイプを使用するには、新しいインスタンスを作成する必要があります。
- 他のマシンタイプを A2 Ultra マシンタイプに変更することはできません。A2 Ultra マシンタイプを使用するインスタンスが必要な場合は、新しいインスタンスを作成する必要があります。
- A2 Ultra マシンタイプを使用する Windows インスタンスでは、アタッチされたローカル SSD のクイック フォーマットを行うことができません。これらのローカル SSD をフォーマットするには、diskpart ユーティリティを使用し、
format fs=ntfs label=tmpfs
を指定して完全フォーマットを行う必要があります。
G4 インスタンス
- 容量をリクエストできるのは、G4 マシンタイプのサポートされている使用オプションを使用する場合のみです。
- G4 マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
- G4 マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
- G4 マシンタイプを使用するインスタンスでは、Persistent Disk(リージョンまたはゾーン)を使用できません。
- G4 マシンタイプは、AMD EPYC Turin 第 5 世代プラットフォームでのみ使用できます。
- オンデマンド インスタンスのみを作成できます。予約、Flex Start VM、Spot VM はサポートされていません。G4 インスタンスの使用を開始するには、Google アカウント チームにお問い合わせください。
- G4 インスタンスは
us-central1-b
でのみ作成できます。 - G4 マシンタイプを使用するインスタンスでは、Hyperdisk Balanced ディスクタイプと Hyperdisk Extreme ディスクタイプのみを使用できます。
- G4 マシンタイプを使用するインスタンスに確約利用割引を適用することはできません。
- G4 マシンタイプを使用する Confidential VM インスタンスは作成できません。
- 単一テナントノードに G4 インスタンスを作成することはできません。
- NVIDIA RTX 仮想ワークステーション(vWS)を使用する G4 インスタンスを作成することはできません。
G2 インスタンス
- 容量をリクエストできるのは、G2 マシンタイプのサポートされている使用オプションを使用する場合のみです。
- G2 マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
- G2 マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
- G2 マシンタイプは、Cascade Lake プラットフォームでのみ使用できます。
- 標準 Persistent Disk(
pd-standard
)は、G2 マシンタイプを使用するインスタンスではサポートされていません。サポートされているディスクタイプについては、G2 でサポートされているディスクタイプをご覧ください。 - G2 マシンタイプを使用するインスタンスでマルチインスタンス GPU を作成することはできません。
- G2 インスタンスのマシンタイプを変更する必要がある場合は、アクセラレータ最適化インスタンスを変更するをご覧ください。
- G2 マシンタイプを使用するインスタンスのブートディスクとして Deep Learning VM Image を使用することはできません。
- Container-Optimized OS の現在のデフォルト ドライバは、G2 マシンタイプで実行される L4 GPU をサポートしていません。また、Container-Optimized OS は特定のドライバセットのみをサポートしています。G2 マシンタイプで Container-Optimized OS を使用する場合は、次の点に注意してください。
- 推奨される最小の NVIDIA ドライバ バージョン
525.60.13
以降をサポートする Container-Optimized OS のバージョンを使用します。詳細については、Container-Optimized OS のリリースノートをご覧ください。 - ドライバをインストールするときに、L4 GPU で動作する最新の最新バージョンを指定します。
例:
sudo cos-extensions install gpu -- -version=525.60.13
- 推奨される最小の NVIDIA ドライバ バージョン
- 次のシナリオでは、Google Cloud CLI または REST を使用して G2 インスタンスを作成する必要があります。
- カスタムメモリ値を指定する必要があります。
- 表示可能な CPU コアの数をカスタマイズする必要があります。
N1+GPU インスタンス
GPU を使用する N1 インスタンスの制限事項については、N1 マシンシリーズの機能と N1 マシンシリーズの GPU をご覧ください。
オペレーティング システムを選択する
ML に GPU を使用している場合は、次のいずれかのオペレーティング システムを使用します。
AI ワークロード用に最適化されたイメージ。Ubuntu イメージと Rocky イメージを使用できます。これらのイメージは、NVIDIA ドライバと CUDA ツールキットがプリインストールされたアクセラレータ向けの最適化バージョンで利用できます。AI Hypercomputer のドキュメントで OS イメージをご覧ください。
Deep Learning VM Image。各 Deep Learning VM には GPU ドライバのインストール ツールがあり、TensorFlow や PyTorch などのパッケージが含まれています。一般的な GPU ワークロードに Deep Learning VM Image を使用することもできます。使用可能なイメージと、これらのイメージにインストールされているパッケージの詳細については、Deep Learning VM のドキュメントのイメージの選択をご覧ください。
また、公開イメージまたはカスタム イメージを使用することもできます。ほとんどの公開イメージまたはカスタム イメージでは、NVIDIA ドライバと CUDA ツールキットをインストールする必要があります。GPU モデルに適したドライバを確認するには、GPU ドライバのインストールをご覧ください。
GPU 割り当てを確認する
Compute Engine システムとユーザーを保護するため、新しいプロジェクトにはグローバル GPU 割り当てが設定されます。この割り当ては、サポート対象のすべてのゾーンで作成できる GPU の総数を制限するものです。GPU の割り当てを確認するには、GPU の割り当てをご覧ください。
追加の GPU 割り当てが必要な場合は、割り当ての増加をリクエストします。GPU 割り当てをリクエストするときは、各リージョンで作成する GPU タイプに対する割り当てと、すべてのゾーンのすべての GPU タイプの合計数に対する追加のグローバル割り当てをリクエストする必要があります。
プロジェクトに確定済みのお支払い履歴がある場合、リクエストの送信後に割り当てが自動的にプロジェクトで受信されます。
GPU インスタンスとプリエンプティブルの数量に基づく割り当て
通常、標準プロビジョニング モデルを使用するインスタンスは、プリエンプティブルの数量に基づく割り当てを使用できません。プリエンプティブル割り当ては一時的なワークロードを対象としており、通常はより利用しやすいものです。プロジェクトにプリエンプティブル割り当てがなく、プリエンプティブル割り当てをリクエストしたことがない場合、プロジェクト内のすべてのインスタンスは標準の数量に基づく割り当てを使用します。
プリエンプティブルの数量に基づく割り当てをリクエストする場合、標準プロビジョニング モデルを使用するインスタンスは、プリエンプティブルの数量に基づく割り当てを使用するために次のすべての条件を満たす必要があります。
- インスタンスに GPU がアタッチされている。
maxRunDuration
フィールドまたはterminationTime
フィールドを使用して、事前に定義された実行時間の後にインスタンスが自動的に削除されるように構成されている。詳しくは以下をご覧ください。- インスタンスに予約の使用が許可されていない。詳細については、コンピューティング インスタンスが予約を使用しないようにするをご覧ください。
時間制限のある GPU ワークロードにプリエンプティブル割り当てを使用すると、連続実行時間とプリエンプティブルの数量に基づく割り当ての高取得可能性の両方のメリットを享受できます。詳細については、プリエンプティブル割り当てをご覧ください。
GPU が接続されているインスタンスを作成する
GPU がアタッチされたインスタンスを作成する手順は次のとおりです。
インスタンスを作成します。インスタンスの作成方法は、選択した GPU モデルによって異なります。
- NVIDIA GB200 Grace Blackwell Superchip がアタッチされたインスタンスを作成するには、AI Hypercomputer のドキュメントのデプロイ オプションの概要をご覧ください。
- NVIDIA B200 または H200 GPU が割り当てられたインスタンスを作成するには、A3 Ultra または A4 インスタンスを作成するをご覧ください。
- NVIDIA H100、A100、L4 の GPU が割り当てられたインスタンスを作成するには、A3、A2、または G2 インスタンスを作成するをご覧ください。
- NVIDIA RTX PRO 6000 GPU が接続された G4 インスタンスの使用を開始する方法については、Google アカウント チームにお問い合わせください。
- NVIDIA T4、P4、P100、V100 の GPU が接続されたインスタンスを作成するには、GPU が接続された N1 インスタンスを作成するをご覧ください。
インスタンスで GPU を使用するには、インスタンスに GPU ドライバをインストールする必要があります。NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を有効にした場合は、仮想ワークステーション用のドライバをインストールします。
次のステップ
GPU プラットフォームの詳細を学習する。
GPU を使用する際の機能と制限事項について学習する。
- GPU の実際の使用量と予測される使用量を表示する方法を学習する。