GPU が割り当てられたインスタンスの作成の概要

このドキュメントでは、グラフィック プロセッシング ユニット(GPU)がアタッチされた Compute Engine インスタンスを作成するために必要な手順の概要について説明します。GPU を使用して、ML やデータ処理などの特定のワークロードを高速化できます。

一部の GPU マシンタイプは AI Hypercomputer でも使用できます。AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティング システムです。このオプションは、Google Kubernetes Engine(GKE)スケジューラや Slurm スケジューラの統合を含む、パフォーマンスが最適化された密な割り当てのインフラストラクチャを作成する場合に推奨されます。

Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。

GPU モデルを選択する

利用可能な GPU モデルのリストについては、GPU プラットフォームをご覧ください。また、選択した GPU モデルでサポートされているマシンタイプをメモしておいてください。

モデルごとに、次の点も確認することをおすすめします。

制限事項

GPU を備えたすべてのインスタンスの制限に加えて、GPU が割り当てられた各マシンシリーズには次の制限があります。

A4X インスタンス

A4 インスタンス

  • 容量をリクエストできるのは、A4 マシンタイプのサポートされている使用オプションを使用する場合のみです。
  • A4 マシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • A4 マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
  • A4 マシンタイプを使用するインスタンスでは、 Persistent Disk(リージョンまたはゾーン)を使用できません。
  • A4 マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
  • 既存のインスタンスのマシンタイプを A4 マシンタイプに変更することはできません。新しい A4 インスタンスの作成は可能です。A4 マシンタイプを使用してインスタンスを作成した後、マシンタイプを変更することはできません。
  • A4 マシンタイプは、単一テナンシーをサポートしません。
  • A4 マシンタイプでは Windows オペレーティング システムを実行できません。

A3 Ultra インスタンス

  • 容量をリクエストできるのは、A3 Ultra マシンタイプのサポートされている使用オプションを使用する場合のみです。
  • A3 Ultra マシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • A3 Ultra マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
  • A3 Ultra マシンタイプを使用するインスタンスでは、 Persistent Disk(リージョンまたはゾーン)を使用できません。
  • A3 Ultra マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
  • 既存のインスタンスのマシンタイプを A3 Ultra マシンタイプに変更することはできません。新しい A3-ultra インスタンスの作成は可能です。A3 Ultra マシンタイプを使用してインスタンスを作成した後、マシンタイプを変更することはできません。
  • A3 Ultra マシンタイプは、単一テナンシーをサポートしません。
  • A3 Ultra マシンタイプでは Windows オペレーティング システムを実行できません。

A3 Mega インスタンス

  • 容量をリクエストできるのは、A3 Mega マシンタイプのサポートされている使用オプションを使用する場合のみです。
  • A3 Mega マシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • A3 Mega マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
  • A3 Mega マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
  • A3 Mega マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
  • 既存のインスタンスのマシンタイプを A3 Mega マシンタイプに変更することはできません。新しい A3-mega インスタンスの作成は可能です。A3 Mega マシンタイプを使用してインスタンスを作成した後は、マシンタイプを変更できません。
  • A3 Mega マシンタイプは、単一テナンシーをサポートしません。
  • A3 Mega マシンタイプでは Windows オペレーティング システムを実行できません。

A3 High インスタンス

A3 Edge インスタンス

  • 容量をリクエストできるのは、A3 Edge マシンタイプのサポートされている使用オプションを使用する場合のみです。
  • A3 Edge マシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • A3 Edge マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
  • A3 Edge マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
  • A3 Edge マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
  • 既存のインスタンスのマシンタイプを A3 Edge マシンタイプに変更することはできません。新しい A3-edge インスタンスの作成は可能です。A3 Edge マシンタイプを使用してインスタンスを作成した後は、マシンタイプを変更できません。
  • A3 Edge マシンタイプは、単一テナンシーをサポートしません。
  • A3 Edge マシンタイプでは Windows オペレーティング システムを実行できません。

A2 Standard インスタンス

  • 容量をリクエストできるのは、A2 標準マシンタイプのサポートされている消費オプションを使用する場合のみです。
  • A2 標準マシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • A2 標準マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
  • A2 標準マシンタイプは、Cascade Lake プラットフォームでのみ使用できます。
  • インスタンスが A2 標準マシンタイプを使用している場合は、ある A2 標準マシンタイプから別の A2 標準マシンタイプにのみ切り替えることができます。他のマシンタイプには変更できません。詳細については、アクセラレータ最適化インスタンスを変更するをご覧ください。
  • a2-megagpu-16g A2 標準マシンタイプでは Windows オペレーティング システムを使用できません。Windows オペレーティング システムを使用する場合は、別の A2 標準マシンタイプを選択します。
  • A2 標準マシンタイプを使用する Windows インスタンスでは、アタッチされたローカル SSD のクイック フォーマットを行うことができません。これらのローカル SSD をフォーマットするには、diskpart ユーティリティを使用し、format fs=ntfs label=tmpfs を指定して完全フォーマットを行う必要があります。
  • A2 標準マシンタイプは、単一テナンシーをサポートしません。

A2 Ultra インスタンス

  • 容量をリクエストできるのは、A2 Ultra マシンタイプのサポートされている使用量オプションを使用する場合のみです。
  • A2 Ultra マシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • A2 Ultra マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
  • A2 Ultra マシンタイプは、Cascade Lake プラットフォームでのみ使用できます。
  • インスタンスが A2 Ultra マシンタイプを使用している場合、マシンタイプを変更することはできません。別の A2 Ultra マシンタイプやその他のマシンタイプを使用するには、新しいインスタンスを作成する必要があります。
  • 他のマシンタイプを A2 Ultra マシンタイプに変更することはできません。A2 Ultra マシンタイプを使用するインスタンスが必要な場合は、新しいインスタンスを作成する必要があります。
  • A2 Ultra マシンタイプを使用する Windows インスタンスでは、アタッチされたローカル SSD のクイック フォーマットを行うことができません。これらのローカル SSD をフォーマットするには、diskpart ユーティリティを使用し、format fs=ntfs label=tmpfs を指定して完全フォーマットを行う必要があります。

G4 インスタンス

  • 容量をリクエストできるのは、G4 マシンタイプのサポートされている使用オプションを使用する場合のみです。
  • G4 マシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • G4 マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
  • G4 マシンタイプを使用するインスタンスでは、Persistent Disk(リージョンまたはゾーン)を使用できません。
  • G4 マシンタイプは、AMD EPYC Turin 第 5 世代プラットフォームでのみ使用できます。
  • オンデマンド インスタンスのみを作成できます。予約、Flex Start VM、Spot VM はサポートされていません。G4 インスタンスの使用を開始するには、Google アカウント チームにお問い合わせください。
  • G4 インスタンスは us-central1-b でのみ作成できます。
  • G4 マシンタイプを使用するインスタンスでは、Hyperdisk Balanced ディスクタイプと Hyperdisk Extreme ディスクタイプのみを使用できます。
  • G4 マシンタイプを使用するインスタンスに確約利用割引を適用することはできません。
  • G4 マシンタイプを使用する Confidential VM インスタンスは作成できません。
  • 単一テナントノードに G4 インスタンスを作成することはできません。
  • NVIDIA RTX 仮想ワークステーション(vWS)を使用する G4 インスタンスを作成することはできません。

G2 インスタンス

  • 容量をリクエストできるのは、G2 マシンタイプのサポートされている使用オプションを使用する場合のみです。
  • G2 マシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • G2 マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
  • G2 マシンタイプは、Cascade Lake プラットフォームでのみ使用できます。
  • 標準 Persistent Disk(pd-standard)は、G2 マシンタイプを使用するインスタンスではサポートされていません。サポートされているディスクタイプについては、G2 でサポートされているディスクタイプをご覧ください。
  • G2 マシンタイプを使用するインスタンスでマルチインスタンス GPU を作成することはできません。
  • G2 インスタンスのマシンタイプを変更する必要がある場合は、アクセラレータ最適化インスタンスを変更するをご覧ください。
  • G2 マシンタイプを使用するインスタンスのブートディスクとして Deep Learning VM Image を使用することはできません。
  • Container-Optimized OS の現在のデフォルト ドライバは、G2 マシンタイプで実行される L4 GPU をサポートしていません。また、Container-Optimized OS は特定のドライバセットのみをサポートしています。G2 マシンタイプで Container-Optimized OS を使用する場合は、次の点に注意してください。
    • 推奨される最小の NVIDIA ドライバ バージョン 525.60.13 以降をサポートする Container-Optimized OS のバージョンを使用します。詳細については、Container-Optimized OS のリリースノートをご覧ください。
    • ドライバをインストールするときに、L4 GPU で動作する最新の最新バージョンを指定します。 例: sudo cos-extensions install gpu -- -version=525.60.13
  • 次のシナリオでは、Google Cloud CLI または REST を使用して G2 インスタンスを作成する必要があります。
    • カスタムメモリ値を指定する必要があります。
    • 表示可能な CPU コアの数をカスタマイズする必要があります。

N1+GPU インスタンス

GPU を使用する N1 インスタンスの制限事項については、N1 マシンシリーズの機能N1 マシンシリーズの GPU をご覧ください。

オペレーティング システムを選択する

ML に GPU を使用している場合は、次のいずれかのオペレーティング システムを使用します。

  • AI ワークロード用に最適化されたイメージ。Ubuntu イメージと Rocky イメージを使用できます。これらのイメージは、NVIDIA ドライバと CUDA ツールキットがプリインストールされたアクセラレータ向けの最適化バージョンで利用できます。AI Hypercomputer のドキュメントで OS イメージをご覧ください。

  • Deep Learning VM Image。各 Deep Learning VM には GPU ドライバのインストール ツールがあり、TensorFlow や PyTorch などのパッケージが含まれています。一般的な GPU ワークロードに Deep Learning VM Image を使用することもできます。使用可能なイメージと、これらのイメージにインストールされているパッケージの詳細については、Deep Learning VM のドキュメントのイメージの選択をご覧ください。

また、公開イメージまたはカスタム イメージを使用することもできます。ほとんどの公開イメージまたはカスタム イメージでは、NVIDIA ドライバと CUDA ツールキットをインストールする必要があります。GPU モデルに適したドライバを確認するには、GPU ドライバのインストールをご覧ください。

GPU 割り当てを確認する

Compute Engine システムとユーザーを保護するため、新しいプロジェクトにはグローバル GPU 割り当てが設定されます。この割り当ては、サポート対象のすべてのゾーンで作成できる GPU の総数を制限するものです。GPU の割り当てを確認するには、GPU の割り当てをご覧ください。

追加の GPU 割り当てが必要な場合は、割り当ての増加をリクエストします。GPU 割り当てをリクエストするときは、各リージョンで作成する GPU タイプに対する割り当てと、すべてのゾーンのすべての GPU タイプの合計数に対する追加のグローバル割り当てをリクエストする必要があります。

プロジェクトに確定済みのお支払い履歴がある場合、リクエストの送信後に割り当てが自動的にプロジェクトで受信されます。

GPU インスタンスとプリエンプティブルの数量に基づく割り当て

通常、標準プロビジョニング モデルを使用するインスタンスは、プリエンプティブルの数量に基づく割り当てを使用できません。プリエンプティブル割り当ては一時的なワークロードを対象としており、通常はより利用しやすいものです。プロジェクトにプリエンプティブル割り当てがなく、プリエンプティブル割り当てをリクエストしたことがない場合、プロジェクト内のすべてのインスタンスは標準の数量に基づく割り当てを使用します。

プリエンプティブルの数量に基づく割り当てをリクエストする場合、標準プロビジョニング モデルを使用するインスタンスは、プリエンプティブルの数量に基づく割り当てを使用するために次のすべての条件を満たす必要があります。

時間制限のある GPU ワークロードにプリエンプティブル割り当てを使用すると、連続実行時間とプリエンプティブルの数量に基づく割り当ての高取得可能性の両方のメリットを享受できます。詳細については、プリエンプティブル割り当てをご覧ください。

GPU が接続されているインスタンスを作成する

GPU がアタッチされたインスタンスを作成する手順は次のとおりです。

  1. インスタンスを作成します。インスタンスの作成方法は、選択した GPU モデルによって異なります。

  2. インスタンスで GPU を使用するには、インスタンスに GPU ドライバをインストールする必要があります。NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を有効にした場合は、仮想ワークステーション用のドライバをインストールします。

次のステップ