Google は AI 技術を使用して、コンテンツをご希望の言語に翻訳しています。AI 翻訳には誤りが含まれる場合があります。

DRA ワークロード用に GKE インフラストラクチャを準備する

Standard

このドキュメントでは、Google Kubernetes Engine（GKE）のインフラストラクチャで動的リソース割り当て（DRA）を使用できるようにするための手動設定方法について説明します。設定手順には、GPU を使用するノードプールの作成と DRA ドライバのインストールが含まれます。

このドキュメントは、アプリケーションオペレーターがワークロードで要求できる特殊なハードウェアデバイスを使用してインフラストラクチャを作成するプラットフォーム管理者向けです。

制限事項

次の制限が適用されます。

GKE での DRA の制限事項
デバイス固有の制限事項。 DRA を使用するかどうかにかかわらず適用されます。Standard クラスタの GPU ワークロード

始める前に

始める前に、次のタスクが完了していることを確認してください。

Google Kubernetes Engine API を有効にする。

Google Kubernetes Engine API の有効化

このタスクに Google Cloud CLI を使用する場合は、インストールして初期化する gcloud CLI。gcloud CLI をインストール済みの場合は、最新のバージョンをgcloud components updateコマンドを実行して取得します。以前のバージョンの gcloud CLI では、このドキュメントのコマンドを実行できない場合があります。
注: gcloud CLI がすでにインストールされている場合には、必ず compute/region プロパティを設定してください。主にゾーンクラスタを使用する場合は、代わりに compute/zone を設定します。デフォルトのロケーションを設定することで、gcloud CLI のエラー（One of [--zone, --region] must be supplied: Please specify location など）を防止できます。クラスタのロケーションが設定したデフォルトと異なる場合は、特定のコマンドでロケーションの指定が必要になることがあります。

バージョン 1.35 以降を実行する GKE Standard クラスタがある。リージョンクラスタを作成することもできます。
Helm をインストールします。 Cloud Shell を使用する場合、Helm はすでにインストールされています。

GPU を使用して GKE ノードプールを作成する

このセクションでは、GPU ノードプールを作成し、対応する DRA ドライバをインストールする方法について説明します。このセクションの手順は、手動で作成したノードプールにのみ適用されます。DRA をサポートする GPU ノードプールを作成するには、次の操作を行う必要があります。

GPU ドライバの自動インストールを無効にする: --accelerator フラグで gpu-driver-version=disabled オプションを指定します。
GPU デバイスプラグインを無効にする: ノードプールに gke-no-default-nvidia-gpu-device-plugin=true ノードラベルを追加します。
DRA ドライバ DaemonSet を実行する: ノードプールに nvidia.com/gpu.present=true ノードラベルを追加します。
自動スケーリングを構成する: ノードプールでクラスタオートスケーラーを使用するには、ノードプールに cloud.google.com/gke-nvidia-gpu-dra-driver=true ノードラベルを追加します。クラスタオートスケーラーは、このノードラベルを使用して、GPU の DRA ドライバを実行するノードを識別します。

GPU ノードプールを作成して構成する手順は次のとおりです。

GPU ノードプールを作成します。次のコマンド例では、構成が異なるノードプールを作成します。

2 つの L4 GPU を搭載した g2-standard-24 インスタンスを含むノードプールを作成します。
```
gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
    --machine-type="g2-standard-24" \
    --accelerator="type=nvidia-l4,count=2,gpu-driver-version=disabled" \
    --num-nodes="1" \
    --node-labels=gke-no-default-nvidia-gpu-device-plugin=true,nvidia.com/gpu.present=true
```
次のように置き換えます。
- NODEPOOL_NAME: ノードプールの名前。
- CLUSTER_NAME: クラスタの名前。
- CONTROL_PLANE_LOCATION: クラスタコントロールプレーンのリージョンまたはゾーン（例: us-central1、us-central1-a）。
- NODE_LOCATION1,NODE_LOCATION2,...: ノードを作成する、コントロールプレーンと同じリージョンのゾーンのカンマ区切りリスト。GPU を使用できるゾーンを選択します。

各インスタンスに 1 つの NVIDIA A100（80 GB）GPU を搭載した a2-ultragpu-1g インスタンスを使用して、自動スケーリングされたノードプールを作成します。

gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
    --enable-autoscaling \
    --max-nodes=5 \
    --machine-type="a2-ultragpu-1g" \
    --accelerator="type=nvidia-a100-80gb,count=1,gpu-driver-version=disabled" \
    --num-nodes="1" \
    --node-labels=gke-no-default-nvidia-gpu-device-plugin=true,nvidia.com/gpu.present=true,cloud.google.com/gke-nvidia-gpu-dra-driver=true

NVIDIA GPU ドライバを手動でインストールします。
DRA ドライバをインストールします。

DRA ドライバをインストールする

NVIDIA DRA ドライバを含む Helm チャートを pull して更新します。

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \
    && helm repo update

バージョン 25.8.0 以降の NVIDIA DRA GPU ドライバをインストールします。

helm install nvidia-dra-driver-gpu nvidia/nvidia-dra-driver-gpu \
    --version="25.8.0" --create-namespace --namespace=nvidia-dra-driver-gpu \
    --set nvidiaDriverRoot="/home/kubernetes/bin/nvidia/" \
    --set gpuResourcesEnabledOverride=true \
    --set resources.computeDomains.enabled=false \
    --set kubeletPlugin.priorityClassName="" \
    --set 'kubeletPlugin.tolerations[0].key=nvidia.com/gpu' \
    --set 'kubeletPlugin.tolerations[0].operator=Exists' \
    --set 'kubeletPlugin.tolerations[0].effect=NoSchedule'

Ubuntu ノードの場合は、"/opt/nvidia" ディレクトリパスを --set nvidiaDriverRoot フラグで指定します。

インフラストラクチャが DRA に対応していることを確認する

DRA ドライバ Pod が実行されていることを確認します。

kubectl get pods -n nvidia-dra-driver-gpu

出力は次のようになります。

NAME                                         READY   STATUS    RESTARTS   AGE
nvidia-dra-driver-gpu-kubelet-plugin-52cdm   1/1     Running   0          46s

追加したハードウェアデバイスが ResourceSlice に一覧表示されていることを確認します。

kubectl get resourceslices -o yaml