Autopilot に GPU ワークロードをデプロイする

Autopilot

このページでは、Google Kubernetes Engine（GKE）Autopilot ワークロードでタスクを迅速化するために GPU をリクエストする方法について説明します。また、Autopilot が GPU を実行する方法、GKE のバージョンに応じて料金モデルが変わる仕組み、Pod のリソースリクエストと上限を設定する方法、GPU ワークロードをモニタリングする方法についても説明します。

このページは、ML トレーニングや推論などのタスクを実行するワークロード用に GPU をリクエストしたいと考えているプラットフォーム管理者や運用担当者、AI スペシャリストを対象としています。 Google Cloud のコンテンツで参照する一般的なロール、責任、タスク例の詳細については、一般的な GKE ユーザーロールとタスクをご覧ください。

続行する前に、次のコンセプトをよく理解しておいてください。

Pod でアクセラレータを選択する

Autopilot は、GPU Pod を実行するために専用の Accelerator コンピューティングクラスを使用します。このコンピューティングクラスを使用すると、GKE は GPU ノードに Pod を配置し、仮想マシン（VM）の高度な機能に Pod からアクセスできるようにします。このクラスを GPU ワークロードで使用するには、GKE バージョンに応じて次のいずれかの操作を行います。

バージョン 1.29.4-gke.1427000 以降: ワークロードマニフェストで GPU をリクエストします。タイムシェアリングなどの GPU 共有機能も使用できます。GKE がワークロードマニフェストを変更して Accelerator クラスのノードセレクタまたはアノテーションを追加することはありません。
バージョン 1.29 から 1.29.4-gke.142700 まで: Pod マニフェストで cloud.google.com/compute-class: Accelerator ノードセレクタを指定し、GPU をリクエストします。このノードセレクタを指定すると、タイムシェアリングなどの GPU 共有機能も使用できます。
バージョン 1.28.9-gke.1069000 からバージョン 1.29 まで: Pod マニフェストで、GPU セレクタとともに cloud.google.com/compute-class: Accelerator ノードセレクタを指定します。このノードセレクタを指定すると、タイムシェアリングなどの GPU 共有機能も使用できます。

Accelerator コンピューティングクラスは、1.28.9-gke.1069000 より前のバージョンではサポートされていません。代わりに、GKE はこれらのバージョンでの GPU Pod を他の Autopilot Pod と同様に扱いますが、リソースリクエストに対しては料金が請求されます。料金についての詳細は、こちらをご覧ください。

GKE 機能とのアクセラレータの互換性

次の表に、GKE Autopilot でアクセラレータを選択する各メソッドで使用できる GKE 機能を示します。

`Accelerator` コンピューティングクラスを選択済み	GKE 機能との互換性
	Spot Pod Autopilot プレミアムのコンピューティングフレキシブル確約利用割引（CUD）ノードハードウェアの Compute Engine CUD Compute Engine の容量の予約 GKE Sandbox
	Spot Pod 通常の Pod の Autopilot 確約利用割引（CUD）

料金

次の表に、GKE で使用される課金モデルがクラスタの GKE バージョンに依存する仕組みを示します。GKE Autopilot の課金モデルの詳細については、Autopilot の料金をご覧ください。

GKE バージョン	料金
1.29.4-gke.1427000 以降	ノードベースの課金モデル。すべての GPU Pod は Accelerator コンピューティングクラスを使用します。GPU ワークロードを実行する Compute Engine ハードウェアに加え、ノード管理とスケーラビリティに対して Autopilot プレミアムの料金が発生します。詳細については、Autopilot モードの料金をご覧ください。
バージョン 1.29 から 1.29.4-gke.1427000 より前までのバージョン	課金モデルは、次のように指定したノードセレクタによって異なります。 `cloud.google.com/compute-class: Accelerator`: ノードベースの課金モデルと Accelerator コンピューティングクラスを使用します。コンピューティングクラスセレクタなし: Pod ベースの課金モデルを使用します。マルチインスタンス GPU やタイムシェアリングなどの機能は、`cloud.google.com/compute-class: Accelerator` ノードセレクタを明示的に指定した場合にのみ使用できます。詳細については、Kubernetes Engine の料金の「特定のハードウェア要件がある Pod」をご覧ください。
バージョン 1.28.6-gke.1095000 から 1.29 より前までのバージョン	Pod のマニフェストで Accelerator コンピューティングクラスを指定しているかどうかにかかわらず、ノードベースの課金モデルを使用します。マルチインスタンス GPU やタイムシェアリングなどの機能は、`cloud.google.com/compute-class: Accelerator` ノードセレクタを明示的に指定した場合にのみ使用できます。詳細については、Kubernetes Engine の料金の「特定のハードウェア要件がある Pod」をご覧ください。
1.28.6-gke.1095000 より前のバージョン	Pod ベースの課金モデル。GPU Pod のリソースリクエストに基づいて課金されます。詳細については、Kubernetes Engine の料金の「特定のハードウェア要件がある Pod」をご覧ください。

Autopilot GPU の料金については次の点に注意してください。

すべての A100（80 GB）GPU ノードで、GPU の数に基づいて固定サイズのノードブートディスクのローカル SSD を使用します。接続されているローカル SSD に対して別途請求されます。この料金は、A100（40 GB）GPU には適用されません。
GKE Sandbox の料金は、デフォルトの Autopilot の料金と同じです。アクセラレータワークロードのサンドボックス化について詳しくは、GKE Sandbox と GKE Sandbox のスタートガイドをご覧ください。

始める前に

作業を始める前に、次のタスクが完了していることを確認してください。

Google Kubernetes Engine API を有効にする。

Google Kubernetes Engine API の有効化

このタスクに Google Cloud CLI を使用する場合は、gcloud CLI をインストールして初期化する。gcloud CLI をインストール済みの場合は、gcloud components update コマンドを実行して最新のバージョンを取得します。以前のバージョンの gcloud CLI では、このドキュメントのコマンドを実行できない場合があります。
注: gcloud CLI がすでにインストールされている場合には、必ず compute/region プロパティを設定してください。主にゾーンクラスタを使用する場合は、代わりに compute/zone を設定します。デフォルトのロケーションを設定することで、gcloud CLI のエラー（One of [--zone, --region] must be supplied: Please specify location など）を防止できます。クラスタのロケーションが設定したデフォルトと異なる場合は、特定のコマンドでロケーションの指定が必要になることがあります。

次の GPU または機能を使用するには、次のいずれかのバージョンを実行している GKE Autopilot クラスタがあることを確認します。
- NVIDIA B200（180 GB）GPU: 1.32.2-gke.1422000 以降
- NVIDIA H200（141 GB）GPU: 1.31.4-gke.1183000 以降
- NVIDIA H100 Mega（80 GB）GPU: 1.28.9-gke.1250000 以降、1.29.4-gke.1542000 以降
- NVIDIA H100（80 GB）GPU: 1.28.6-gke.1369000 以降、1.29.1-gke.1575000 以降
- NVIDIA RTX PRO 6000 GPU: 1.34.1-gke.1829001 以降
- VM あたり複数の GPU Pod: 1.29.2-gke.1355000 以降
- その他の GPU: サポート対象のすべてのバージョン

プロジェクトで使用できる GPU 割り当てが十分にあることを確認します。各リージョンに作成する GPU モデルに十分な Compute Engine GPU 割り当てが必要です。追加の GPU 割り当てが必要な場合は、割り当ての調整をリクエストします。

制限事項

タイムシェアリング GPU とマルチインスタンス GPU は、GKE バージョン 1.29.3-gke.1093000 以降の Autopilot で使用できます。
使用できる GPU は、Autopilot クラスタの Google Cloud リージョンと GPU の割り当てによって異なります。リージョンまたはゾーンで利用可能な GPU モデルを確認するには、利用できる GPU のリージョンとゾーンをご覧ください。
NVIDIA A100（80 GB）GPU の場合、ノードにアタッチされたローカル SSD に対して、Pod がその容量を使用するかどうかにかかわらず、固定料金が発生します。
1.29.2-gke.1355000 より前の GKE バージョンでは、ある Pod 用に既存の特定の GPU ノードを明示的にリクエストした場合、その Pod ではノード上のすべての GPU リソースを使用する必要があります。たとえば、既存のノードに 8 個の GPU があり、Pod のコンテナが合計 4 個の GPU をリクエストした場合、Autopilot はその Pod を拒否します。
GKE バージョン 1.29.2-gke.1355000 以降で、複数の GPU Pod を単一のノードに収めるには、それらの Pod の GPU リクエストの合計が、そのノードに接続されている GPU リソースの数「以下」である必要があります。たとえば、gke-accelerator-count が 4 のノードには、それぞれ 1 つの GPU をリクエストする Pod を最大 4 つまで配置できます。

単一の GPU ノードに複数の Pod を配置すると、次のような場合に役立ちます。

大規模なアクセラレータマシンタイプの容量を予約していて、単一 GPU のワークロードを実行している。このような場合、ノードごとに 1 つの Pod を展開すると、そのマシン上の他の GPU が無駄になってしまいます。
同じホストで実行する必要がある GPU ワークロードがある。

このような状況では、ノード上の Pod GPU リソースリクエストの合計が、ノードに接続されている GPU の数と等しくなるように、ノード上のすべての GPU を使用することをおすすめします。

コンテナで GPU をリクエストする

コンテナの GPU リソースをリクエストするには、次のフィールドを Pod 仕様に追加します。ワークロードの要件に応じて、必要に応じて cloud.google.com/gke-accelerator-count セレクタを省略できます。

apiVersion: v1
kind: Pod
metadata:
  name: my-gpu-pod
spec:
  # Optional: Use GKE Sandbox
  # runtimeClassName: gvisor
  nodeSelector:
    cloud.google.com/gke-accelerator: GPU_TYPE
    cloud.google.com/gke-accelerator-count: "GPU_COUNT"
  containers:
  - name: my-gpu-container
    image: nvidia/cuda:11.0.3-runtime-ubuntu20.04
    command: ["/bin/bash", "-c", "--"]
    args: ["while true; do sleep 600; done;"]
    resources:
      limits:
        nvidia.com/gpu: GPU_QUANTITY

次のように置き換えます。

GPU_TYPE: GPU ハードウェアのタイプ。使用できる値は次のとおりです。
- nvidia-gb200: NVIDIA GB200（プレビュー）
- nvidia-b200: NVIDIA B200（180 GB）
- nvidia-h200-141gb: NVIDIA H200（141GB）
- nvidia-h100-mega-80gb: NVIDIA H100 Mega（80 GB）
- nvidia-h100-80gb: NVIDIA H100（80 GB）
- nvidia-a100-80gb: NVIDIA A100（80 GB）
- nvidia-tesla-a100: NVIDIA A100（40 GB）
- nvidia-rtx-pro-6000: NVIDIA RTX PRO 6000
- nvidia-l4: NVIDIA L4
- nvidia-tesla-t4: NVIDIA T4
または、GKE Sandbox を使用する場合は、次のいずれかです。
- nvidia-gb200: NVIDIA GB200（プレビュー）
- nvidia-b200: NVIDIA B200（180 GB）（プレビュー）
- nvidia-h200-141gb: NVIDIA H200（141 GB）（プレビュー）
- nvidia-h100-mega-80gb: NVIDIA H100 Mega（80 GB）
- nvidia-h100-80gb: NVIDIA H100（80 GB）
- nvidia-a100-80gb: NVIDIA A100（80 GB）
- nvidia-tesla-a100: NVIDIA A100（40 GB）
- nvidia-rtx-pro-6000: NVIDIA RTX PRO 6000（プレビュー）
- nvidia-l4: NVIDIA L4
- nvidia-tesla-t4: NVIDIA T4
詳細については、GPU モデルのサポートをご覧ください。
GPU_COUNT: ノードに接続できる GPU の合計数。GPU_QUANTITY および選択した GPU タイプでサポートされている GPU 数以上にする必要があります。この nodeSelector を省略すると、Autopilot によって各 GPU ノードに 1 つの Pod が配置されます。
GPU_QUANTITY: コンテナに割り当てる GPU の数。GPU_COUNT および選択した GPU タイプのサポートされている GPU 数以下にする必要があります。
省略可能な runtimeClassname: gvisor: この Pod を GKE Sandbox で実行できるようにする設定。使用する場合は、この行のコメント化を解除します。詳細については、GKE Sandbox をご覧ください。

Autopilot モードでのアクセラレータの使用料金の詳細については、料金セクションをご覧ください。

Pod 仕様には、GPU タイプと GPU 数の両方を指定する必要があります。いずれかの値を省略すると、Autopilot によって Pod が拒否されます。

このマニフェストをデプロイすると、Autopilot によって、ノードの GKE バージョンに対応するデフォルトの NVIDIA ドライバが自動的にインストールされます。バージョン 1.29.2-gke.1108000 以降では、マニフェストに次のノードセレクタを追加することで、その GKE バージョンの最新のドライババージョンをインストールすることを選択できます。

spec:
  nodeSelector:
    cloud.google.com/gke-gpu-driver-version: "DRIVER_VERSION"

DRIVER_VERSION は次のいずれかの値に置き換えます。

default - ノードの GKE バージョンに対応するデフォルトの安定版ドライバ。マニフェストで nodeSelector を省略した場合、これがデフォルトのオプションになります。
latest - ノードの GKE バージョンに対応する最新のドライババージョン。

Autopilot GPU Pod の CPU とメモリをリクエストする

GPU Pod を定義するときは、コンテナが想定どおりに機能するように、CPU リソースとメモリリソースもリクエストする必要があります。Autopilot は、GPU のタイプと数量に基づいて特定の CPU とメモリの最小数、最大数、デフォルト数を適用します。1 つのノードで複数の GPU Pod を実行する場合は、CPU とメモリを指定します。指定しないと、デフォルトでノードの容量全体が使用されます。詳細については、Autopilot のリソースリクエストをご覧ください。

Pod の仕様は、次の例のようになります。この例では、4 つの T4 GPU をリクエストします。

apiVersion: v1
kind: Pod
metadata:
  name: t4-pod
spec:
  # Optional: Use GKE Sandbox
  # runtimeClassName: gvisor
  nodeSelector:
    cloud.google.com/gke-accelerator: "nvidia-tesla-t4"
  containers:
  - name: t4-container-1
    image: nvidia/cuda:11.0.3-runtime-ubuntu20.04
    command: ["/bin/bash", "-c", "--"]
    args: ["while true; do sleep 600; done;"]
    resources:
      limits:
        nvidia.com/gpu: 3
        cpu: "54"
        memory: "54Gi"
      requests:
        cpu: "54"
        memory: "54Gi"
  - name: t4-container-2
    image: nvidia/cuda:11.0.3-runtime-ubuntu20.04
    command: ["/bin/bash", "-c", "--"]
    args: ["while true; do sleep 600; done;"]
    resources:
      limits:
        nvidia.com/gpu: 1
        cpu: "18"
        memory: "18Gi"
      requests:
        cpu: "18"
        memory: "18Gi"

省略可能な runtimeClassname: gvisor: この Pod を GKE Sandbox で実行できるようにする設定。使用する場合は、この行のコメント化を解除します。詳細については、GKE Sandbox をご覧ください。

このマニフェストでは、CPU リソースとメモリリソースに limits を指定しています。GKE バージョン 1.29.2-gke.1060000 以降では、CPU またはメモリの limits を省略すると、GKE は Pod に Burstable QoS クラスを設定し、Pod がノードのリソースリクエストの合計数に応じて未使用のリソースを利用できるようにします。詳細については、GKE で Pod バースト機能を構成するをご覧ください。

Autopilot GPU Pod のエフェメラルストレージをリクエストする

有効期間が短いストレージを必要とする Pod では、エフェメラルストレージをリクエストすることもできます。使用可能なエフェメラルストレージの最大量と使用されるストレージハードウェアのタイプは、Pod がリクエストする GPU のタイプと数量によって異なります。ローカル SSD は、次の構成でエフェメラルストレージとして使用できます。

NVIDIA RTX PRO 6000 GPU と Accelerator コンピューティングクラスを使用し、GKE パッチバージョン 1.34.1-gke.1829001 以降を実行します。
NVIDIA L4 GPU と Accelerator コンピューティングクラスを使用し、GKE パッチバージョン 1.28.6-gke.1369000 以降または 1.29.1-gke.1575000 以降を実行します。

エフェメラルストレージにローカル SSD を使用するには、ワークロードマニフェストに cloud.google.com/gke-ephemeral-storage-local-ssd: "true" nodeSelector を追加します。ローカル SSD を使用するエフェメラルストレージを Autopilot クラスタで使用するのマニフェストの例をご覧ください。NVIDIA H100（80 GB）GPU と NVIDIA A100（80 GB）GPU は、エフェメラルストレージに常にローカル SSD を使用します。これらの GPU にこのノードセレクタを指定することはできません。

カスタム ComputeClass を使用して特定のマシンタイプをリクエストする

場合によっては、GPU ワークロードを特定のマシンタイプで実行する必要があります。たとえば、必要なマシンタイプが Autopilot クラスタのデフォルトのマシンタイプではない場合などです。カスタム ComputeClass を使用して特定のマシンを明示的にリクエストすることで、マシンタイプと GPU を指定するノード構成プロファイルを定義できます。

ComputeClass の一般的な情報については、カスタム ComputeClass についてをご覧ください。

GPU ワークロードに対して特定のマシンタイプをリクエストする手順は次のとおりです。

カスタム ComputeClass のマニフェストを作成します。この例では、次を a3-computeclass.yaml として保存します。
```
apiVersion: cloud.google.com/v1
kind: ComputeClass
metadata:
  name: a3-edge-gpu
spec:
  priorities:
  - machineType: a3-edgegpu-8g-nolssd
    gpu:
     count: 8
     type: nvidia-h100-80gb
  nodePoolAutoCreation:
    enabled: true
```
このマニフェストの内容:
- metadata.name は、Pod 仕様で参照するカスタム ComputeClass の名前です。
- machineType は、プロビジョニングする特定のマシンです。
- gpu フィールドには、そのマシンにアタッチされている GPU のタイプと数を指定します。これらのフィールドの値は、指定された machineType の機能と一致している必要があります。
次のコマンドを実行してマニフェストを適用します。
```
kubectl apply -f a3-computeclass.yaml
```

Pod マニフェストで、cloud.google.com/compute-class ノードセレクタを使用して ComputeClass をリクエストします。

apiVersion: v1
kind: Pod
metadata:
  name: gpu-cc-pod
spec:
  nodeSelector:
    cloud.google.com/compute-class: a3-edge-gpu
  containers:
  - name: my-gpu-container
    image: nvidia/cuda:latest
    command: ["/bin/bash", "-c", "--"]
    args: ["while true; do sleep 600; done;"]
    resources:
      limits:
        nvidia.com/gpu: 1

GKE は、a3-edge-gpu ComputeClass の定義に一致する新しいノードをプロビジョニングして、Pod を実行します。

デプロイされた GPU の割り当てを確認する

デプロイされた GPU ワークロードにリクエストされた GPU があることを確認するには、次のコマンドを実行します。

kubectl describe node NODE_NAME

NODE_NAME は、Pod がスケジュールされたノードの名前に置き換えます。

出力は次のようになります。


apiVersion: v1
kind: Node
metadata:
...
  labels:
    ...
    cloud.google.com/gke-accelerator: nvidia-tesla-t4
    cloud.google.com/gke-accelerator-count: "1"
    cloud.google.com/machine-family: custom-48
    ...
...

GPU ドライバのバージョンを確認する

Autopilot クラスタでは、GKE がすべての GPU ノードに NVIDIA デバイスドライバを自動的にインストールします。GKE がクラスタにインストールしたドライバのバージョンを確認するには、次のコマンドを実行します。

kubectl logs --selector=k8s-app=nvidia-gpu-device-plugin \
    --container="nvidia-gpu-device-plugin" \
    --tail=-1 \
    --namespace=kube-system | grep Driver

出力は次のようになります。

I1206 18:37:08.251742    5851 metrics.go:144] nvml initialized successfully. Driver version: 535.104.12

Autopilot での GPU 割り当ての仕組み

Pod 内のコンテナの GPU タイプと数量をリクエストして Pod をデプロイすると、次のようになります。

割り当て可能な GPU ノードが存在しない場合、Autopilot は、新しい GPU ノードをプロビジョニングしてその Pod をスケジュールします。Autopilot は、ハードウェアを利用するために NVIDIA ドライバを自動的にインストールします。
Autopilot は、GPU ノードに Node Taints を追加し、それに対応する toleration を Pod に追加します。このため、GKE は GPU ノードで他の Pod をスケジュールできなくなります。

Autopilot は、各 GPU ノードに 1 つの GPU Pod、すべてのノードで実行される GKE マネージドワークロード、すべての Node Taints を許容するように構成された DaemonSet を配置します。

すべてのノードで DaemonSet を実行する

taint が適用されたノードでも、すべてのノードで DaemonSet の実行が必要になる場合があります。たとえば、一部のロギングエージェントとモニタリングエージェントはクラスタ内のすべてのノードで実行する必要があります。GKE がワークロードをすべてのノードに配置できるように、Node Taints を無視するように DaemonSet を構成することもできます。

クラスタ内のすべてのノード（GPU ノードを含む）で DaemonSet を実行するには、次の toleration を仕様に追加します。

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: logging-agent
spec:
  tolerations:
  - key: ""
    operator: "Exists"
    effect: ""
  containers:
  - name: logging-agent-v1
    image: IMAGE_PATH

IMAGE_PATH は、コンテナイメージのパスに置き換えます。

クラスタ内の特定の GPU ノードで DaemonSet を実行するには、次のものを仕様に追加します。

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: logging-agent
spec:
  nodeSelector:
    cloud.google.com/gke-accelerator: "GPU_TYPE"
  tolerations:
  - key: ""
    operator: "Exists"
    effect: ""
  containers:
  - name: logging-agent-v1
    image: IMAGE_PATH

GPU_TYPE は、ターゲットノードの GPU のタイプに置き換えます。次のいずれかになります。

nvidia-gb200: NVIDIA GB200（プレビュー）
nvidia-b200: NVIDIA B200（180 GB）
nvidia-h200-141gb: NVIDIA H200（141GB）
nvidia-h100-mega-80gb: NVIDIA H100 Mega（80 GB）
nvidia-h100-80gb: NVIDIA H100（80 GB）
nvidia-a100-80gb: NVIDIA A100（80 GB）
nvidia-tesla-a100: NVIDIA A100（40 GB）
nvidia-rtx-pro-6000: NVIDIA RTX PRO 6000
nvidia-l4: NVIDIA L4
nvidia-tesla-t4: NVIDIA T4

または GKE Sandbox を使用する場合は、次のいずれかです。

nvidia-gb200: NVIDIA GB200（プレビュー）
nvidia-b200: NVIDIA B200（180 GB）（プレビュー）
nvidia-h200-141gb: NVIDIA H200（141 GB）（プレビュー）
nvidia-h100-mega-80gb: NVIDIA H100 Mega（80 GB）
nvidia-h100-80gb: NVIDIA H100（80 GB）
nvidia-a100-80gb: NVIDIA A100（80 GB）
nvidia-tesla-a100: NVIDIA A100（40 GB）
nvidia-rtx-pro-6000: NVIDIA RTX PRO 6000（プレビュー）
nvidia-l4: NVIDIA L4
nvidia-tesla-t4: NVIDIA T4

詳細については、GPU モデルのサポートをご覧ください。

Autopilot での GPU のユースケース

Autopilot Pod のコンテナに GPU を割り当てることで、次のようなワークロードが利用できるようになります。

機械学習（ML）推論
ML トレーニング
レンダリング

サポートされている GPU 数

Pod 仕様で GPU をリクエストする場合は、GPU のタイプに基づいて次の数量を使用する必要があります。

GPU の数
NVIDIA B200（180 GB） `nvidia-b200`	8
NVIDIA H200（141 GB） `nvidia-h200-141gb`	8
NVIDIA H100 Mega（80 GB） `nvidia-h100-mega-80gb`	8
NVIDIA H100（80GB） `nvidia-h100-80gb`	1、2、4、8
NVIDIA A100（80GB） `nvidia-a100-80gb`	1、2、4、8
NVIDIA A100（40GB） `nvidia-tesla-a100`	1、2、4、8、16
NVIDIA RTX PRO 6000 `nvidia-rtx-pro-6000`	1、2、4、8
NVIDIA L4 `nvidia-l4`	1、2、4、8
NVIDIA T4 `nvidia-tesla-t4`	1、2、4

GPU ノードワークロードのパフォーマンスをモニタリングする

GKE クラスタでシステム指標が有効になっている場合、Cloud Monitoring で次の指標を使用して GPU ワークロードのパフォーマンスをモニタリングできます。

デューティサイクル（container/accelerator/duty_cycle）: 過去のサンプル期間（10 秒）に対する、アクセラレータがアクティブに処理していた時間の割合。 1～100 までの間。
メモリ使用量（container/accelerator/memory_used）: 割り振られたアクセラレータメモリの量（バイト単位）。
メモリ容量（container/accelerator/memory_total）: アクセラレータの総メモリ（バイト単位）。

これらの指標はコンテナレベル（container/accelerator）で適用され、GPU タイムシェアリングまたは NVIDIA MPS を使用する GPU でスケジュールされたコンテナに対しては収集されません。

事前定義されたダッシュボードを使用して、GPU ノードを使用するクラスタをモニタリングできます。詳細については、オブザーバビリティ指標を表示するをご覧ください。クラスタとそのリソースのモニタリングに関する一般的な情報については、GKE のオブザーバビリティをご覧ください。

ワークロードの使用状況の指標を表示する

ワークロードの GPU 使用状況の指標は、 Google Cloud コンソールの [ワークロード] ダッシュボードで表示できます。

ワークロードの GPU 使用状況を表示するには、以下の手順に沿って操作します。

Google Cloud コンソールの [ワークロード] ページに移動します。
[ワークロード] に移動
ワークロードを選択します。

[ワークロード] ダッシュボードに、GPU メモリの使用量と容量、GPU デューティサイクルのチャートが表示されます。

NVIDIA Data Center GPU Manager（DCGM）の指標を表示する

Google Cloud Managed Service for Prometheus を使用すると、NVIDIA DCGM 指標を収集して可視化できます。Autopilot クラスタの場合、GKE によってドライバがインストールされます。Standard クラスタの場合は、NVIDIA ドライバをインストールする必要があります。

GKE で管理されている DCGM パッケージをデプロイする方法については、NVIDIA Data Center GPU Manager（DCGM）の指標の収集と表示をご覧ください。

GPU ワークロードの JobSet とノードの健全性指標

DCGM 指標に加えて、次の指標を使用して、GPU ワークロードの健全性とパフォーマンスをモニタリングできます。特に、JobSet として実行している場合は、これらの指標を使用します。

JobSet 指標

次の指標は、レプリケートされた Job が 1 つだけある GPU と TPU の両方の JobSet に適用されます。

kubernetes.io/jobset/times_between_interruptions
kubernetes.io/jobset/times_to_recover
kubernetes.io/jobset/uptime

これらのシステム指標の詳細については、Kubernetes の指標をご覧ください。

Google Cloud コンソールの JobSet ダッシュボードを使用して、GPU ワークロードを可視化してモニタリングすることもできます。

[デプロイメント] に移動

ノードの健全性指標

次のノードレベルの指標は、GPU を搭載したノードを含むすべてのノードに適用されます。

kubernetes.io/node/status_condition: この指標には、GKE バージョン 1.32.1-gke.1357001 以降が必要です。

ノードの中断とノードプールの中断の指標は、TPU 以外のノードにも適用されます。

JobSet の kube-state-metrics

JobSet の kube-state-metrics は GPU で使用できます。これらの指標を収集するには、GKE バージョン 1.32.1-gke.1357001 以降が必要です。詳細については、JobSet の指標に関するドキュメントをご覧ください。