ML 診断用に GKE を構成する

ML ワークロードに Google Kubernetes Engine(GKE)を使用している場合は、このガイドに沿って GKE クラスタを構成し、必要な GKE アーティファクトをインストールします。ML Diagnostics gcloud CLI を使用して CLI からオンデマンド プロファイリングをトリガーする場合でも、ワークロードで ML Diagnostics SDK を使用して GKE にデプロイする場合でも、GKE の要件は同じです。

1.35.0-gke.3065000 より新しいバージョンの GKE を使用している場合は、1 つの gcloud CLI コマンドで ML Diagnostics 用の GKE クラスタを設定できます。詳細については、gcloud CLI を使用して設定するをご覧ください。

1.35.0-gke.3065000 より前の GKE バージョンの場合は、cert-managerinjection-webhookconnection-operator のアーティファクトをインストールするように GKE クラスタを手動で構成する必要があります。詳細については、手動インストールをご覧ください。

gcloud CLI を使用して設定する

1.35.0-gke.3065000 より後の GKE バージョンの場合は、次のいずれかの gcloud CLI コマンドを使用して、必要な ML Diagnostics コンポーネントを GKE クラスタにデプロイします。

新しい GKE クラスタの場合:

gcloud container clusters create CLUSTER_NAME --enable-managed-mldiagnostics

既存の GKE クラスタの場合:

gcloud container clusters update CLUSTER_NAME --enable-managed-mldiagnostics

ML 診断を無効にするには、次の操作を行います。

gcloud container clusters update CLUSTER_NAME --no-enable-managed-mldiagnostics

GKE Google Cloud コンソールから gcloud CLI コマンドを有効にすることもできます。

  • 新しい GKE クラスタの場合は、[Feature Manager] > [Managed Machine Learning Diagnostics] に移動します。

    GKE Managed Machine Learning Diagnostics に移動

  • 既存の GKE クラスタの場合は、[クラスタ] に移動してクラスタの名前を選択し、[編集] に移動して、[機能] の [マネージド ML 診断] を編集します。

ML Diagnostics 用に GKE クラスタを設定する gcloud CLI コマンドの詳細については、次の API リファレンス ページの enable-managed-mldiagnostics フラグをご覧ください。

手動インストール

1.35.0-gke.3065000 より前の GKE バージョンの場合は、次のものをインストールするように GKE クラスタを手動で構成する必要があります。

  • cert-manager: injection-webhook の前提条件。
  • injection-webhook: SDK に必要なメタデータを提供します。JobSetRayJobLeaderWorkerSet などの一般的な ML Kubernetes ワークロードをサポートしています。
  • connection-operator: GKE でのオンデマンド プロファイリングの場合。connection-operatorinjection-webhook を GKE クラスタにデプロイすると、オンデマンド キャプチャをトリガーしたときに、プロファイリング サーバーが実行されているターゲット Pod へのプロファイリング リクエストが初期化されます。

Google Kubernetes Engine の設定の詳細については、Google Kubernetes Engine クラスタを構成するをご覧ください。

Cert-manager

cert-manager はクラスタの証明書コントローラとして機能し、アプリケーションのセキュリティを確保し、証明書が意図せずに期限切れになることがないようにします。

Helm を使用して、次のものをインストールします。

helm repo add jetstack https://charts.jetstack.io
helm repo update

helm install \
  cert-manager jetstack/cert-manager \
  --namespace cert-manager \
  --create-namespace \
  --version v1.13.0 \
  --set installCRDs=true \
  --set global.leaderElection.namespace=cert-manager \
  --timeout 10m

Injection-webhook

injection-webhook はメタデータを SDK に渡します。helm upgrade を使用して injection-webhook の最新バージョンに更新し、ダウンタイムが発生しないようにします。

Helm を使用して、次のものをインストールします。

helm install mldiagnostics-injection-webhook \
   --namespace=gke-mldiagnostics \
   --create-namespace \
oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-injection-webhook

Connection-operator

connection-operator は、GKE でオンデマンド プロファイリングを有効にします。次の表を使用して、正しい mldiagnostics-connection-operator バージョンを確認してください。

JAX のバージョン Helm チャートのバージョン
0.8.1-0.8.3 0.14.0
0.9.0 0.16.0

Helm を使用して必要なバージョンをインストールします。

helm install mldiagnostics-connection-operator \
   --namespace=gke-mldiagnostics \
   --create-namespace \
   --version VERSION \
oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-connection-operator

ワークロードにラベルを付ける

injection-webhook をトリガーしてメタデータを Pod に挿入するには、ワークロードをデプロイする前に、ワークロードまたはその Namespace に managed-mldiagnostics-gke=true のラベルを付ける必要があります。

  • ワークロードにラベルを付けるJobsetLWS、または RayJob ワークロードにラベルを付けます。これにより、その特定のワークロードの Webhook が有効になります。次に、JobSet ワークロードの例を示します。

    apiVersion: jobset.x-k8s.io/v1alpha2
    kind: JobSet
    metadata:
      name: single-host-tpu-v3-jobset2
      namespace: default
      labels:
        managed-mldiagnostics-gke: "true"
    
  • Namespace にラベルを付けます。これにより、その Namespace 内のすべての JobsetLWSRayJob ワークロードで Webhook が有効になります。

    kubectl create namespace ai-workloads
    kubectl label namespace ai-workloads managed-mldiagnostics-gke=true