ML 診断用に GKE を構成する
ML ワークロードに Google Kubernetes Engine(GKE)を使用している場合は、このガイドに沿って GKE クラスタを構成し、必要な GKE アーティファクトをインストールします。ML Diagnostics gcloud CLI を使用して CLI からオンデマンド プロファイリングをトリガーする場合でも、ワークロードで ML Diagnostics SDK を使用して GKE にデプロイする場合でも、GKE の要件は同じです。
1.35.0-gke.3065000 より新しいバージョンの GKE を使用している場合は、1 つの gcloud CLI コマンドで ML Diagnostics 用の GKE クラスタを設定できます。詳細については、gcloud CLI を使用して設定するをご覧ください。
1.35.0-gke.3065000 より前の GKE バージョンの場合は、cert-manager、injection-webhook、connection-operator のアーティファクトをインストールするように GKE クラスタを手動で構成する必要があります。詳細については、手動インストールをご覧ください。
gcloud CLI を使用して設定する
1.35.0-gke.3065000 より後の GKE バージョンの場合は、次のいずれかの gcloud CLI コマンドを使用して、必要な ML Diagnostics コンポーネントを GKE クラスタにデプロイします。
新しい GKE クラスタの場合:
gcloud container clusters create CLUSTER_NAME --enable-managed-mldiagnostics
既存の GKE クラスタの場合:
gcloud container clusters update CLUSTER_NAME --enable-managed-mldiagnostics
ML 診断を無効にするには、次の操作を行います。
gcloud container clusters update CLUSTER_NAME --no-enable-managed-mldiagnostics
GKE Google Cloud コンソールから gcloud CLI コマンドを有効にすることもできます。
新しい GKE クラスタの場合は、[Feature Manager] > [Managed Machine Learning Diagnostics] に移動します。
既存の GKE クラスタの場合は、[クラスタ] に移動してクラスタの名前を選択し、[編集] に移動して、[機能] の [マネージド ML 診断] を編集します。
ML Diagnostics 用に GKE クラスタを設定する gcloud CLI コマンドの詳細については、次の API リファレンス ページの enable-managed-mldiagnostics フラグをご覧ください。
手動インストール
1.35.0-gke.3065000 より前の GKE バージョンの場合は、次のものをインストールするように GKE クラスタを手動で構成する必要があります。
cert-manager:injection-webhookの前提条件。injection-webhook: SDK に必要なメタデータを提供します。JobSet、RayJob、LeaderWorkerSetなどの一般的な ML Kubernetes ワークロードをサポートしています。connection-operator: GKE でのオンデマンド プロファイリングの場合。connection-operatorとinjection-webhookを GKE クラスタにデプロイすると、オンデマンド キャプチャをトリガーしたときに、プロファイリング サーバーが実行されているターゲット Pod へのプロファイリング リクエストが初期化されます。
Google Kubernetes Engine の設定の詳細については、Google Kubernetes Engine クラスタを構成するをご覧ください。
Cert-manager
cert-manager はクラスタの証明書コントローラとして機能し、アプリケーションのセキュリティを確保し、証明書が意図せずに期限切れになることがないようにします。
Helm を使用して、次のものをインストールします。
helm repo add jetstack https://charts.jetstack.io
helm repo update
helm install \
cert-manager jetstack/cert-manager \
--namespace cert-manager \
--create-namespace \
--version v1.13.0 \
--set installCRDs=true \
--set global.leaderElection.namespace=cert-manager \
--timeout 10m
Injection-webhook
injection-webhook はメタデータを SDK に渡します。helm upgrade を使用して injection-webhook の最新バージョンに更新し、ダウンタイムが発生しないようにします。
Helm を使用して、次のものをインストールします。
helm install mldiagnostics-injection-webhook \
--namespace=gke-mldiagnostics \
--create-namespace \
oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-injection-webhook
Connection-operator
connection-operator は、GKE でオンデマンド プロファイリングを有効にします。次の表を使用して、正しい mldiagnostics-connection-operator バージョンを確認してください。
| JAX のバージョン | Helm チャートのバージョン |
|---|---|
| 0.8.1-0.8.3 | 0.14.0 |
| 0.9.0 | 0.16.0 |
Helm を使用して必要なバージョンをインストールします。
helm install mldiagnostics-connection-operator \
--namespace=gke-mldiagnostics \
--create-namespace \
--version VERSION \
oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-connection-operator
ワークロードにラベルを付ける
injection-webhook をトリガーしてメタデータを Pod に挿入するには、ワークロードをデプロイする前に、ワークロードまたはその Namespace に managed-mldiagnostics-gke=true のラベルを付ける必要があります。
ワークロードにラベルを付ける。
Jobset、LWS、またはRayJobワークロードにラベルを付けます。これにより、その特定のワークロードの Webhook が有効になります。次に、JobSetワークロードの例を示します。apiVersion: jobset.x-k8s.io/v1alpha2 kind: JobSet metadata: name: single-host-tpu-v3-jobset2 namespace: default labels: managed-mldiagnostics-gke: "true"Namespace にラベルを付けます。これにより、その Namespace 内のすべての
Jobset、LWS、RayJobワークロードで Webhook が有効になります。kubectl create namespace ai-workloads kubectl label namespace ai-workloads managed-mldiagnostics-gke=true