Configurer GKE pour ML Diagnostics

Si vous utilisez Google Kubernetes Engine (GKE) pour votre charge de travail de ML, suivez ce guide pour configurer votre cluster GKE et installer les artefacts GKE requis.

La configuration de votre charge de travail dépend de l'utilisation du profilage à la demande ou du profilage programmatique.

Si vous utilisez une version de GKE ultérieure à 1.35.0-gke.3065000, vous pouvez configurer le cluster GKE pour ML Diagnostics avec une seule commande gcloud CLI. Pour en savoir plus, consultez Configurer avec gcloud CLI.

Pour les versions de GKE antérieures à 1.35.0-gke.3065000, vous devez configurer manuellement le cluster GKE pour installer les artefacts cert-manager, injection-webhook et connection-operator. Pour en savoir plus, consultez Installation manuelle.

Configurer avec gcloud CLI

Pour les versions de GKE ultérieures à 1.35.0-gke.3065000, utilisez l'une des commandes gcloud CLI suivantes pour déployer les composants ML Diagnostics requis (connection-operator et injection-webhook) dans votre cluster GKE.

Pour les nouveaux clusters GKE :

gcloud beta container clusters create CLUSTER_NAME --enable-managed-mldiagnostics

Pour les clusters GKE existants :

gcloud beta container clusters update CLUSTER_NAME --enable-managed-mldiagnostics

Pour désactiver ML Diagnostics, utilisez la commande suivante :

gcloud beta container clusters update CLUSTER_NAME --no-enable-managed-mldiagnostics

Vous pouvez également activer les commandes gcloud CLI via la console Google Cloud GKE :

  • Pour les nouveaux clusters GKE, accédez à Feature Manager > Managed Machine Learning Diagnostics (Gestionnaire de fonctionnalités > Diagnostics de machine learning gérés).

    Accéder à ML Diagnostics gérés par GKE

  • Pour les clusters GKE existants, accédez à Clusters, sélectionnez le nom de votre cluster, puis accédez à Edit (Modifier) et modifiez Managed Machine Learning Diagnostics (Diagnostics de machine learning gérés) sous Features (Fonctionnalités).

Pour en savoir plus sur les commandes gcloud CLI permettant de configurer un cluster GKE pour ML Diagnostics, consultez l'indicateur enable-managed-mldiagnostics dans les pages de documentation de référence de l'API suivantes :

Installation manuelle

Pour les versions de GKE antérieures à 1.35.0-gke.3065000, vous devez configurer manuellement le cluster GKE pour installer les éléments suivants :

  • cert-manager : prérequis pour injection-webhook.
  • injection-webhook : fournit les métadonnées requises au SDK. Il est compatible avec les charges de travail Kubernetes de ML courantes, telles que JobSet, RayJob et LeaderWorkerSet.
  • connection-operator : pour le profilage à la demande sur GKE. Le déploiement de connection-operator avec injection-webhook dans le cluster GKE initialise les requêtes de profilage pour cibler les pods avec des serveurs de profilage en cours d'exécution lorsque vous déclenchez la capture à la demande.

Pour en savoir plus sur la configuration de Google Kubernetes Engine, consultez Configurer un cluster Google Kubernetes Engine.

Cert-manager

cert-manager fait office de contrôleur de certificat pour votre cluster, ce qui garantit la sécurité de vos applications et l'expiration involontaire de vos certificats.

Utilisez Helm pour installer les éléments suivants :

helm repo add jetstack https://charts.jetstack.io
helm repo update

helm install \
  cert-manager jetstack/cert-manager \
  --namespace cert-manager \
  --create-namespace \
  --version v1.13.0 \
  --set installCRDs=true \
  --set global.leaderElection.namespace=cert-manager \
  --timeout 10m

Injection-webhook

injection-webhook transmet les métadonnées au SDK. Utilisez helm upgrade --install pour installer l'élément pour la première fois ou mettre à niveau une installation existante.

Utilisez Helm pour installer les éléments suivants :

helm upgrade --install mldiagnostics-injection-webhook \
  --namespace=gke-mldiagnostics \
  --create-namespace \
  --version 0.25.0 \
  oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-injection-webhook

Connection-operator

connection-operator active le profilage à la demande sur GKE. Utilisez le tableau suivant pour trouver la version mldiagnostics-connection-operator appropriée :

Version de JAX Version du chart Helm
0.8.x 0.24.0
0.9.x+ 0.24.0+

Utilisez Helm pour installer la version requise.

Pour JAX 0.8.x :

helm upgrade --install mldiagnostics-connection-operator \
  --namespace=gke-mldiagnostics \
  --create-namespace \
  --version 0.24.0 \
  oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-connection-operator \
  --set 'mldiagnosticsConnectionOperator.controller.args={--metrics-bind-address=:8443,--health-probe-bind-address=:8081,--sidecar-timeout=65m,--disable-hostname-override}'

Pour JAX 0.9.x+ :

helm upgrade --install mldiagnostics-connection-operator \
  --namespace=gke-mldiagnostics \
  --create-namespace \
  --version 0.24.0 \
  oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-connection-operator

Ajouter un libellé à la charge de travail

Pour le profilage programmatique, vous devez déclencher le injection-webhook afin d'injecter des métadonnées dans les pods. Ajoutez un libellé à la charge de travail ou à son espace de noms avec managed-mldiagnostics-gke=true avant de déployer la charge de travail :

  • Ajouter un libellé à une charge de travail. Ajoutez un libellé à une charge de travail Jobset, LWS ou RayJob, ce qui activera le webhook pour cette charge de travail spécifique. Voici un exemple pour une charge de travail JobSet :

    apiVersion: jobset.x-k8s.io/v1alpha2
    kind: JobSet
    metadata:
      name: single-host-tpu-v3-jobset2
      namespace: default
      labels:
        managed-mldiagnostics-gke: "true"
    
  • Ajouter un libellé à un espace de noms. Cela activera le webhook pour toutes les charges de travail Jobset, LWS et RayJob de cet espace de noms.

    kubectl create namespace ai-workloads
    kubectl label namespace ai-workloads managed-mldiagnostics-gke=true