Configurer GKE pour ML Diagnostics
Si vous utilisez Google Kubernetes Engine (GKE) pour votre charge de travail de ML, suivez ce guide pour configurer votre cluster GKE et installer les artefacts GKE requis.
La configuration de votre charge de travail dépend de l'utilisation du profilage à la demande ou du profilage programmatique.
- Profilage à la demande : nécessite l'installation de
connection-operator. - Profilage programmatique : nécessite l'installation de
injection-webhook, l'ajout d'un libellé à la charge de travail et l'utilisation du SDK ML Diagnostics.
Si vous utilisez une version de GKE ultérieure à 1.35.0-gke.3065000, vous pouvez configurer le cluster GKE pour ML Diagnostics avec une seule commande gcloud CLI. Pour en savoir plus, consultez Configurer avec
gcloud CLI.
Pour les versions de GKE antérieures à 1.35.0-gke.3065000, vous devez configurer manuellement le cluster GKE pour installer les artefacts cert-manager, injection-webhook et connection-operator. Pour en savoir plus,
consultez Installation manuelle.
Configurer avec gcloud CLI
Pour les versions de GKE ultérieures à 1.35.0-gke.3065000, utilisez l'une des commandes gcloud CLI suivantes pour déployer les composants ML Diagnostics requis (connection-operator et injection-webhook) dans votre cluster GKE.
Pour les nouveaux clusters GKE :
gcloud beta container clusters create CLUSTER_NAME --enable-managed-mldiagnostics
Pour les clusters GKE existants :
gcloud beta container clusters update CLUSTER_NAME --enable-managed-mldiagnostics
Pour désactiver ML Diagnostics, utilisez la commande suivante :
gcloud beta container clusters update CLUSTER_NAME --no-enable-managed-mldiagnostics
Vous pouvez également activer les commandes gcloud CLI via la console Google Cloud GKE :
Pour les nouveaux clusters GKE, accédez à Feature Manager > Managed Machine Learning Diagnostics (Gestionnaire de fonctionnalités > Diagnostics de machine learning gérés).
Pour les clusters GKE existants, accédez à Clusters, sélectionnez le nom de votre cluster, puis accédez à Edit (Modifier) et modifiez Managed Machine Learning Diagnostics (Diagnostics de machine learning gérés) sous Features (Fonctionnalités).
Pour en savoir plus sur les commandes gcloud CLI permettant de configurer un cluster GKE pour ML Diagnostics, consultez l'indicateur enable-managed-mldiagnostics dans les pages de documentation de référence de l'API suivantes :
Installation manuelle
Pour les versions de GKE antérieures à 1.35.0-gke.3065000, vous devez configurer manuellement le cluster GKE pour installer les éléments suivants :
cert-manager: prérequis pourinjection-webhook.injection-webhook: fournit les métadonnées requises au SDK. Il est compatible avec les charges de travail Kubernetes de ML courantes, telles queJobSet,RayJobetLeaderWorkerSet.connection-operator: pour le profilage à la demande sur GKE. Le déploiement deconnection-operatoravecinjection-webhookdans le cluster GKE initialise les requêtes de profilage pour cibler les pods avec des serveurs de profilage en cours d'exécution lorsque vous déclenchez la capture à la demande.
Pour en savoir plus sur la configuration de Google Kubernetes Engine, consultez Configurer un cluster Google Kubernetes Engine.
Cert-manager
cert-manager fait office de contrôleur de certificat pour votre cluster, ce qui garantit la sécurité de vos applications et l'expiration involontaire de vos certificats.
Utilisez Helm pour installer les éléments suivants :
helm repo add jetstack https://charts.jetstack.io
helm repo update
helm install \
cert-manager jetstack/cert-manager \
--namespace cert-manager \
--create-namespace \
--version v1.13.0 \
--set installCRDs=true \
--set global.leaderElection.namespace=cert-manager \
--timeout 10m
Injection-webhook
injection-webhook transmet les métadonnées au SDK. Utilisez helm upgrade --install pour installer l'élément pour la première fois ou mettre à niveau une installation existante.
Utilisez Helm pour installer les éléments suivants :
helm upgrade --install mldiagnostics-injection-webhook \
--namespace=gke-mldiagnostics \
--create-namespace \
--version 0.25.0 \
oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-injection-webhook
Connection-operator
connection-operator active le profilage à la demande sur GKE. Utilisez le tableau suivant pour trouver la version mldiagnostics-connection-operator appropriée :
| Version de JAX | Version du chart Helm |
|---|---|
| 0.8.x | 0.24.0 |
| 0.9.x+ | 0.24.0+ |
Utilisez Helm pour installer la version requise.
Pour JAX 0.8.x :
helm upgrade --install mldiagnostics-connection-operator \
--namespace=gke-mldiagnostics \
--create-namespace \
--version 0.24.0 \
oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-connection-operator \
--set 'mldiagnosticsConnectionOperator.controller.args={--metrics-bind-address=:8443,--health-probe-bind-address=:8081,--sidecar-timeout=65m,--disable-hostname-override}'
Pour JAX 0.9.x+ :
helm upgrade --install mldiagnostics-connection-operator \
--namespace=gke-mldiagnostics \
--create-namespace \
--version 0.24.0 \
oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-connection-operator
Ajouter un libellé à la charge de travail
Pour le profilage programmatique, vous devez déclencher le injection-webhook afin d'injecter des métadonnées dans les pods. Ajoutez un libellé à la charge de travail ou à son espace de noms avec managed-mldiagnostics-gke=true avant de déployer la charge de travail :
Ajouter un libellé à une charge de travail. Ajoutez un libellé à une charge de travail
Jobset,LWSouRayJob, ce qui activera le webhook pour cette charge de travail spécifique. Voici un exemple pour une charge de travailJobSet:apiVersion: jobset.x-k8s.io/v1alpha2 kind: JobSet metadata: name: single-host-tpu-v3-jobset2 namespace: default labels: managed-mldiagnostics-gke: "true"Ajouter un libellé à un espace de noms. Cela activera le webhook pour toutes les charges de travail
Jobset,LWSetRayJobde cet espace de noms.kubectl create namespace ai-workloads kubectl label namespace ai-workloads managed-mldiagnostics-gke=true