Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Configurare GKE per ML Diagnostics

Se utilizzi Google Kubernetes Engine (GKE) per il tuo workload di machine learning, segui questa guida per configurare il cluster GKE e installare gli artefatti GKE richiesti.

La configurazione del workload dipende dal fatto che tu utilizzi la profilazione on demand o la profilazione programmatica.

Profilazione on demand: richiede l'installazione di connection-operator.
Profilazione programmatica: richiede l'installazione di injection-webhook, l'etichettatura del workload e l'utilizzo dell'SDK ML Diagnostics.

Se utilizzi una versione di GKE successiva a 1.35.0-gke.3065000, puoi configurare il cluster GKE per ML Diagnostics con un singolo comando gcloud CLI. Per saperne di più, consulta Configurare con gcloud CLI.

Per le versioni di GKE precedenti a 1.35.0-gke.3065000, devi configurare manualmente il cluster GKE per installare gli artefatti cert-manager, injection-webhook e connection-operator. Per saperne di più, consulta Installazione manuale.

Configurare con gcloud CLI

Per le versioni di GKE successive a 1.35.0-gke.3065000, utilizza uno dei seguenti comandi gcloud CLI per eseguire il deployment dei componenti ML Diagnostics richiesti (sia connection-operator che injection-webhook) nel cluster GKE.

Per i nuovi cluster GKE:

gcloud beta container clusters create CLUSTER_NAME --enable-managed-mldiagnostics

Per i cluster GKE esistenti:

gcloud beta container clusters update CLUSTER_NAME --enable-managed-mldiagnostics

Per disattivare ML Diagnostics, utilizza quanto segue:

gcloud beta container clusters update CLUSTER_NAME --no-enable-managed-mldiagnostics

Puoi anche attivare i comandi gcloud CLI tramite la console Google Cloud GKE:

Per i nuovi cluster GKE, vai a Feature Manager > Managed Machine Learning Diagnostics.

Vai a ML Diagnostics gestito da GKE
Per i cluster GKE esistenti, vai a Cluster, seleziona il nome del tuo cluster, vai a Modifica e modifica ML Diagnostics gestito in Funzionalità.

Per saperne di più sui comandi gcloud CLI per configurare un cluster GKE per ML Diagnostics, consulta il flag enable-managed-mldiagnostics nelle seguenti pagine di riferimento dell'API:

Installazione manuale

Per le versioni di GKE precedenti a 1.35.0-gke.3065000, devi configurare manualmente il cluster GKE per installare quanto segue:

cert-manager: un prerequisito per injection-webhook.
injection-webhook: fornisce all'SDK i metadati richiesti. Supporta i workload Kubernetes di machine learning comuni, come JobSet,RayJob e LeaderWorkerSet.
connection-operator: per la profilazione on demand su GKE. Il deployment di connection-operator insieme a injection-webhook nel cluster GKE inizializzerà le richieste di profilazione per i pod di destinazione con i server di profilazione in esecuzione quando attivi l'acquisizione on demand.

Per saperne di più sulla configurazione di Google Kubernetes Engine, consulta Configurare il cluster Google Kubernetes Engine.

Cert-manager

cert-manager funge da controller dei certificati per il cluster, garantendo che le applicazioni siano sicure e che i certificati non scadano mai involontariamente.

Utilizza Helm per installare quanto segue:

helm repo add jetstack https://charts.jetstack.io
helm repo update

helm install \
  cert-manager jetstack/cert-manager \
  --namespace cert-manager \
  --create-namespace \
  --version v1.13.0 \
  --set installCRDs=true \
  --set global.leaderElection.namespace=cert-manager \
  --timeout 10m

Injection-webhook

injection-webhook passa i metadati all'SDK. Utilizza helm upgrade --install per installare per la prima volta o eseguire l'upgrade di un'installazione esistente.

Utilizza Helm per installare quanto segue:

helm upgrade --install mldiagnostics-injection-webhook \
  --namespace=gke-mldiagnostics \
  --create-namespace \
  --version 0.25.0 \
  oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-injection-webhook

Connection-operator

connection-operator abilita la profilazione on demand su GKE. Utilizza la seguente tabella per trovare la versione corretta di mldiagnostics-connection-operator:

Versione JAX	Versione del grafico Helm
0.8.x	0.24.0
0.9.x+	0.24.0+

Utilizza Helm per installare la versione richiesta.

Per JAX 0.8.x:

helm upgrade --install mldiagnostics-connection-operator \
  --namespace=gke-mldiagnostics \
  --create-namespace \
  --version 0.24.0 \
  oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-connection-operator \
  --set 'mldiagnosticsConnectionOperator.controller.args={--metrics-bind-address=:8443,--health-probe-bind-address=:8081,--sidecar-timeout=65m,--disable-hostname-override}'

Per JAX 0.9.x+:

helm upgrade --install mldiagnostics-connection-operator \
  --namespace=gke-mldiagnostics \
  --create-namespace \
  --version 0.24.0 \
  oci://us-docker.pkg.dev/ai-on-gke/mldiagnostics-webhook-and-operator-helm/mldiagnostics-connection-operator

Etichettare il workload

Per la profilazione programmatica, devi attivare injection-webhook per inserire i metadati nei pod. Etichetta il workload o il relativo spazio dei nomi con managed-mldiagnostics-gke=true prima di eseguire il deployment del workload:

Etichettare un workload. Etichetta un workload Jobset, LWS o RayJob, che abiliterà il webhook per quel workload specifico. Di seguito è riportato un esempio per un workload JobSet:

apiVersion: jobset.x-k8s.io/v1alpha2
kind: JobSet
metadata:
  name: single-host-tpu-v3-jobset2
  namespace: default
  labels:
    managed-mldiagnostics-gke: "true"

Etichettare uno spazio dei nomi. In questo modo, il webhook verrà abilitato per tutti i workload Jobset, LWS e RayJob all'interno dello spazio dei nomi.
```
kubectl create namespace ai-workloads
kubectl label namespace ai-workloads managed-mldiagnostics-gke=true
```