Questa pagina è stata tradotta dall'API Cloud Translation.

Addestra un modello con PyTorch, Ray e Google Kubernetes Engine (GKE) sulle GPU

Questa guida mostra come addestrare un modello su Google Kubernetes Engine (GKE) utilizzando Ray, PyTorch e il componente aggiuntivo Ray Operator.

Informazioni su Ray

Ray è un framework di calcolo scalabile open source per applicazioni AI/ML. Ray Train è un componente di Ray progettato per l'addestramento e l'ottimizzazione dei modelli distribuiti. Puoi utilizzare l'API Ray Train per scalare l'addestramento su più macchine e per integrarla con librerie di machine learning come PyTorch.

Puoi eseguire il deployment dei job di addestramento Ray utilizzando la risorsa RayCluster o RayJob. Devi utilizzare una risorsa RayJob quando esegui il deployment dei job Ray in produzione per i seguenti motivi

La risorsa RayJob crea un cluster Ray effimero che può essere eliminato automaticamente al termine di un job.
La risorsa RayJob supporta i criteri di ripetizione per l'esecuzione resiliente dei job.
Puoi gestire i job Ray utilizzando pattern API Kubernetes familiari.

prepara l'ambiente

Per preparare l'ambiente:

Avvia una sessione di Cloud Shell dalla console Google Cloud facendo clic su Attiva Cloud Shell nella consoleGoogle Cloud . Viene avviata una sessione nel riquadro inferiore della console Google Cloud .

Imposta le variabili di ambiente:

export PROJECT_ID=PROJECT_ID
export CLUSTER_NAME=ray-cluster
export COMPUTE_REGION=us-central1
export COMPUTE_ZONE=us-central1-c
export CLUSTER_VERSION=CLUSTER_VERSION
export TUTORIAL_HOME=`pwd`

Sostituisci quanto segue:

PROJECT_ID: il tuo Google Cloud ID progetto.
CLUSTER_VERSION: la versione di GKE da utilizzare. Deve essere 1.30.1 o successiva.

Clona il repository GitHub:

git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples

Passa alla directory di lavoro:

cd kubernetes-engine-samples/ai-ml/gke-ray/raytrain/pytorch-mnist

Crea un ambiente virtuale Python:

python -m venv myenv && \
source myenv/bin/activate

Installa Ray.

Crea un cluster GKE

Crea un cluster GKE Autopilot o Standard:

Autopilot

Crea un cluster Autopilot:

gcloud container clusters create-auto ${CLUSTER_NAME}  \
    --enable-ray-operator \
    --cluster-version=${CLUSTER_VERSION} \
    --location=${COMPUTE_REGION}

Standard

Crea un cluster Standard:

gcloud container clusters create ${CLUSTER_NAME} \
    --addons=RayOperator \
    --cluster-version=${CLUSTER_VERSION}  \
    --machine-type=e2-standard-8 \
    --location=${COMPUTE_ZONE} \
    --num-nodes=4

Esegui il deployment di una risorsa RayCluster

Esegui il deployment di una risorsa RayCluster nel tuo cluster:

Esamina il seguente manifest:

apiVersion: ray.io/v1
kind: RayCluster
metadata:
  name: pytorch-mnist-cluster
spec:
  rayVersion: '2.37.0'
  headGroupSpec:
    rayStartParams:
      dashboard-host: '0.0.0.0'
    template:
      metadata:
      spec:
        containers:
        - name: ray-head
          image: rayproject/ray:2.37.0
          ports:
          - containerPort: 6379
            name: gcs
          - containerPort: 8265
            name: dashboard
          - containerPort: 10001
            name: client
          resources:
            limits:
              cpu: "2"
              ephemeral-storage: "9Gi"
              memory: "4Gi"
            requests:
              cpu: "2"
              ephemeral-storage: "9Gi"
              memory: "4Gi"
  workerGroupSpecs:
  - replicas: 4
    minReplicas: 1
    maxReplicas: 5
    groupName: worker-group
    rayStartParams: {}
    template:
      spec:
        containers:
        - name: ray-worker
          image: rayproject/ray:2.37.0
          resources:
            limits:
              cpu: "4"
              ephemeral-storage: "9Gi"
              memory: "8Gi"
            requests:
              cpu: "4"
              ephemeral-storage: "9Gi"
              memory: "8Gi"

Questo manifest descrive una risorsa personalizzata RayCluster.

Applica il manifest al cluster GKE:
```
kubectl apply -f ray-cluster.yaml
```

Verifica che la risorsa RayCluster sia pronta:

kubectl get raycluster

L'output è simile al seguente:

NAME                    DESIRED WORKERS   AVAILABLE WORKERS   CPUS   MEMORY   GPUS   STATUS   AGE
pytorch-mnist-cluster   2                 2                   6      20Gi     0      ready    63s

In questo output, ready nella colonna STATUS indica che la risorsa RayCluster è pronta.

Connettiti alla risorsa RayCluster

Connettiti alla risorsa RayCluster per inviare un job Ray.

Verifica che GKE abbia creato il servizio RayCluster:

kubectl get svc pytorch-mnist-cluster-head-svc

L'output è simile al seguente:

NAME                             TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)                                AGE
pytorch-mnist-cluster-head-svc   ClusterIP   34.118.238.247   <none>        10001/TCP,8265/TCP,6379/TCP,8080/TCP   109s

Stabilisci una sessione di port forwarding con l'head Ray:

kubectl port-forward svc/pytorch-mnist-cluster-head-svc 8265:8265 2>&1 >/dev/null &

Verifica che il client Ray possa connettersi al cluster Ray utilizzando localhost:

ray list nodes --address http://localhost:8265

L'output è simile al seguente:

Stats:
------------------------------
Total: 3

Table:
------------------------------
    NODE_ID                                                   NODE_IP     IS_HEAD_NODE    STATE    NODE_NAME    RESOURCES_TOTAL                 LABELS
0  1d07447d7d124db641052a3443ed882f913510dbe866719ac36667d2  10.28.1.21  False           ALIVE    10.28.1.21   CPU: 2.0                        ray.io/node_id: 1d07447d7d124db641052a3443ed882f913510dbe866719ac36667d2
# Several lines of output omitted