Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Modell mit GPUs im GKE Autopilot-Modus trainieren

Autopilot

In dieser Kurzanleitung wird gezeigt, wie Sie ein Trainingsmodell mit GPUs in Google Kubernetes Engine (GKE) bereitstellen und die Vorhersagen in Cloud Storage speichern. Dieses Dokument richtet sich an GKE-Administratoren, die Cluster im Autopilot-Modus haben und zum ersten Mal GPU-Arbeitslasten ausführen möchten.

Sie können diese Arbeitslasten auch in Standardclustern ausführen, wenn Sie separate GPU-Knotenpools in Ihren Clustern erstellen. Eine Anleitung finden Sie unter Modell mit GPUs im GKE Standard-Modus trainieren.

Hinweis

Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie mit Google Cloudnoch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the GKE and Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Installieren Sie die Google Cloud CLI.

Hinweis:Wenn Sie die gcloud CLI zuvor installiert haben, prüfen Sie, ob Sie die aktuelle Version haben, indem Sie gcloud components update ausführen.

Wenn Sie einen externen Identitätsanbieter (IdP) verwenden, müssen Sie sich zuerst mit Ihrer föderierten Identität in der gcloud CLI anmelden.

Führen Sie den folgenden Befehl aus, um die gcloud CLI zu initialisieren:

gcloud init

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the GKE and Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Installieren Sie die Google Cloud CLI.

Hinweis:Wenn Sie die gcloud CLI zuvor installiert haben, prüfen Sie, ob Sie die aktuelle Version haben, indem Sie gcloud components update ausführen.

Wenn Sie einen externen Identitätsanbieter (IdP) verwenden, müssen Sie sich zuerst mit Ihrer föderierten Identität in der gcloud CLI anmelden.

Führen Sie den folgenden Befehl aus, um die gcloud CLI zu initialisieren:

gcloud init

Aktivieren Sie Cloud Shell in der Google Cloud Console.

Cloud Shell aktivieren

Unten in der Google Cloud Console wird eine Cloud Shell-Sitzung gestartet und eine Eingabeaufforderung angezeigt. Cloud Shell ist eine Shell-Umgebung, in der das Google Cloud CLI bereits installiert ist und Werte für Ihr aktuelles Projekt bereits festgelegt sind. Das Initialisieren der Sitzung kann einige Sekunden dauern.

Beispiel-Repository klonen

Führen Sie in Cloud Shell den folgenden Befehl aus:

git clone https://github.com/GoogleCloudPlatform/ai-on-gke && \
cd ai-on-gke/tutorials-and-examples/gpu-examples/training-single-gpu

Cluster erstellen

Rufen Sie in der Google Cloud Console die Seite Autopilot-Cluster erstellen auf:

Zur Seite „Autopilot-Cluster erstellen“
Geben Sie im Feld Name gke-gpu-cluster ein.
Wählen Sie in der Liste Region us-central1 aus.
Klicken Sie auf Erstellen.

Cloud Storage-Bucket erstellen

Rufen Sie in der Google Cloud Console die Seite Bucket erstellen auf:

Zur Seite „Bucket erstellen“
Geben Sie im Bereich Einstieg einen weltweit eindeutigen Namen für den Bucket ein:
```
PROJECT_ID-gke-gpu-bucket
```
Ersetzen Sie PROJECT_ID durch Ihre Google CloudProjekt-ID.
Klicken Sie auf Weiter.
Wählen Sie als Standorttyp die Option Region aus.
Wählen Sie in der Liste Region us-central1 (Iowa) aus und klicken Sie auf Weiter.
Klicken Sie im Abschnitt Speicherklasse für Daten auswählen auf Weiter.
Wählen Sie im Abschnitt Legen Sie fest, wie der Zugriff auf Objekte gesteuert wird für Zugriffssteuerung die Option Einheitlich aus.
Klicken Sie auf Erstellen.
Achten Sie darauf, dass im Dialogfeld Der öffentliche Zugriff wird verhindert das Kästchen Verhinderung des öffentlichen Zugriffs für diesen Bucket erzwingen angeklickt ist, und klicken Sie auf Bestätigen.

Cluster für den Zugriff auf den Bucket mithilfe der Identitätsföderation von Arbeitslasten für GKE konfigurieren

So gewähren Sie dem Cluster Zugriff auf den Cloud Storage-Bucket:

Erstellen Sie ein Kubernetes-Dienstkonto in Ihrem Cluster.
Erstellen Sie eine IAM-Zulassungsrichtlinie, die dem Dienstkonto Zugriff auf den Bucket gewährt.

Kubernetes-Dienstkonto in Ihrem Cluster erstellen

Gehen Sie in Cloud Shell so vor:

Mit dem Cluster verbinden:

gcloud container clusters get-credentials gke-gpu-cluster \
    --location=us-central1

Erstellen Sie einen Kubernetes-Namespace:

kubectl create namespace gke-gpu-namespace

Erstellen Sie ein Kubernetes-Dienstkonto im Namespace:

kubectl create serviceaccount gpu-k8s-sa --namespace=gke-gpu-namespace

IAM-Zulassungsrichtlinie für den Bucket erstellen

Weisen Sie dem Kubernetes-Dienstkonto die Rolle „Storage-Objekt-Administrator“ (roles/storage.objectAdmin) für den Bucket zu:

gcloud storage buckets add-iam-policy-binding gs://PROJECT_ID-gke-gpu-bucket \
    --member=principal://iam.googleapis.com/projects/PROJECT_NUMBER/locations/global/workloadIdentityPools/PROJECT_ID.svc.id.goog/subject/ns/gke-gpu-namespace/sa/gpu-k8s-sa \
    --role=roles/storage.objectAdmin \
    --condition=None

Ersetzen Sie PROJECT_NUMBER durch die Google CloudProjektnummer.

Prüfen, ob Pods auf den Cloud Storage-Bucket zugreifen können

Erstellen Sie in Cloud Shell die folgenden Umgebungsvariablen:
```
export K8S_SA_NAME=gpu-k8s-sa
export BUCKET_NAME=PROJECT_ID-gke-gpu-bucket
```
Ersetzen Sie PROJECT_ID durch Ihre Google CloudProjekt-ID.
Erstellen Sie einen Pod mit einem TensorFlow-Container:
```
envsubst < src/gke-config/standard-tensorflow-bash.yaml | kubectl --namespace=gke-gpu-namespace apply -f -
```
Mit diesem Befehl werden die von Ihnen erstellten Umgebungsvariablen in die entsprechenden Referenzen im Manifest eingefügt. Sie können das Manifest auch in einem Texteditor öffnen und $K8S_SA_NAME und $BUCKET_NAME durch die entsprechenden Werte ersetzen.

Erstellen Sie eine Beispieldatei im Bucket:

touch sample-file
gcloud storage cp sample-file gs://PROJECT_ID-gke-gpu-bucket

Warten Sie, bis der Pod bereit ist:
```
kubectl wait --for=condition=Ready pod/test-tensorflow-pod -n=gke-gpu-namespace --timeout=180s
```
Wenn der Pod bereit ist, sieht die Ausgabe so aus:
```
pod/test-tensorflow-pod condition met
```
Wenn für den Befehl ein Zeitlimit überschritten wird, erstellt GKE möglicherweise noch neue Knoten zum Ausführen der Pods. Führen Sie den Befehl noch einmal aus und warten Sie, bis der Pod bereit ist.

Öffnen Sie eine Shell im TensorFlow-Container:

kubectl -n gke-gpu-namespace exec --stdin --tty test-tensorflow-pod --container tensorflow -- /bin/bash

Versuchen Sie, die von Ihnen erstellte Beispieldatei zu lesen:
```
ls /data
```
Die Ausgabe zeigt die Beispieldatei.
Prüfen Sie die Logs, um die mit dem Pod verknüpfte GPU zu identifizieren:
```
python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"
```
Die Ausgabe enthält die GPU, die mit dem Pod verbunden ist, ähnlich dem Folgenden:
```
...
PhysicalDevice(name='/physical_device:GPU:0',device_type='GPU')
```
Schließen Sie den Container:
```
exit
```

Löschen Sie den Beispiel-Pod:

kubectl delete -f src/gke-config/standard-tensorflow-bash.yaml \
    --namespace=gke-gpu-namespace

Mit dem `MNIST`-Dataset trainieren und vorhersagen

In diesem Abschnitt führen Sie eine Trainingsarbeitslast für das MNIST-Beispiel-Dataset aus.

Kopieren Sie die Beispieldaten in den Cloud Storage-Bucket:

gcloud storage cp src/tensorflow-mnist-example gs://PROJECT_ID-gke-gpu-bucket/ --recursive

Erstellen Sie die folgenden Umgebungsvariablen:

export K8S_SA_NAME=gpu-k8s-sa
export BUCKET_NAME=PROJECT_ID-gke-gpu-bucket

Überprüfen Sie den Trainingsjob:

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: batch/v1
kind: Job
metadata:
  name: mnist-training-job
spec:
  template:
    metadata:
      name: mnist
      annotations:
        gke-gcsfuse/volumes: "true"
    spec:
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-tesla-t4
      tolerations:
      - key: "nvidia.com/gpu"
        operator: "Exists"
        effect: "NoSchedule"
      containers:
      - name: tensorflow
        image: tensorflow/tensorflow:latest-gpu 
        command: ["/bin/bash", "-c", "--"]
        args: ["cd /data/tensorflow-mnist-example; pip install -r requirements.txt; python tensorflow_mnist_train_distributed.py"]
        resources:
          limits:
            nvidia.com/gpu: 1
            cpu: 1
            memory: 3Gi
        volumeMounts:
        - name: gcs-fuse-csi-vol
          mountPath: /data
          readOnly: false
      serviceAccountName: $K8S_SA_NAME
      volumes:
      - name: gcs-fuse-csi-vol
        csi:
          driver: gcsfuse.csi.storage.gke.io
          readOnly: false
          volumeAttributes:
            bucketName: $BUCKET_NAME
            mountOptions: "implicit-dirs"
      restartPolicy: "Never"

Stellen Sie den Trainingsjob bereit:
```
envsubst < src/gke-config/standard-tf-mnist-train.yaml | kubectl -n gke-gpu-namespace apply -f -
```
Mit diesem Befehl werden die von Ihnen erstellten Umgebungsvariablen durch die entsprechenden Referenzen im Manifest ersetzt. Sie können das Manifest auch in einem Texteditor öffnen und $K8S_SA_NAME und $BUCKET_NAME durch die entsprechenden Werte ersetzen.
Warten Sie, bis der Job den Status Completed hat:
```
kubectl wait -n gke-gpu-namespace --for=condition=Complete job/mnist-training-job --timeout=180s
```
Wenn der Job bereit ist, sieht die Ausgabe in etwa so aus:
```
job.batch/mnist-training-job condition met
```
Wenn für den Befehl ein Zeitlimit überschritten wird, erstellt GKE möglicherweise noch neue Knoten zum Ausführen der Pods. Führen Sie den Befehl noch einmal aus und warten Sie, bis der Job bereit ist.

Prüfen Sie die Logs des TensorFlow-Containers:

kubectl logs -f jobs/mnist-training-job -c tensorflow -n gke-gpu-namespace

Die Ausgabe zeigt die folgenden auftretenden Ereignisse:

Erforderliche Python-Pakete installieren
MNIST-Dataset herunterladen
Modell mit einer GPU trainieren
Modell speichern
Modell bewerten

...
Epoch 12/12
927/938 [============================>.] - ETA: 0s - loss: 0.0188 - accuracy: 0.9954
Learning rate for epoch 12 is 9.999999747378752e-06
938/938 [==============================] - 5s 6ms/step - loss: 0.0187 - accuracy: 0.9954 - lr: 1.0000e-05
157/157 [==============================] - 1s 4ms/step - loss: 0.0424 - accuracy: 0.9861
Eval loss: 0.04236088693141937, Eval accuracy: 0.9861000180244446
Training finished. Model saved

Löschen Sie die Trainingsarbeitslast:

kubectl -n gke-gpu-namespace delete -f src/gke-config/standard-tf-mnist-train.yaml

Inferenzarbeitslast bereitstellen

In diesem Abschnitt stellen Sie eine Inferenzarbeitslast bereit, die ein Beispiel-Dataset als Eingabe verwendet und Vorhersagen zurückgibt.

Kopieren Sie die Bilder für die Vorhersage in den Bucket:

gcloud storage cp data/mnist_predict gs://PROJECT_ID-gke-gpu-bucket/ --recursive

Überprüfen Sie die Inferenzarbeitslast:

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: batch/v1
kind: Job
metadata:
  name: mnist-batch-prediction-job
spec:
  template:
    metadata:
      name: mnist
      annotations:
        gke-gcsfuse/volumes: "true"
    spec:
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-tesla-t4
      tolerations:
      - key: "nvidia.com/gpu"
        operator: "Exists"
        effect: "NoSchedule"
      containers:
      - name: tensorflow
        image: tensorflow/tensorflow:latest-gpu 
        command: ["/bin/bash", "-c", "--"]
        args: ["cd /data/tensorflow-mnist-example; pip install -r requirements.txt; python tensorflow_mnist_batch_predict.py"]
        resources:
          limits:
            nvidia.com/gpu: 1
            cpu: 1
            memory: 3Gi
        volumeMounts:
        - name: gcs-fuse-csi-vol
          mountPath: /data
          readOnly: false
      serviceAccountName: $K8S_SA_NAME
      volumes:
      - name: gcs-fuse-csi-vol
        csi:
          driver: gcsfuse.csi.storage.gke.io
          readOnly: false
          volumeAttributes:
            bucketName: $BUCKET_NAME
            mountOptions: "implicit-dirs"
      restartPolicy: "Never"

Stellen Sie die Inferenzarbeitslast bereit:
```
envsubst < src/gke-config/standard-tf-mnist-batch-predict.yaml | kubectl -n gke-gpu-namespace apply -f -
```
Mit diesem Befehl werden die von Ihnen erstellten Umgebungsvariablen durch die entsprechenden Referenzen im Manifest ersetzt. Sie können das Manifest auch in einem Texteditor öffnen und $K8S_SA_NAME und $BUCKET_NAME durch die entsprechenden Werte ersetzen.

Warten Sie, bis der Job den Status Completed hat:

kubectl wait -n gke-gpu-namespace --for=condition=Complete job/mnist-batch-prediction-job --timeout=180s

Die Ausgabe sieht etwa so aus:

job.batch/mnist-batch-prediction-job condition met

Prüfen Sie die Logs des TensorFlow-Containers:

kubectl logs -f jobs/mnist-batch-prediction-job -c tensorflow -n gke-gpu-namespace

Die Ausgabe ist die Vorhersage für jedes Bild und die Konfidenz des Modells für die Vorhersage, in etwa so:

Found 10 files belonging to 1 classes.
1/1 [==============================] - 2s 2s/step
The image /data/mnist_predict/0.png is the number 0 with a 100.00 percent confidence.
The image /data/mnist_predict/1.png is the number 1 with a 99.99 percent confidence.
The image /data/mnist_predict/2.png is the number 2 with a 100.00 percent confidence.
The image /data/mnist_predict/3.png is the number 3 with a 99.95 percent confidence.
The image /data/mnist_predict/4.png is the number 4 with a 100.00 percent confidence.
The image /data/mnist_predict/5.png is the number 5 with a 100.00 percent confidence.
The image /data/mnist_predict/6.png is the number 6 with a 99.97 percent confidence.
The image /data/mnist_predict/7.png is the number 7 with a 100.00 percent confidence.
The image /data/mnist_predict/8.png is the number 8 with a 100.00 percent confidence.
The image /data/mnist_predict/9.png is the number 9 with a 99.65 percent confidence.

Bereinigen

Führen Sie einen der folgenden Schritte aus, damit Ihrem Google Cloud Konto die in dieser Anleitung erstellten Ressourcen nicht in Rechnung gestellt werden:

GKE-Cluster beibehalten:Kubernetes-Ressourcen im Cluster und die Google Cloud Ressourcen löschen
Google Cloud -Projekt beibehalten:GKE-Cluster und die Google Cloud -Ressourcen löschen
Projekt löschen

Kubernetes-Ressourcen im Cluster und die Google Cloud -Ressourcen löschen

Löschen Sie den Kubernetes-Namespace und die bereitgestellten Arbeitslasten:

kubectl -n gke-gpu-namespace delete -f src/gke-config/standard-tf-mnist-batch-predict.yaml
kubectl delete namespace gke-gpu-namespace

Löschen Sie den Cloud Storage-Bucket:
1. Rufen Sie die Seite Buckets auf.
  
  Buckets aufrufen
2. Aktivieren Sie das Kästchen für PROJECT_ID-gke-gpu-bucket.
3. Klicken Sie auf Löschen.
4. Geben Sie DELETE ein und klicken Sie auf Löschen, um den Löschvorgang zu bestätigen.
Löschen Sie das Dienstkonto Google Cloud :
1. Rufen Sie die Seite Dienstkonten auf:
  
  Zur Seite „Dienstkonten“
2. Wählen Sie Ihr Projekt aus.
3. Aktivieren Sie das Kästchen für gke-gpu-sa@PROJECT_ID.iam.gserviceaccount.com.
4. Klicken Sie auf Löschen.
5. Klicken Sie zur Bestätigung noch einmal auf Löschen.

GKE-Cluster und Google Cloud -Ressourcen löschen

Löschen Sie den GKE-Cluster:
1. Rufen Sie die Seite Cluster auf:
  
  Zu den Clustern
2. Aktivieren Sie das Kästchen für gke-gpu-cluster.
3. Klicken Sie auf Löschen.
4. Geben Sie gke-gpu-cluster ein und klicken Sie auf Löschen, um den Löschvorgang zu bestätigen.
Löschen Sie den Cloud Storage-Bucket:
1. Rufen Sie die Seite Buckets auf.
  
  Buckets aufrufen
2. Aktivieren Sie das Kästchen für PROJECT_ID-gke-gpu-bucket.
3. Klicken Sie auf Löschen.
4. Geben Sie DELETE ein und klicken Sie auf Löschen, um den Löschvorgang zu bestätigen.
Löschen Sie das Dienstkonto Google Cloud :
1. Rufen Sie die Seite Dienstkonten auf:
  
  Zur Seite „Dienstkonten“
2. Wählen Sie Ihr Projekt aus.
3. Aktivieren Sie das Kästchen für gke-gpu-sa@PROJECT_ID.iam.gserviceaccount.com.
4. Klicken Sie auf Löschen.
5. Klicken Sie zur Bestätigung noch einmal auf Löschen.

Projekt löschen

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, zum Beispiel eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, anstatt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

Wechseln Sie in der Google Cloud -Console zur Seite Ressourcen verwalten.
Zur Seite „Ressourcen verwalten“
Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte

GPUs in GKE verwenden

Modell mit GPUs im GKE Autopilot-Modus trainieren

Hinweis

Beispiel-Repository klonen

Cluster erstellen

Cloud Storage-Bucket erstellen

Cluster für den Zugriff auf den Bucket mithilfe der Identitätsföderation von Arbeitslasten für GKE konfigurieren

Kubernetes-Dienstkonto in Ihrem Cluster erstellen

IAM-Zulassungsrichtlinie für den Bucket erstellen

Prüfen, ob Pods auf den Cloud Storage-Bucket zugreifen können

Mit dem MNIST-Dataset trainieren und vorhersagen

Inferenzarbeitslast bereitstellen

Bereinigen

Kubernetes-Ressourcen im Cluster und die Google Cloud -Ressourcen löschen

GKE-Cluster und Google Cloud -Ressourcen löschen

Projekt löschen

Nächste Schritte

Mit dem `MNIST`-Dataset trainieren und vorhersagen